潮科技行业入门指南 | 深度学习理论与实战:提高篇(2)——语音识别简介
编者按:本文节选自《深度学习理论与实战:提高篇 》一书,原文链接http://fancyerii.github.io/2019/03/14/dl-book/。作者李理,环信人工智能研发中心vp,有十多年自然语言处理和人工智能研发经验,主持研发过多款智能硬件的问答和对话系统,负责环信中文语义分析开放平台和环信智能机器人的设计与研发。 以下为正文。 语音识别(Speech Recognition)的目标是把语音转换成文字,因此语音识别系统也叫做STT(Specch to Text)系统。语音识别是实现人机自然语言交互非常重要的第一个步骤,把语音转换成文字之后就由自然语言理解系统来进行语义的计算。 有的学者把语音识别和自然语言理解都放到一起叫做Speech and Language Processing,比如Dan Jurafsky等人的书Speech and Language Processing,讨论的内容包括语音识别和自然语言处理。在语音识别时会使用语言模型,这也是自然语言处理的研究对象,在很多其它自然语言处理系统比如机器翻译等都会使用到语言模型。 更多的时候这两个方向的研究并不会有太多重叠的地方,语音识别除了语言模型之外也不会考虑太多的”语义”。而自然语言处理假设的研究对象都是文本,他们并不关心文本是语音识别的结果还是用户从键盘的输入亦或是OCR(图像处理)扫描的结果。但是从人类的语言发展来说,我们都是首先有语言而后才有文字,即使到今天,仍然有一些语言只有声音而没有文字。虽然研究的时候需要有一个更具体的方向,但是也不能把Speech和Language完全割裂开来。 任务分类 语音识别的任务可以根据如下的一些维度来分类:
|