几十年来的语音识别 Siri是如何诞生的
回顾语音识别技术的发展,就像看着孩子长大一样,从识别单个音节的婴儿谈话水平,到建立数千个单词的词汇,到用快速、机智的回答来回答问题,就像苹果的超级智能虚拟助理Siri所做的那样。
听Siri,它略带沙哑的幽默感,让我们不禁想知道,这些年来,语音识别有多远。 下面来看看过去几十年的发展,这些发展使人们能够只使用他们的声音来控制设备。
1950年代和1960年代:婴儿谈话
第一个语音识别系统只能理解数字。 (考虑到人类语言的复杂性,发明家和工程师首先关注数字是有道理的。) 贝尔实验室于1952年设计了“奥德丽”系统,它识别单个声音所说的数字。 十年后,IBM在1962年的世界博览会上展示了它的“鞋盒”机器,它能听懂16个英语单词。
美国、日本、英国和苏联的实验室开发了其他硬件,致力于识别口语,扩展语音识别技术,以支持四个元音和九个辅音。
它们听起来可能不太像,但这些最初的努力是一个令人印象深刻的开始,特别是当你考虑到当时计算机本身是多么原始的时候。
20世纪70年代:语音识别起飞
由于美国国防部的兴趣和资助,语音识别技术在20世纪70年代取得了重大进展。 从1971年到1976年,DoD的DARPA语音理解研究(SUR)计划是语音识别史上最大的一个,除其他外,它还负责卡内基梅隆的“哈比”语音理解系统。 哈比可以理解1011个单词,大约是一个平均三岁的人的词汇量。
哈比之所以重要,是因为它引入了一种更有效的搜索方法,称为波束搜索,以“证明可能句子的有限状态网络”,根据AlexWaibel和Kai-FuLee在语音识别中的阅读。 (语音识别的故事与搜索方法和技术的进步密切相关,就在几年前谷歌进入移动设备语音识别领域就证明了这一点。)
70年代还标志着语音识别技术的其他几个重要里程碑,包括成立了第一家商业语音识别公司ThresholdTechnology,以及贝尔实验室推出了一种可以解释多个人声音的系统。
1980年代:语音识别转向预测
在接下来的十年里,由于理解人们所说的话的新方法,语音识别词汇从大约几百个单词跳到几千个单词,并且有可能识别无限数量的单词。 一个主要原因是一种新的统计方法,称为隐马尔可夫模型。
而不是简单地使用模板的单词和寻找声音模式,HMM考虑了未知声音的概率是单词。 这一基础将在今后二十年内建立(见自动语音识别技术发展简史B.H.Juang和Lawrence R.Rabiner)。
有了这种扩大的词汇,语音识别开始进入商业和专业行业的商业应用(例如,医疗使用)。 它甚至进入了家,以世界奇迹的朱莉娃娃(1987)的形式,孩子们可以训练来回应他们的声音。 (最后,了解你的娃娃。
看看朱莉能说什么:
然而,当时的语音识别软件是否能像1985年的Kurzweil文本到语音程序那样识别1000个单词,或者它是否能像IBM的系统那样支持5000个单词的词汇表,一个重要的障碍仍然存在:这些程序需要离散的听写,所以你必须在每个单词之后暂停。
下一页:面向群众的语音识别,以及语音识别的未来
1990年代:大众自动语音识别
在90年代,拥有更快处理器的计算机终于到来,语音识别软件对普通人来说变得可行。
在1990年,龙推出了第一个消费者语音识别产品,龙口述,令人难以置信的价格$9000。 七年后,进步很大的龙自然地来到了。 应用程序识别连续的语音,所以你可以说,嗯,自然,每分钟100字左右。 然而,你不得不训练这个项目45分钟,它仍然是昂贵的695$。
第一个语音门户VAL来自贝尔南方,是在1996年出现的;VAL是一个拨号式交互式语音识别系统,它应该根据你在电话上说的话给你提供信息。 VAL为所有不准确的语音激活菜单铺平了道路,这些菜单将在未来15年及以后困扰呼叫者。
2000年代:语音识别平台——直到谷歌出现
到2001年,计算机语音识别的准确率达到了80%,而且在近十年末,这项技术的进步似乎停滞不前。 在语言宇宙有限的情况下,识别系统做得很好,但在统计模型的帮助下,在类似发音的单词中,它们仍然是“猜测”的,随着互联网的发展,已知的语言宇宙继续增长。
你知道语音识别和语音命令是内置在Windows Vista和MacOSX中的吗? 许多计算机用户都不知道这些特性的存在。 Windows语音识别和OSX的语音命令很有趣,但不像普通的旧键盘和鼠标那么精确或容易使用。
语音识别技术的发展开始回到最前沿,其中一个重大事件:谷歌语音搜索应用程序的到来,为iPhone。 谷歌应用的影响是显著的,原因有两个。 首先,手机和其他移动设备是语音识别的理想工具,因为想要取代它们微小的屏幕键盘是开发更好的替代输入方法的动力。 其次,谷歌有能力将其应用程序的处理卸载到其云数据中心,利用所有的计算能力来进行大规模的数据分析,以便在用户的单词和它收集的大量人类语音示例之间进行匹配。
总之,语音识别的瓶颈一直是数据的可用性和高效处理数据的能力。 谷歌的应用程序在分析中增加了数十亿搜索查询的数据,以更好地预测你可能在说什么。
2010年,谷歌在Android手机语音搜索中增加了“个性化识别”,使该软件能够记录用户的语音搜索,并生成更准确的语音模型。 该公司还在2011年年中将语音搜索添加到Chrome浏览器中。 还记得我们从10到100个单词开始,然后毕业到几千吗? 谷歌的英语语音搜索系统现在包含了来自实际用户查询的2300亿个单词。
西里来了。 像谷歌的语音搜索一样,Siri依赖于基于云的处理。 它绘制它所知道的关于你的内容来生成一个上下文的回复,并且它以个性来响应你的声音输入。 正如我的PCWorld同事大卫·道所指出的:“这不仅有趣,而且有趣。 当你问Siri生命的意义时,它告诉你“42”或“迄今为止所有的证据都指向巧克力”。 如果你告诉它你想隐藏一具尸体,它会帮助附近的垃圾场和金属铸造厂。
语音识别已经从实用到娱乐。 这孩子似乎都长大了。
未来:准确无误的话语
语音识别应用程序的激增表明,语音识别的时代已经到来,你可以期待未来更多的应用程序。 这些应用程序不仅可以让你通过语音控制你的电脑,或者将语音转换为文本-它们还将支持多种语言,提供各种扬声器的声音供你选择,并集成到你的移动设备的每一个部分(也就是说,它们将克服Siri的缺点)。
语音识别应用程序的质量也会提高。 例如,感官的真正无手语音控制可以听到和理解你,即使在嘈杂的环境中。
当每个人都开始对自己的移动设备大声说话时,语音识别技术可能会溢出到其他类型的设备中。 不难想象,在不久的将来,我们会命令我们的咖啡机,与打印机交谈,并告诉灯关闭自己。