时间:2017-10-19 来源:互联网 浏览量:
1982 年上映的电影《银翼杀手》,描述的是一个生物技术高度发达的未来世界。片子里仿生人、记忆移植已经是常态。
现在 35 年过去,它的续集已经在许多国家上映,很显然我们现实中的生物技术远没有构想的发达。
但有一个技术现实甩开了科幻。电影中富可敌国的公司 Tyrell 集团的老板,他的电子智能助理,却只能识别非常慢的语音命令,和用非常干瘪的语调告诉他门口有客人。
现实的发展和艺术的想象完全走向了不同的方向。
上个月,微软发布了一篇研究文章,宣布在人工智能语音识别领域有了一项突破:在利用标准数据集 Switchboard 的测试中,微软的人工智能实现了 5.1% 的错误率,这个数据是目前人工智能领域最高的,也超过了人类的最小错误率 5.9%。
这篇技术文章的作者是在微软负责语音、语言人工智能研究的计算机科学家黄学东博士。黄学东毕业于湖南大学,在爱丁堡大学获得博士学位,1993 年加入微软,研究人工智能超过 24 年。日前黄学东接受了《好奇心日报》的专访,聊了聊一些关于语音识别和人工智能的话题。
就听“懂”人话来说,机器已经做到了极限
语音识别这个场景每一个消费者应该都已经很熟悉了:和 Siri 的对话,用讯飞输入法听写等等都是语音识别。虽然程序能听懂人说话是很久远以前的事情,比如Windows XP 上就内置有听写功能,但那个时候的听写功能必须用一个话筒非常严肃、缓慢的读出字词,计算机才能识别你说的话。
微软取得的突破就是这个领域:在利用标准数据集 Switchboard 的测试中,微软的人工智能实现了 5.1% 的错误率,这个数据是目前人工智能领域最高的,也超过了人类的最小错误率 5.9%。
公共数据集 Switchboard 是语音识别人工智能领域公认的标准数据集,它包含了 2000 多个小时的电话录音,这些录音都是收集来的公开资料,内容五花八门,都是通过电话录音系统收集来的日常“聊天”内容,没有针对计算机进行优化。
AI 能不能听懂 Switchboard 里的录音资料,然后转换成文字,是业界对语音识别 AI 能力的考核标准。
像真人一样,计算机能听懂人随意讲出的话是这几年的事情。黄学东说,微软 AI 的错误率比人类更低,指的是使用多个人工速记员团队,除了反复聆听之外,团队之间还可以进行互相比对和纠错,这样的结果下,人类能达到的错误率最低就是 5.1%。
但是要注意的是,说 AI 超越人类的语音识别能力,只是说能听懂说的每一个字并将他们变成文字,与计算机能不能明白这些文字的全部意义是不同的两种能力。后面这种能力是小冰、Siri 等智能语音助手的核心能力。
语音识别的最大瓶颈,是你的手机太慢了
除了听写,黄学东也通过向《好奇心日报》展示了 PowerPoint 中的演讲插件,展示了微软人工智能团队的另一个成果:机器翻译 PPT。
PPT 这个插件在 2016 年微软年度 Build 开发者大会上就有展示,在启动这个插件之后,PowerPoint 在播放幻灯片的同时就可以把演讲者说的话几乎实时的变成字幕显示在屏幕上,同时可以翻译成 60 种语言。
现在所有的 Windows 版本 Office 的使用者都可以安装这个插件,插件在工作的时候不是简单的语音识别和翻译,它会对幻灯片的内容进行识别的学习,以便在理解演讲者的话时,准确识别幻灯片中出现的特殊词汇。
黄学东说自己在海外读博士的时候,遇到的最大问题就是语言。“苏格兰口音的英语完全听不懂”,他说。在看 BBC 的时候,他发现 BBC 为观众提供了实时的英文字幕,看英文比听英文要流畅多了,他那时候想,如果有个自动的字幕机多好。
这是 PPT 翻译插件的灵感来源。
但他承认说这个插件目前的识别准确率比 5.1% 的实验室错误率高很多,主要原因是这个插件依靠的是实验室服务器提供的无限计算性能,当受限于个人电脑的时候,它就低多了。
其它人工智能相关服务也都是如此。几乎所有的手机人工智能功能都必须依靠云计算来完成,比如视频编辑应用 Prisma。
Prisma 可以把照片和视频用人工智能加上风格化的滤镜,但必须依靠网络上传和下载,编辑视频所需的时间比普通视频应用长得多。可以想象,如果手机的性能连语音识别都没法完成,你和 Siri 你每说一句话都需要等待上传识别再下载,这样的体验就太糟糕了。
在实际测试里能感觉到,只有放慢速度说话的时候,微软的插件才能提供比较可靠的字幕。
接下来的改进主要将是英特尔、苹果、高通等芯片设计公司的工作,它们决定着你的电脑、手机用什么处理器。目前苹果已经为新一代 iPhone 定制了为图像识别、语音识别等人工智能相关计算优化的新处理器。
用比尔·盖茨的一段话说,“一般人对一年内的工作计划都会高估,但对十年的工作往往会低估。”
题图/微软亚洲研发集团
喜欢这篇文章?去 App 商店搜 好奇心日报 ,每天看点不一样的。