时间:2017-08-22 来源:互联网 浏览量:
微软的语音识别系统已经达成与人类抄写的错误率水平相仿
微软昨天宣布,其会话式语音识别系统的错误率达5.1%,符合专业人员抄录员的错误率。
微软去年认为,其5.9%的错误率已经达到了人性化水平,但IBM研究人员要求系统达到5.1%,略低于5.5%的最低字错误率。
最近微软的测试与去年的一样,Microsoft的系统是针对“配电板”语料库进行测试的,这个数据集包括美国口音的陌生人之间的大约2,400次双面电话对话。这个测试涉及到在讨论一系列话题的人之间进行谈话,从体育到政治,包括更加正式的对话
与去年的测试不同的,微软没有将其系统与另一个称为CallHome的数据集进行测试,包括家庭成员之间的开放式和更随意的对话。 CallHome的错误率都超过了人机和机器的两台交换机测试。
尽管如此,微软在调整其神经网络声学和语言模型后,确实在去年的“Switchboard”结果中削减了12%。
微软技术研究员黄雪芹解释说“我们引入了一个额外的CNN-BLSTM(卷积神经网络结合双向长期记忆)模型,用于改进声学建模。另外,我们的方法来组合来自多个声学模型的预测现在在帧/语音和单词“
“此外,我们通过使用对话会话的整个历史来加强识别器的语言模型,以预测接下来可能发生的事情,有效地允许模型适应对话的话题和本地语境。”
尽管有新的挑战,微软不得不承认机器难以识别不同的口音和口音风格,并且在嘈杂的条件下会表现不佳。
而Google今年早些时候宣布其系统实现了4.9%的字错误率,尽管目前还不清楚它使用了什么测试。