时间:2017-07-14 来源:互联网 浏览量:
作者| 石筱玉
编辑| 傅博
Ann Taylor原本非常害怕家外面的世界。在她来到一个新地点的时候,她总是不知道这里有谁、哪里有空座位,因此经常不知所措。但她说,微软的Seeing AI应用能够让她更有勇气走出家门,面对未知的世界。
Ann Taylor是Seeing AI 应用研发小组的一名成员,同时也是一个盲人。在她来到微软之初,她就对微软研究者们计划中的一套视障人士辅助工具产生了兴趣。Taylor亲切地将这套工具称为未来的“瑞士军刀”(“Swiss Army knife”)。
Taylor对工程师们说:
“让我们做一些真正对盲人群体有重要意义的事情吧!”
Mary Bellard(左)和AnneTaylor(右)是Seeing AI开发团队的成员
在2016年3月,微软在Build大会上讲述了Taylor的故事。今年的7月12日,这个名叫Seeing AI的iPhone应用终于在美国区开放下载。微软将这个应用称作“给盲人群体的有声相机”(Talking camera for the Blind),已经在app store获得了超过四星的评分。
微软将这个应用称作“给盲人群体的有声相机”(Talking camera for the Blind)。
在评分中,第一个“五星好评”表示自己并没有尝试过这个应用。但是给出这一评分的用户rsturner2002写道:
“我给这个app五星,是因为我觉得它是一个非常优秀、非常急需的应用。我希望它能够满足视障人士的需求,并且希望微软能够继续改进它。”
用户rsturner2002的评论。
Ann Taylor也分享过她对这一产品的期望。在微软亚洲研究院发表的文章中,她说虽然早已有一些能够帮助视障人士的手机应用和工具,但它们往往功能单一。而Seeing AI能够自动读出短语和长文章,识别身边的朋友和环境,具有比大多数面向视障人士的应用更多的功能。
这些应用场景对于视障人士,尤其是盲人来说,一定有非常大的意义。Seeing AI的这些理想真的能够成真吗?在实践中,我们发现了不少惊喜,可是也遇到了一些问题。
一打开这个app,我们就能看到下方有五个主要功能:短语、文件、商品、人物与环境。其中,“环境”功能被标注为测试版。在点击每一个按钮后,会有语音提示我们选择的功能是什么。
app页面下方的功能选择按钮。
“短语”功能可以为用户读出身边环境中的单词,比如在我们用镜头对准Exit标志的时候,Seeing AI就会自动并且重复地读出“Exit”这个词。在使用这个功能的时候,这个应用的识别敏感度比我们想象中高很多——我们曾经无意中将镜头凑近电脑键盘,应用甚至还能及时读出“PrtScn”、“F2”等按键。
用“短语”功能,能够让Seeing AI读出标志牌上的文字。
不过,由于目前该系统仅仅支持英语,在我们将镜头面对中英交杂的文章时,Seeing AI只会读出英文部分。
“文件”功能在一定程度上和“短语”通用,不过“文件”加入了拍照这一过程。和一些扫描类app的使用方法类似,使用时Seeing AI会自动检测纸张、书本的边界,并语音提示“左、上边界无法识别”等。在扫描完成后,应用会自动将照片内容转换成文本,用户随后可以选择让它将文字读出来。
经“文件”功能识别的Exit标志。
但是在我们闭上眼睛、试图只听语音提示对书页进行扫描的时候,还是遇到了一些困难。要是想完整地拍下书页内容,手机要尽量和桌面平行,并且照片中必须出现整个页面。在页面提示看不到某一边界的时候,我们并不知道是因为手机的角度问题,还是因为手机与书本的距离太近。在尝试很多次之后,我们才成功地让手机识别并自动拍下了书页照片。
在使用中我们还碰到了另一个问题:对于字数很多的文档页面,Seeing AI在处理一段时间后经常会跳出“对不起,请求时间过长”的提示,并且直接放弃识别,而在短文章中并没有出现这个问题。可能对于Seeing AI来说,识别较短文字还是目前的主要目标。
当我们试图拍下整页书之后,Seeing AI给了我们“对不起,请求时间过长”的提示。
“商品”功能和前两个的使用方法类似,主要是通过条形码进行商品辨别。但是对于中国用户来说,大部分国内的条形码并不能被Seeing AI读取。在Mashable.com的评测中,这个app能够成功读取“黄油”、“啤酒”等商品的二维码,并能够加载成分和如何使用的相关信息。
来自Mashable.com的测评图片。图片中,Seeing AI正确识别了啤酒品牌。
“人物”功能可以告诉用户在哪个方位、多远距离中有几个人。在使用中我们发现,Seeing AI会运用人脸识别功能,将镜头中出现的人脸用方框框出来,判断距离,并告诉用户人脸处于屏幕的中间还是靠上、靠下位置。不过,当被识别的人以侧面面对镜头的时候,Seeing AI就不能准确检测到人脸了。
Seeing AI告诉我,马斯克这张照片中检测不到人脸,而马斯克的正面照片就能被它清楚识别。
参与测评的我们一致认为,“环境”功能是最被视障人士需要的。如果能够向Taylor所说的那样,这个app能够帮助她识别房屋内的设施、椅子的位置,那么Seeing AI将会对Taylor和她的伙伴们有非常大的帮助。
在使用中,我们发现“环境”能够对身边的物体,例如人、电脑、书本,甚至装饰品进行非常准确的识别,并且能将其识别出的关键词组成常用的短语,用语音告诉用户。例如“桌上的一盆花”和“一个放了家具、有大窗户的起居室”。
不过Seeing AI对于这个环境描述的细节也就到此为止了。当我们拍摄一把椅子的时候,配文是“一把椅子放在地面上”,并没有告诉我们椅子的位置,和是否空着等信息。可能对于“测试版”的环境功能来说,它的功能还有很大提升空间。
用Seeing AI识别一把空椅子,得出的结果是“一把椅子放在地面上”。
在测试中,我们发现Seeing AI对文字、图片内容的识别敏感度、准确率都很高。尽管它对于一些环境细节仍然没有办法读取,但是也能够在很大程度上帮助视障群体。
然而,让我们最不满意的一点是,“环境”并不能像“短语”等功能一样自动拍照并读取相关信息,而是需要用户手动点击屏幕上的相机按钮。
屏幕左侧有一个小蓝图标,这就是拍照按钮。
拍照按钮处于屏幕的最左侧,是一个小的蓝色按钮。实际上,按动屏幕左侧的大片区域都能够控制拍照,但是在如何使用拍照功能这一点上,Seeing AI缺乏可靠的语音提示。在实际使用中,让视障用户拍了照之后才能进行环境识别,也显得不太方便。
除了“环境”功能只能依靠拍照,“文件”、“人物”两个功能既能够让用户进行手动拍照,也能自动识别。而“短语”、“商品”和“人物”全部依靠自动识别。
对于Seeing AI的不足之处,微软也在app的开启页面上这样提示:
“Seeing AI并不总是准确。它不应被用于导航,也不应被用于可能让你受到伤害的场景中。在使用Seeing AI时,用户风险自负。”
Seeing AI在开启页面上的提示语。
我们觉得,尽管Seeing AI是“给盲人群体的有声相机”,但是在视障群体真正能用上、用好Seeing AI这个应用之前,还是需要有人帮助他们熟悉这个app的使用方法,以及各个按键的位置。在目前的版本中,Seeing AI操作中的语音提示还是不够完备的。
实际上,Seeing AI是微软十多年计算机视觉的研究成果。据Taylor所说,Seeing AI已经是市面上针对视障群体,功能最齐备的一个手机应用。微软也一直致力于利用AI这项技术破解医疗难题,改善各类人群的生活。
Seeing AI应用开启页面中列举的多种功能。
微软在今年2月启动了Healthcare NExT 计划,和Google、IBM等公司一样,期望能够将AI运用于医疗行业。在今年5月,微软还曾设计了一个可穿戴设备,帮助帕金森患者Emma Lawton控制病情所带来的抖动症状。
微软为帕金森患者Emma Lawton设计的可穿戴设备。
尽管微软离“让Seeing AI成为盲人群体的眼睛”这一设想可能还有点远,但是Seeing AI已经拥有了较为完备的功能,也让我们对它的性能提升有非常大的期待。对于视障群体来说,微软这样的大公司能够根据他们的需求开发对应的产品,这也让他们和独立、便利的生活又近了一步。
Taylor本人也对Seeing AI这个产品颇为自豪。她说:
“我们最后真的推出了这款如此宝贵的‘瑞士军刀’,让其他视障人士也能更好地欣赏这个世界的美好。”