时间:2017-11-01 来源:互联网 浏览量:
竞争激烈的领域,友商们坐在一起畅谈行业,并不多见。计算机视觉可能就是这样的一个领域。深度学习技术成熟,国内计算机视觉领域的初创公司雨后春笋般涌现。商汤、旷视、依图、中科视拓都是其中最为知名的几家公司。据说,因为业务方向、产品具有一定的相似性,几家公司还经常在各类竞标中相遇。
在今年第二届微软亚洲研究院院友年度大会上,四家公司的高管难得被聚在了一起。 事实上,几家公司都与微软亚洲研究院有着深厚的渊源:中科视拓的董事长兼CTO山世光、旷视科技首席科学家孙剑是前微软亚洲研究院院长沈向洋的团队成员、博士生;依图科技的创始人兼CEO朱珑是前微软亚洲研究院副院长张宏江的学生;商汤科技创始人汤晓鸥也曾是张宏江在微软亚洲研究院媒体研究组的访问教授。
基于这种种渊源,张宏江还在大会上开玩笑提问沈向洋, 能不能把大家都收购了,成立微软亚洲研究院刷脸公司,“ 让天下没有难看的脸 ”。
一起回到微软亚洲研究院,微软全球执行副总裁沈向洋与5位微软亚洲研究院的院友:旷视科技创始人兼CEO印奇、旷视科技首席科学家孙剑、商汤科技联合创始人兼CEO徐立、中科视拓的董事长兼CTO山世光、依图科技业务技术副总裁吴岷坐在一起,他们都聊了什么呢?
人脸识别已经超越人类识别了么?
计算机视觉技术从提出到如今,已经有51年的历史了。深度学习算法出现,对其推动作用巨大。未来五年计算机语音有望会超过人类,但在计算机视觉领域,可能还有一段路要走。其中人脸识别领域,中国现在做得特别好,那么人脸识别是否已经全面超越人类识别?
综合几位嘉宾的观点,答案是陌生人识别技术上,可能在一定程度上超越人,但在熟人识别中,技术还有不少提升的空间。
徐立认为,陌生人识别技术上,可能在一定程度上超越人,但是人类真的认识人的过程当中,其实特别是熟悉的识别,远远不是现在技术能达到的。不过,这并不一定会影响到技术商用,每一个阶段都有那个阶段的“技术成熟”。比如,十年前人脸识别就已经在诸如海关等场景中运用,当时的准确率是53%。而随机猜的概率是50%。各个阶段有各个阶段不同的“技术成熟”,而现阶段在一些场景中人脸识别已经可以应用。
印奇认为,AI领域,小到人脸识别,在接下来的商业路径里面,都会跟场景紧密结合。将人脸整套系统、软硬件一起来看,已经有很多创业团队开始落地,在这些场景中,局部是可以与人进行比较的,而在未来两三年,在一些刚需场景下,是有机会做的非常好的。
山世光也表达了类似的观点。陌生人识别领域,特别是这个人相对比较配合的情况下,机器的能力肯定是超越人了,但在熟人场景下,就很难达到这样的水平。据说,此前有人表示,让家里的机器人识别家里5个人也很难做到100%识别。因此,人脸识别可能还有很多需要去做的地方,但在特定应用场景下面识别已经做得很好了。
其实,在熟人识别的领域,人眼识别也不一定做的好。 吴岷就曾遇到这样的案例,在一个警察客户那里,一个小伙子在系统里搜寻了下女朋友的近照,为了保密系统不显示身份证和名字,只显示人脸,结果屏幕上出现了12张脸,其中人脸的照片还是10年前或者20年前的身份证照片,最后帮他解围,在系统中把名字显示出来,看到排名第一的就是他女朋友。
而基于现在的技术,也有一些新的需求逐渐显现。比如,警察客户就向依图提过需求,能不能识别尸体照片;也有其他客户向中科视拓提过类似的要求,当时人脸识别还纠正了部分基因检测的错误。在这些新的场景中,人脸识别就远谈不上人眼识别。
人脸识别云、端与应用
当然,人脸识别主要有三个落地的方向:云端平台、终端、垂直场景应用。那么从什么方向、什么切入点切入去创业更有机会呢?
其实,几家知名的公司目前基本都是在围绕垂直场景做服务、做应用,尤其是在安防、金融领域。这很可能也是几家公司的主要收入来源。
旷视科技从2011年开始创业,经过六年的发展,印奇认为目前值得专注的行业有2.5个,分别是金融行业、安防行业、手机应用(0.5)。金融行业整个业务都是线上化的,已经完成了信息化、联网化,这一领域无论是人脸识别,还是智能风控,都是以云为主。安防行业,基本上以线下摄像头连接和智能化为核心,这是非常线下的生意。另外0.5个行业则是与手机相关的,包括APP、AR应用,之前这个行业是叫好不叫座,因为竞争激烈,目前都不怎么赚钱,iPhone X出来之后,教育了市场,也许有机会在每一个垂直行业里面做精准。不管哪一方面,AI公司能够形成壁垒,一定要触及数据,云不是一个简单API对外的服务,一定需要是SaaS,是完全数据闭环的服务。
在垂直场景中,尤其是安防场景中,云加端成为一个较为普遍的模式。徐立认为云加端的模式是未来AI技术企业发展的最好模式。 以安防为例,当前全球安防摄像头约两亿五千万支,预计2020年仅中国所有的室内外摄像头就有可能达到10亿支,如果按现在的模式,每个人都要盯住一个摄像头,所以完全集中化可能性不高,需要在端上面一定的布局和真的前置化的一些运算。
依图目前的模式也是既有云又有端,做垂直场景应用落地。在金融方向, 依图的SaaS服务,对接了Azure等云服务,接入了200多家互联网金融远程合成业务。在安防领域,也做了警务通等应用,帮助客户解决真正的问题。
人脸识别的感知问题
人工智能做到最后往往都是感知和认知。很多感知和认知都是和人脸连在一起的。人脸比较特别的一点是,通过人脸就可以看出你的情绪,是不是生气,是不是沮丧,是不是开心。
山世光认为,人脸识别的前端是感知,后端是认知。但是从目前来看,计算机视觉方向,能做的还多是感知。表情识别很难比人做得好,现在也暂时没有做得比人好的,主要原因是因为标注专业人员不太够,造成标注数据不够。通过其他的方法,也可以感知到人内心的情绪。比如,利用高速相机捕捉到一些人眼不能够感知到的微妙变化,然后进行解析。
孙剑也在思考类似的问题:为什么感知到现在做不好,到底是因为没有数据,还是其他原因?在他看来,下一步机器人要和人交互,一定要解决这个问题,这是值得投入精力去研究的问题。
不过,作为CEO,印奇和徐立,就没有那么担忧这个问题了。印奇认为,即使是这类非常难的问题,也有可能用非常工程化的方法解决,不一定要用最难的技术,反而可以用性价比更高的方案来解决。徐立的观点与之类似,认为必须根据实际的需求定义问题,同时要解决问题,超越工业应用的红线。