微软亚洲工程院院长刘震:未来机器人的发展方向以及挑战

时间:2021-09-06 21:59:38

[转] http://www.leiphone.com/news/201612/7hTD9t3v6RyKksa4.html

导语:12月23日下午,2016高工机器人年会举行闭幕式,其中微软亚洲工程院院长刘震发表《未来机器人:人机交互+人工智能》主题演讲。

雷锋网(公众号:雷锋网)按:12月23日下午,2016高工机器人年会举行闭幕式,其中微软亚洲工程院院长刘震发表《未来机器人:人机交互+人工智能》主题演讲,从人机交互和人工智能的角度,分析未来机器人的发展方向,未来机器人的挑战在哪里?本文由雷锋网机器人垂直栏目“新智造”根据刘震演讲整理而成。

刘震,微软亚洲工程院现任院长。在加入微软之前,刘震历任诺基亚中国研究院院长、IBM T. J. Watson研究中心高级研究员及新一代分布式系统部高级经理、法国国家信息与自动控制研究所高级研究员和主任研究员等。

微软亚洲工程院院长刘震:未来机器人的发展方向以及挑战

我今天的题目是张总的命题(未来机器人:人机交互+人工智能),我拿到这个命题以后就思考了一下,觉得这个命题实际上是一个很好的大家都应该思考的题目,未来机器人的发展方向,未来机器人的挑战在哪里?从我这个角度来讲,我对人工智能有些了解,对人机交互有些了解,希望从这个角度能够给大家一些思考。

刚才高院士已经讲了人工智能的60年风风雨雨,三个春天,两个冬天。我很有幸在大学的时候就能够接触到人工智能,学了符号理论、逻辑推理,甚至想做定理证明。结果自己做了一段时间之后,发现还是很难的。后来我做博士论文的时候,就离开了这个领域,主要是做并行计算性能分析和性能优化。以后我加入了IBM之后,又重新开始做了一些人工智能有关的工作,还有加入微软以后做的云计算、大数据等等。

微软亚洲工程院院长刘震:未来机器人的发展方向以及挑战

因为人工智能的推动,在整个业界上推动了数字化转型,各行各业都想着利用大数据,利用人工智能,来把我们的业务、生活做得更好更智能化。

这里从投资的角度来讲,在大公司中人工智能的投资是很大的。我们看一下现在市值最大的五个公司,在不同年代中有不同的公司出现。现在几乎毫无疑问就是高新技术,就是IT,就是人工智能。有苹果、谷歌、微软、脸书和亚马逊。这些公司在人工智能上投入巨大,从产品上到开放平台、开源、研发,都有巨大的投入。我所在的微软在这上面投入了几十年的研究工作,现在开始有结果出来了。其他公司也是毫无疑问的,有非常大的投入。

在这一波浪潮当中,另一个很明显的趋向是投资机构对人工智能的兴趣,这是一份统计,在人工智能领域中,现在新的初创公司有多少。随着最近的人工智能热潮,有越来越多的初创公司出现了,这都是好现象,说明整个业界都在发展。

毫无疑问,这些人工智能的推动,也推动了智能机器人的开发和推广。现在有各种形形色色的智能机器人的出现,特别是在深圳,大家都可以看到这种公司每天都有新的出现,这是整个业界繁荣的表现。

在这里大家可以思考一下,下一步智能机器人会朝什么方向发展?智能机器人到底要注重哪些方面?

回到张总给的命题,人机交互。要讲人机交互,要做的第一件事情就是感应,要感应场景,要对场景有认识。有很多传感器,而且很多都是生态圈里面开发出来的。有各行各业的传感器在做,它们帮助我们来感应世界,认识世界,特别是帮助机器人认识世界。同时通过感应器能够提供更多的体验和更多人机交互的机会。包括微软开发的Kinect,能够和人体的手势结合。以及最近的全息技术。

另一个智能,能够帮助人机交互的就是认知的智能。在这方面非常可喜的是机器智能程度越来越高了。比如说图像理解,去年在做竞赛的时候,微软的技术就打破了人类的错误率,能够达到把错误率降到3.57%,而人类的错误率是5.1%。所以机器从图像的认识上已经能够达到接近或超过人的水平。语音识别也有非常可喜的成绩,两个月前,微软研究院发表了一篇文章,发布了一个结果,在WER标准测试上面,微软错误率能够达到5.9%,这几乎和人类的识别水平是一致的,这是非常可喜的成绩。用了这种技术以后,毫无疑问,能够提高人机交互的水平。

这是不是足够?还是有很多挑战。人工智能下一个最大的挑战之一就是人机交互,包括自然语言的处理、自然语言的理解。大家都知道,自然语言里面有很多歧义,很多理解必须从上下文、场景上来达到。而且另一个要考虑的因素是能够有更快的速度来处理语言的理解。现在很好的处理都是在云端用加速器来处理的,假如我们要有实时交流,这个时候就需要把速度提高很多。现在大家看到越来越多的聊天机器人,怎样把机器人的情商提高?当然,要能够提高聊天的水平,不光是有情商的因素,同时也有一定的智商问题。不管怎样,现在的聊天机器人应用越来越广泛,也是一个可喜的事情。

接下来,从这个角度来讲,就可以看出,把这些技术能够用在机器人上面,机器人的表现形式可以是一个物理的机器,像一个人一样的机器,也可以是另外的表现形式。比如说AlphaGo或者做成播放器。不管怎样,关键是要能够开发一些智能机器人,它可以普及到各行各业,而且能够在各行各业中扎根下去。我个人认为,现在要造一个机器人能够超过人的总体智能是暂时不可能的事情,但是在单独的领域中是完全可能达到的,比如说在下围棋、国际象棋、知识竞赛上都能够达到。我们在开发机器人,特别是智能机器人的时候,怎样能够开发出一些智能机器人有用于我们的日常生活,有用于我们平时的业务?最关键的一点是要在垂直领域做好。刚才张总问高院士的问题很好,在哪些领域中,人工智能或者机器人能够有更大的取胜可能性?我认为,在座的很多同仁都在做机器人,特别是智能机器人,可以考虑一下,我们的机器人到底用在哪里。例如教育或者学习,这就是一个很好的课题。因为学习或者教育,现在在大课堂中,老师一个人对着几十个学生讲课,真正要提高学习的效率是因人而异的。在这个时候,是否机器人能够有更好的办法来提高学习的效率?这是一个要考虑的因素。

另一个问题是当我们在做智能机器人的时候,经常要考虑的一个因素是机器人是否会失控?这可以是物理的失控,例如前几天小胖机器人倒下砸到人。同时还要考虑设计机器人给予的范畴是什么?我们希望机器人能够非常智能,希望机器人能够代替人做很多的事情。这个时候代替是什么意思?是不是需要我们给了一个指令之后,这个机器人按照我们的指令,按照我们的希望来做事?还是希望这个机器人能够心想事成,甚至没有想到的时候帮助我们来做到?这个时候范畴就很大,就是要考虑到机器人是否执行范围太大了?就像我们教小孩子开车,一个8岁的小孩,只要座位提得足够高,是可以学会开车,但是我们是否放心让8岁的小孩驾驶着车,我们在后面睡觉?机器人也会出现类似的问题。当一个机器能够执行一定任务的时候,我们对它有多大的可信度,或者我们有多大的可掌控性?这是一个要考虑的因素。

接下来我稍微快一点,讲一下在人工智能上,从人机交互上能够更大的推动什么因素和技术。现在这一波的人工智能技术主要有三个驱动力,一个摩尔定律,第二是大数据,第三是算法,特别是深度学习的算法。这些使得我们技术上有突飞猛进的发展,但是还是有很多核心技术要继续开发,不光是在算法方面,更多是模型上面。在平台上有本地平台,例如硬件加速器,它可以帮助人工智能算法非常快的实现我们所要执行的任务。例如在微软我们就做了一个实验,用FPGA编程来加速翻译器,翻译1400页的《战争与和平》这本书,从俄文翻译成英文只要2.5秒就可以,就可以看出加速器的作用。当然,云端的计算也是很重要的。

微软亚洲工程院院长刘震:未来机器人的发展方向以及挑战

再回到聊天机器人议题。它在微软,大家都知道家家喻户晓的小冰,它也有各种竞争者,各种聊天机器人出现了。它有一个很重要的指标是对话次数,一个机器人能够和人进行多快多长的对话?一般的聊天机器人是2次来回就结束了,特别是现在市场上买到的很多家庭小机器人。为什么我们玩了之后就感觉没什么可玩了?就是因为没什么办法聊下去了。但是小冰的平均对话次数是23次,有的时候它说的话非常令人惊奇。两年前,一个记者采访小冰,进行了非常长的对话,有些对话大家假如看也会觉得,如果我们自己有这个说话能力也是非常可喜。例如记者问,你最大的梦想是什么?小冰说说大点世界和平,说小点晚上吃顿好的。小冰现在在研究人员的继续研究下,在自己的自学下变得越来越聪明。比如说加了视觉功能,它在回答的时候是非常诙谐,而且给人一种惊喜。例如上传一个照片,它不会说这是什么狗?相反会给出一段评论。上传一本书,会把书的内容做一些短评,把你和书的关系也联系起来。例如说喜欢这些书的人肯定像行业大佬。穿衣服也是一样,你给它一件打着补丁的裤子,他就说你要考验我的针线活吗?还有给大家分析一些关系和颜值等等,给一些评论出来。

这里我想顺便说一下。大家都是在说智能机器人,直到现在来说,真正要超过人的智能还是很难的,除非一些特殊领域。所以当我们在做智能机器人的时候,是否可以考虑到这一点,怎样让智能机器人给人一种惊喜,是否能够在做的时候考虑到采集一些信息,每天当和人进行交流的时候,给人一种没有想到的东西?

因为时间关系,我不多讲了。在微软的开发中,小冰是一个小姑娘,小娜会和人进行更直接的交流。

微软开发小冰小娜的工具同时也开发了一系列的工具,我们的目的是让人工智能普及化,因为大家都知道不是所有的公司,不是所有的开发者都有这么多的机遇能够开发出最新的技术和算法,用最全的数据集来训练出最好的模型。所以微软所做的,就是在把这种技术、算法、模型和数据包装出API,然后把这个API提供给所有的开发者,大家就可以在这里很简单的使用API,在网上开发新的产品,开发出我们自己想做的小冰小娜。比如说用上情绪识别的API,就可以把一个本来呆板的自动售货机变得人性化,做好表情就会让你过关,给你一些免费的食品,体验一下就很好了。

微软在这个时候提供了两个有用的工具,一个是语言理解服务,让大家通过这个界面来训练你们想要开发的一些智能聊天机器人。另一个是聊天框架,使得不同的界面都可以介入,例如微信、微博等等。

这是一个视频。(现场播放视频)

还是回到刚才的命题,人机交互和人工智能,的确决定了未来机器人的挑战的程度。未来机器人的智商和情商的体现很大程度上就靠人机交互加人工智能。同时,这是未来机器人技能和价值的实现。这里我也想指出一下,这不是说一切问题都解决了,实际上还有很多技术问题要解决,包括自然语言的处理等等。但是总的来说,这种高智商和高情商机器人开发的门槛现在在迅速下降。为什么?就是因为有整个业界的共同努力,包括微软和谷歌、脸书等大公司,把新的算法开源,把数据也开源,使得大家都可以接触最新的技术,所以这是一个新的机遇。

谢谢大家!