中国科学院院士、清华大学人工智能研究院院长张钹
“第二十届高交会-中国高新技术论坛”于2018年11月14日-16日在深圳举行,本次论坛的主题为“坚持新发展理念、推动高质量发展”,中国科学院院士、清华大学人工智能研究院院长张钹出席开幕论坛并演讲。
其表示现在人工智能取得了一些进展,但仍然有很大的局限性。他指出,今后的任务就是要重视基础研究,发展新的理论来引领技术的突破,物克服目前人工智能存在的局限性,扩大应用领域,这样才有可能真正使得人工智能让人类生活得更美好。
解决的途径已经有了,张钹称,现在主要的方法是下面三个方面:一个是与脑科学结合寻找新的模型,第二个是把知识驱动与数据驱动结合起来,这是目前最主要在做的事情,而且马上可以取得比较好的效果,就是把两种模型结合起来,第三个是常识与常识推理,不确定性处理,这样才能把人工智能从单纯的工具变成人类真正的伙伴。
以下为演讲实录:
张钹:大家好,大家现在对人工智能都非常关注,都想了解下面两个问题,就是人工智能究竟现在发展到了什么程度,我们下一步该怎么办?我想用这20分钟的时间来回答这个问题。
大家知道人工智能的过去,从1956年开始到本世纪初,基本上人工智能的发展是比较缓慢的。当时人工智能主要提出了两个模型,一个模型叫做以知识和经验为基础的符号推理模型,用来解决人类理性的智能。但是这个工作进展得比较小,主要原因是因为这些知识必须来源于人工的输入,人工把知识输入机器是很困难的,很多知识是难以准确描述出来的。因此这个模型取得的进展比较少。一直到2011年的时候,这个模型才取得比较大的进展,IBM做的watson系统,在人机竞赛上打败了人类。这也是用这种模型头一次战胜了人类。
为什么能取得这个结果呢?主要原因在这,原来对专家系统,我们的知识来自专家,而且专家知识是非常稀缺和昂贵的,而且要把这个知识放到计算机里面去,用人工的方法输进去难度非常大,所以当时进展比较小。为什么2011年能取得这么大进展呢?最主要的原因就是这里面把互联网的大众知识输入到系统里面去,而且这个系统不需要经过人工的加工,直接把知识输入进去,这个知识相当一部分属于数据,我们可以把大量的数据输入到计算机里面去,才取得这样的成功。利用这个数据进行推理,然后得到很好的成果。这个知识的数量是很大的,这个知识用纸张来表示的话,差不多是2亿页,这里面包括的内容是很多的,包括词典、百科全书、新闻报道、文学作品等,也就是知识竞赛里面问到的问题都可以包含在这些知识里面,包括天文地理、娱乐、电影、明星等等。在这种情况下,有了大数据,我们利用这种模型在一定环境和条件下,在人机对话下可以达到一定的水平。
第二个模型是现在讲的机器学习或者叫做神经网络。当时神经网络所取得的进展,在应用上的进展也很小,最主要的原因是当时神经网络输入要靠人工来设计,或者来编制特征。这种情况下我们要做大规模的问题就很困难。这个问题也是到本世纪初有了很大的转折,这个转折就是我们现在讲的深度学习。也就是把神经元网络的层次增加以后,这个机器学习得到了根本性的改变,从原始的浅层的学习变成现在的深度学习。还有一个重要的改变,我们把原始的数据输进去,不必人工干预,这样就使得深度学习变成一个大众化的,普遍大家都能用的工具,不需要你有专业知识。由于这样的革命性变化,这个技术就被广泛采用。这里红色的部分表示利用深度学习,我们在许多方面可以达到甚至超过人类的水平,这里讲的主要是三件事,一个是图像识别,一个是语音识别,一个是围棋。这个成果都是由于深度学习。
深度学习最典型的可以用来解决问题,就是模式识别,围棋为什么能够成功呢?我们把下围棋看成模式识别,通过深度学习,围棋程序,2015年以前只能达到业余五段,通过深度学习以后,一下子在两年的时间实现三级跳,从业余变成专业,从专业变成世界冠军,现在远远超过世界冠军。其中最重要的原因就是利用了大量的数据。这个数据可以由它自己产生,也就是说不必人工去提供数据,它自己跟自己下的过程中产生大量的数据。所以后来为什么Alphago任何人战胜不了它呢?就是它自己跟自己就下了上亿盘棋局。而一个大师一生中也就只能下几万盘棋局。
从目前来看我们重要的任务就是把深度学习,还有我们在早期提出来的符号推理模型应用到下面十个领域,这是全世界公认的,有可能在交通、家庭、健康、教育等。我们国家特别强调在金融和智能制造的应用,前面黑色的部分是全世界公认的,在这15年间,特别是深度学习的技术在各个领域可以得到很大的发展。
我们可以看到我们国家出现了很多独角兽企业,这里列出来了20个独角兽企业,可以看到基本上是借助于深度学习技术,而且大部分是集中在图像处理和语音识别这两个领域。有些方面虽然是属于医疗,属于自动驾驶,其实大部分的工作也是做图像识别。
我们必须要看到深度学习的局限性,也就是我们一方面要充分进一步应用深度学习,我们必须要看到深度学习的局限性,也就是我们一方面要充分进一步应用深度学习,但是另一方面我们也要看到它的局限性。这个局限性尽管它可以在各个领域应用,但是这个领域必须受到下面五个条件的限制。首先要做这个系统,必须要有丰富的知识和数据,如果你既没有丰富的知识,又没有数据,你不可能做这样的工作。必须是完全信息的,大家知道为什么在围棋和国际象棋上,机器能够战胜人类?因为象棋和围棋尽管复杂,但完全是信息博弈,完全信息博弈对计算机讲是很容易的,不完全信息博弈,像牌类就不属于完全信息博弈,计算机远不如人类,比如四人麻将、四人桥牌,计算机完全不是人的对手,因为对方拿的什么牌,出什么牌你不知道。必须是确定性的,如果存在模糊性,计算机处理起来就比较困难,一般来讲是简单的与静态的环境,按照确定的规律变化的。另外是限定领域和单任务,也就是它能下围棋只能下围棋,不会下象棋,而且这个任务是单个的,不能开放的,一开放就做不到了。
现在用大数据建立的识别系统,尽管在某个指标上超过人类,但在其他方面跟人类相比差距非常大。我们这里也列出来了很多,包括鲁棒性、推广性等。计算机的图像识别率即使能达到跟人差不多,但就是这样的物体,我们扔一个照片给它可以识别为知更鸟。我们随便给它一个照片,它可以识别为猎豹。这就说明它本质上并不认识这个动物,它只能把不同的动物分开,这跟人类非常不一样,因此它很容易被欺骗。我们扔一个噪声给它就可以让它识别成任何东西,这是它很大的弱点。这个弱点在很多应用场合里面是不允许的,如果在人脸识别、图像识别里面如果有这样的错误还可以容忍的话,如果这样的错误出现在决策上是不允许的,而且是人不可理解的。还有鲁棒性很差,本来这张图片是阿尔卑斯山,我们只要给它加一点点噪声,这个图片跟原来的图片差不多多少,只是多了一些噪声,人看起来当然还是阿尔卑斯山,但是可以让计算机看成是一条狗,而且它的自信度可以达到99.99%。也就是说它有99.99%的把握认定这张图是狗。那就说明这样的系统非常容易被攻击,这就是目前大家讨论到的人工智能的安全性问题,人工智能系统非常容易受攻击,非常容易被欺骗。这在很多应用场合里面是不允许这样的。所以我们必须要克服这个问题。
比如医学图像识别,计算机识别率能够超过人类,但是医生不敢用,因为你判断这张图片是有癌症,医生根本不知道你根据什么判断出来的,是不可解释的,所以医生信不过,这是普遍遇到的问题。鲁棒性也是这样,语音识别,大家看过很多演示,语音识别在一定条件下超过人,但是抗干扰能力非常弱,如果我们对着话筒讲识别率可以很高,如果我离开话筒很远识别率就低得多,如果有其他人在旁边说话,根本就听不懂谁在说。所以抗干扰能力非常弱。所以只能在非常干净的条件下才能使用,在嘈杂的环境下是不能用的。处理突发事件的能力,这也是目前自动驾驶遇到的问题,自动驾驶目前在特殊情况下,专用道或者是简单的路况也许能够用,但是复杂的路况还是不好用的,为什么?就是它缺少处理突发事件的能力,也就是这种情况它没有学习过就不知道怎么处理。比如在交通里面会遇到这样的情况,行人是这么过马路的,那么计算机肯定看不明白这个应该怎么处理。你也可以把这种情况学习了以后,我们遇到这样的情况就不行。还有一个问题,计算机没有常识,也很难达到智能。如果你告诉计算机特朗普是美国总统,那你问谁是美国总统,它可以答得非常好。但如果你问美国有没有总统,它答不上来。特朗普是美国人吗?它也答不上来。它既然知道特朗普是美国总统,美国当然有总统,这是常识推理,如果不能做到这个就很难真正达到智能。
所以我们目前面临的挑战,如果人工智能取得了一些进展,但仍然有很大的局限性。我们今后的任务,深圳非常重视基础研究,发展新的理论来引领技术的突破,物克服目前人工智能存在的局限性,扩大应用领域,这样才有可能真正使得人工智能让人类生活得更美好。目前我们解决的途径也都有了,要解决鲁棒与可解释的人工智能。现在主要的方法是下面三个方面,一个是与脑科学结合寻找新的模型,第二个是把知识驱动与数据驱动结合起来,这是目前最主要在做的事情,而且马上可以取得比较好的效果,就是把两种模型结合起来,第三个是常识与常识推理,不确定性处理,这样才能把人工智能从单纯的工具变成人类真正的伙伴。谢谢大家。