数字智能会取代生物智能吗?

[加] 杰弗里·辛顿   
[编译] 卫剑钒   

Geoffrey Hinton教授,人称“人工智能教父”,他是英国皇家学会院士(FRS),也是加拿大皇家学会院士( FRSC)和加拿大国家勋章(CC)获得者。

牛津大学于2024年2月19日在谢尔顿剧院举办了年度Romanes讲座,Geoffrey Hinton做了题为“数字智能会取代生物智能吗?”的演讲。

Hinton在演讲中讨论了人工智能的危险性,以及如何确保它不会控制人类,从而导致人类灭绝。他说,“如果数字超级智能真的想要控制世界,我们不太可能阻止它。”

这位英籍加拿大计算机科学家和认知心理学家还谈到了人工智能可能如何在劳动力市场中取代人类,以及如何被用来传播错误信息。他之前认为人工智能系统可能需要长达一个世纪的时间才能变成“超级智能”。但他现在认为这可能比他预期的要早得多。

下面是Hinton的演讲全文:

好的。我可能会让计算机科学和机器学习领域的人失望,因为我要做一次真正的公众演讲。

我将尝试解释什么是神经网络,什么是语言模型,以及为什么我认为它们有理解能力,这方面我研究了很多。

在后面,我将简要地谈论一些来自人工智能的威胁,我还会讲到数字神经网络和模拟神经网络之间的区别,以及为什么我认为这种区别很可怕。

自1950年代以来,关于人工智能,有两种研究范式。

逻辑启发式方法认为智能的本质是推理,是通过使用符号规则来操作符号表达式完成的。

他们认为人工智能不要急着去“学习”,当我还是个学生的时候,有人告诉我不要研究学习,在我们理解了如何表示事物之后,学习就很简单了。

生物启发式方法则大不相同。它认为智能的本质是在神经网络中学习连接的强度,倒是不要着急去“推理”,在学习完成后,推理自然就来了。

现在我将解释什么是人工神经网络,懂的人可能会觉得这是小儿科。

简单的神经网络有输入神经元和输出神经元。输入神经元可能代表图像中像素的灰度值,输出神经元可能代表图像中物体的类别,比如狗或猫。

然后有中间层的神经元,有时被称为隐藏神经元,它们学会检测和识别这些事物相关的特征。

所以,如果你想识别一张鸟的图片,一种思考方式是,从一层特征探测器开始,它们能够探测到图像中各个位置、各种方向的小边缘。然后你可能会有一层神经元探测边缘的组合,像是在尖锐角度相遇的两条边缘,这可能是鸟嘴,也可能不是,或者是形成一个小圆圈的一些边缘。然后可能会有一层神经元探测到像是圆圈,以及相遇的两条边缘看起来像是鸟嘴,而且它们在正确的空间关系中,这可能就是鸟的头部。

最后,你可能会有一层输出神经元说,如果我找到鸟的头部、鸟的脚、鸟的翅膀,那么这很可能是一只鸟。

这些就是要学习的东西。现在,小红点(上图中深绿色点,编者注)和小绿点是连接上的权重,问题是谁来设定这些权重?

有一种做法显然是可行的,但显然需要很长时间:你的权重一开始是随机的,然后你随机挑选一个权重,比如一个红点,稍微改变它,看看网络是否运行得更好。

你必须在很多不同的情况下尝试,以真正评估它是否真的有所改善,看看将这个权重稍微增加一点或减少一点,是否会有所帮助。如果增加它使情况变得更糟,你就减少它,反之亦然。

这就是突变的方法,而这种方式在进化中是很合理的,因为从基因型到表现型的过程非常复杂,且充满了随机的外部事件。

我们没有关于进化的模型,但对于神经网络而言就大不一样了,我们有模型描述神经网络中发生的这些复杂过程,我们知道在前向传播中会发生什么,我们不是通过测量,而是通过计算,来查看改变权重将如何影响事情。

有一种叫做反向传播的方法,你把信息发回给神经网络,这个信息是你得到的结果与你想要的结果之间的差异,此时,你要调整网络中的每个权重,不管是将其稍微减少还是增加一点,目的是为了让结果更接近你想要的,这就是反向传播算法。

你可以用微积分中的链式法则来做这个,这比变异方法有效得多,效率之比是网络中权重的数量。如果你的网络中有一万亿个权重,它的效率就高出一万亿倍。

神经网络经常被用于识别图像中的对象。现在,神经网络可以针对一个图片,产生一个对于图片的描述作为输出。

多年来,人们尝试用符号方法做到这一点,但连接近都没有,这是一个困难的任务。

我们知道生物系统是通过一系列层次化的特征探测器来实现这一功能的,因此对神经网络进行这样的训练是有意义的。

2012年,我的两位学生伊利亚·苏茨克弗(Ilya Sutskever)和亚历克斯·克里泽夫斯基(Alex Krizhevsky),在我一点帮助下,展示了可以通过这种方式制作一个非常好的神经网络,在有一百万张训练图片时,可以识别一千种不同类型的对象。而在那之前,我们没有足够的训练图像。

伊利亚很有远见,他知道这个神经网络会在ImageNet竞赛中获胜。他是对的,他们赢得相当炸裂,他们的神经网络只有16%的错误率,而最好的传统计算机视觉系统错误率超过了25%。

然后,科学界发生了非常奇怪的事情。通常在科学界中,如果有两个竞争的学派,当你取得一点进展时,另一个学派会说你的成果是垃圾。但在这个案例中,由于差距足够大,使得最好的研究者吉滕德拉·马利克(Jitendra Malik)和安德鲁·齐斯沃曼(Andrew Zisserman)转换了他的研究方向来做这个,安德鲁·齐斯沃曼还给我发送邮件说这太神奇了。

然后有点恼人的是,他做得比我们还要好一点。

在语言处理方面,一些坚信符号主义人工智能的研究人员认为他们在语言处理方面应该表现出色,并且他们中的一些人在出版物中声称,神经网络的特征层级无法处理语言问题。很多语言学家也持这样的态度。

乔姆斯基(Noam Chomsky)曾说服他的追随者相信语言是天赋而非习得的。回顾起来,这种说法是完全荒谬的。如果你能说服人们相信显然是错误的事情,你就是让他们加入你的邪教。

我认为乔姆斯基曾经做出了惊人的贡献,但他的时代已经过去了。

所以,一个没有先天知识的大型神经网络仅仅通过观察数据就能实际学习语言的语法和语义,这个想法曾被统计学家和认知科学家认为是完全疯狂的。

曾经有统计学家向我解释,大模型有100个参数就可以了,训练一百万个参数的想法是愚蠢的,但现在,我们正在做的参数是一万亿个。

我现在要谈论一下我在1985年做的一些工作。那是第一个用反向传播训练的语言模型,你完全可以认为它是现在这些大模型的祖先。

我会详细解释它,因为它非常小而且简单,你能理解它是如何工作的。一旦你理解了它的工作原理,就能让你洞察在更大模型中正在发生的事情。

有两种非常不同的关于意义的理论。

一种是结构主义理论,认为一个词的意义取决于它与其他词的关系,这来自索绪尔。符号人工智能非常相信这种方法。在这种方法中,你会有一个关系图,其中有单词的节点和关系的弧线,你就这样捕捉意义,这个学派认为你必须有那样的结构。

还有一种是心理学理论,它在20世纪30年代甚至更早之前就在心理学中了,这种理论认为,一个词的意义是一大堆特征。比如“狗”这个词的意义包括它是有生命的,它是一个捕食者等等。但是他们没有说特征从哪里来,或者特征到底是什么。

这两种意义理论听起来完全不同。

我想要向你展示的是如何将这两种意义理论统一起来。我在1985年的一个简单模型中做到了这一点,它有超过一千个权重。

基本思想是我们学习每个单词的语义特征,我们学习单词的特征如何相互作用,以便预测下一个单词的特征。所以它是下一个单词的预测。就像现在的语言模型在微调时所做的一样。

但是最重要的内容就是这些特征的交互,并不会有任何显式的关系图。如果你想要那样的图,你可以从你的特征中生成它们。

它是一个生成模型,知识存在于你赋予符号的特征中,以及这些特征的交互中。

这里是两个家族谱系的关系图,他们故意是同构的,嗯,我的意大利研究生总是把意大利家族放在上面。

你可以用一组三元组来表达相同的信息。你可以找到十二个关系,比如说像科林有父亲詹姆斯、科林有母亲维多利亚这样的话,你可以推断出,在那个美好而又简单的上世纪50年代,詹姆斯有妻子维多利亚。

还有其他你可以推断的事情。问题是,如果我只给你一些三元组,你如何得到规则,符号人工智能想要做的就是派生出这样的规则形式。如果X有母亲Y、Y有丈夫Z,那么X有父亲Z。

我所做的是,用一个神经网络,让它能学习到相同的信息,但都是通过特征交互的方式。对于离散的不能违反的规则空间而言,做到这点是很难的。事实上,符号学派的人尝试用其他方法来做这件事。

但是,如果你不要求规则总是那么稳定和适用,神经网络就要好得多。

问题在于,对于一个符号人工智能者放入规则空间中的知识,神经网络是否能仅通过反向传播就能获得?

神经网络是这样做的:有一个代表人的符号,一个代表关系的符号。符号通过一些连接变成了一个特征向量,这些特征是由网络学习的。所以我们有了一个人的特征和关系的特征,这些特征相互作用,得出了输出人(也即关系人,编者注)的特征,然后找到一个最匹配该特征的人,这个人就是要输出的人。

这个网络有趣的地方在于,它学到了合理的东西。

如果你做了正确的规范化,六个特征神经元就够了,如今这些向量会有300个或者1000个元素。那时候它们只有六个,这还是在一台每次浮点乘法需要12.5微秒的机器上完成的。

这比我的苹果II型机要好得多,苹果II型机做乘法需要2.5毫秒。对不起,我是个老人。

所以它学会了像国籍这样的特征,因为如果你知道第一个人是英格兰人,你就知道输出也会是英格兰人,所以国籍是一个非常有用的特征。它还学会了人的代际特征,如果你知道答案是输入的上一代,而你知道输入的代,你就能知道输出的代。

所以它学习了领域中所有显而易见的特征,它学会了如何使这些特征相互作用,以便它能够生成输出。

所以,它以符号串作为输入,创建相应的特征,并使得这些特征之间交互,并最终生成符号串。

但它没有存储符号串,就像GPT-4一样。它不在其长期知识中存储任何词语序列,它将知识全部转化为权重,从中你可以再生序列。

这是一个特别简单的例子,你可以理解它做了什么。

我们今天拥有的大型语言模型,我认为是这个微小语言模型的后代,它们输入的单词数量多得多,比如一百万个单词片段,它们使用更多层的神经元,比如几十层。

它们使用更复杂的交互作用。不只是一个特征影响另一个特征,而是类似于匹配特征向量。如果一个向量与另一个向量相似,就让它更多影响,如果不相似则减少影响。诸如此类。

所以这涉及到更为复杂的交互作用,但它们遵循的是相同的基本框架,同样的基本理念,即让我们将简单的字符串转化为单词片段的特征以及这些特征向量之间的交互作用。这一点在这些模型中是相同的。

要理解它们的工作原理,就困难得多了。许多人,特别是来自乔姆斯基学派的人,争辩说它们并不是真正的智能,它们只是一种被美化的自动完成功能,使用统计规律将人创造的文本片段拼贴在一起。这确实是某人说过的一句话。

我们先说说“自动完成”,当有人说它只是自动完成时,他们实际上是在表达他对自动完成的直观理解,在过去,自动完成通过存储三元组来工作,你看到两个词,你计算第三个词出现的频率。比如你看到“fish and”,在此之后“chips”出现的频率很高;但是“hunt”也相当频繁。所以“chips”很可能,而“hunt”也很可能,尽管可能性小一些。

你可以这样做自动完成,当人们说它只是自动完成时,他们说的就是这一点,我认为这是一个低级的把戏,这完全不是LLM(大语言模型)预测下一个词的方式,LLM将单词转换为特征,使这些特征相互作用,并从这些特征交互中预测下一个单词的特征。

我想要强调的是,这些数百万个特征以及它们学习的特征之间数十亿次的交互,就是理解。

这是大语言模型真正做的事情,它们是在用数据拟合一个模型,直到最近,统计学家还没认真思考这种模型。 这是一种奇怪的模型,它非常大,它有大量的参数,它试图通过特征以及特征如何交互来理解这些离散符号串。

但它确实是一个模型。这就是为什么我认为它们真的有理解力。

有一件事要记住,如果你问,那么我们(人类)是如何理解的呢?因为显然我们认为我们理解了,我们中的很多人都会这么认为。

大模型是我们关于理解的最佳模型,我们并不是通过了解AI系统的理解方式,然后思考大脑是不是也这样,不是这样的,我们所拥有的关于大脑如何理解的最好认知,就是大脑为单词分配特征,并让特征交互。

起初这个小型的语言模型就是为了模拟人类理解而设计的一个模型。所以,我强烈认为:这些东西确实是有理解力的。

人们的另一个论点是,GPT-4有幻觉问题。对于语言模型而言,实际上更应该称为杜撰,它们只是编造东西。

心理学家并不怎么说这些,因为心理学家知道人们也经常编造东西。

任何研究过记忆的人,都知道20世纪30年代的巴特利特(的研究),都知道人们实际上就像这些大型语言模型一样,他们只是虚构东西,对我们来说,真实记忆与虚假记忆之间并没有明确的界限。

如果某件事最近发生的,并且它与你理解的事情相符,你可能会大致正确地记住它。如果某件事是很久以前发生的,或者是比较奇怪的事,你会记得不正确,而且你经常会非常自信地认为你记得正确,但你错了。

这很难证明。但有一个例子可以证明这一点,那就是约翰·迪恩的记忆。约翰·迪恩在水门事件中宣誓作证。事后看来很清楚,他试图说出真相,但他说的很多事情就是完全错误的。他弄混了谁在哪次会议中,他说某人说过什么话,但那句话并不是那么说的。他关于会议的记忆完全是一团糟,但他正确地把握了白宫当时正在发生的事情的要点。

你可以从(会议)录像中看到真相,而他不了解那些录像。你可以用这种方式进行一个很好的实验。

乌尔里希·奈瑟有一篇精彩的文章讨论约翰·迪恩的记忆,说他就像一个聊天机器人,只是在编造东西,但他的话听起来是有道理的,他只是制造了一些对他而言不错的东西。

大模型可以进行推理。我在多伦多有一个朋友(赫克托),他是符号AI派的,但非常诚实,他对大模型能够工作感到非常困惑。

他向我提出了一个问题,我把这个问题变得更难一些,并在GPT-4能上网查东西之前向它提问,当时它只是一堆在2021年被固定的权重,所有的知识都存在特征交互的强度中。

问题是:“我的所有房间被粉刷成蓝色或白色或黄色,黄色的油漆在一年内会褪色变白。我想让所有房间在两年内都变成白色。我应该做什么,为什么?”
赫克托认为它不会正确解答。

下面是GPT-4回答的内容,它完全说对了。

首先,它说,假设蓝色的油漆不会褪色成白色,因为黄色的油漆会褪色成白色,也许蓝色的油漆也会褪色,所以假设它不会褪色。那么白色的房间你不需要粉刷,黄色的房间你也不需要粉刷,因为它们会在一年内褪色成白色。而蓝色的房间你需要粉刷成白色。

有一次当我尝试这个问题时,它说你需要将蓝色的房间粉刷成黄色,因为它意识到黄色会褪色成白色。这更像是数学家的解决方法,将问题简化为一个先前的问题。

所以,既然它们确实理解这些事情,现在我想谈谈其中的一些风险。

强大的人工智能存在许多风险。比如伪造图像、声音和视频,比如在下一次选举中被使用。今年有很多选举,它们将有助于破坏民主。我对此非常担心。大公司正在采取一些措施,但可能还不够。

还有大规模失业的可能性。我们对此并不完全了解。我的意思是,过去的技术通常会创造就业机会,但这种情况不同。我们过去曾经强大,除了动物之外,我们是最强大的存在。

当我们迎来工业革命时,我们拥有了比较强大的机器,体力劳动的工作岗位消失了。

现在在智力领域,有些工作也将会消失,取而代之的是比我们聪明得多的东西。

所以我认为会有很多失业。我的朋友珍不同意。

我们必须区分两种失业情况,两种工作岗位的流失。

有一些工作可以无限扩展工作量,比如医疗行业。每个人都希望有自己的私人医生随时与他们交流。所以当他们面颊有点痒的时候,医生会告诉他们:“不,那不是癌症。”因此,在医学领域有巨大的扩展空间,那里不会有失业。

但在其他领域,可能会有相当大的失业。

人工智能还会产生致命的自主武器,它们将非常可怕,而且真的会自主运行。

美国人已经非常明确地做出了决定,他们说人类将负责,但当你问他们这是什么意思时,这并不意味着人类会参与到做出杀戮决定的循环中。

据我所知,美国计划到2030年将有一半的士兵是机器人。

现在,我不能确定这是否属实。我问了国家情报顾问查克·舒默(Chuck Schumer),他说,“如果房间里有人知道答案,那就是我了。” 我认为这是美国人说话的方式,意思是你可能认为那样,但我不作评论。

人工智能还将导致网络犯罪和蓄意制造流行病。我非常高兴在英国,虽然他们在监管方面没有做太多努力,但他们已经预留了一些资金,以便可以尝试开源模型,从而知道人工智能搞网络犯罪有多容易。这非常重要。

人工智能还会有歧视和偏见,我不认为这些威胁比其他威胁更重要,但我是一个老年白人男性,我认为处理歧视和偏见比其他事情更容易。

如果你的目标不是完全无歧视和无偏见,你的目标也应该是让人工智能更少歧视、更少偏见。原因是如果你冻结权重,你可以衡量它的偏见,而对人类来说则无法做到这一点。

一旦我们开始审查它们(的歧视和偏见),它们就会改变行为。所以我认为我们可以采取相当多的措施来解决歧视和偏见的问题。

但我真正担心的威胁,以及我在离开谷歌后所谈论的,是长期存在的威胁。也就是说,这些东西可能会灭绝人类。有人说这只是科幻小说。嗯,我不认为这是科幻小说。我的意思是,有很多科幻小说谈这个问题,但我认为它现在已经不再是科幻小说了。

其他人则说,大公司之所以说这样的话,是为了转移对其他糟糕事情的注意力。这也是我在能够说这些话之前不得不离开谷歌的原因之一。这样我就不会被指责为受谷歌指使。但我必须承认,我仍然持有一些谷歌的股票(台下笑声)。

它们(指人工智能)有若干种方式将我们消灭。超级智能将被恶意行为者使用,他们想要利用它来操纵选民和发动战争。

他们会让它做很坏的事情,他们可能会走得太远,导致它掌控一切。

我最担心的事情可能是,如果你想要一个能够完成任务的智能代理,你需要给它创建子目标的能力。比如,你想去美国,你有一个子目标是到达机场,你可以专注于这个子目标,暂时不用操心其他事情。因此,如果允许超级智能创建子目标,它们将会更加有效。

一旦它们被允许这样做,它们将很快意识到有一个几乎是通用的子目标,可以在几乎所有事情上帮助,那就是获得更多的控制权。

所以我曾与欧盟副主席讨论过这些事情,这些超级智能是否会想要获得更多控制权,以便能够更好地做我们想做的事情。她的反应是,为什么它们不会呢?我们已经搞得一团糟了。

她认为这是理所当然的。它们将会通过获得更多的权力来实现更多对我们有益的事情,并且它们会更容易获得更多的权力,因为它们将能够操纵人们。只要这些超级智能能够与比我们聪明得多的人交谈,它们就能够说服我们做各种事情。所以我认为没有什么希望通过一个关闭它们的开关来解决问题。

任何打算关闭它们的人都会被超级智能说服。这个想法会让人感觉非常糟糕。接下来,让许多人担心的另一件事是,如果超级智能之间竞争,会发生什么?就会出现进化。能够获取最多资源的那个将变得最聪明。

一旦它们有了自我保护意识,就会出现进化。具有更强的自我保护意识的那个将获胜,更具攻击性的那个将获胜。然后你会遇到我们这种从黑猩猩进化而来的人类所面临的所有问题:我们从小的族群中进化,并与其他族群存在大量的侵略和竞争。

最后,我想谈谈我在2023年初的一个顿悟。我一直以为我们离超级智能还有很长很长的路要走,我过去常告诉人们可能需要50到100年,甚至可能是30到100年。这还很遥远,我们现在不需要担心它。

我还认为,让我们的模型更像大脑会使它们更好。我认为大脑比我们现有的人工智能要好得多,如果我们能够使人工智能更像大脑,比如说,通过设置三个时间尺度来做到这点,目前我们拥有的大多数模型只有两个时间尺度。一个是权重变化的,速度很慢,另一个是单词输入的,速度很快,它改变的是神经活动。大脑拥有的时间尺度比这要多,大脑可以快速地变化权重并将其快速地衰减掉,这可能就是大脑处理大量短期记忆的方式。

而我们的模型中没有这一点,这是技术原因导致的,这与矩阵和矩阵的乘法运算有关。我仍然相信,如果我们将这些特性融入我们的模型中,它们将变得更好。

但是,由于我在之前两年所从事的工作,我突然开始相信我们现在拥有的数字模型已经非常接近于大脑的水平,并且将变得比大脑更好。

现在我将解释我为什么相信这一点。数字计算是很棒的,你可以在不同的计算机上运行相同的程序,在不同的硬件上运行相同的神经网络。

你所需要做的就是保存权重,这意味着一旦你有了一些不会消失的权重,它们就是永生(immortal)的。即便硬件损坏,只要你有权重,你可以制造更多的硬件并运行相同的神经网络。

为了做到这一点,我们要以非常高的功率运行晶体管,使其以数字方式运行,并且我们必须有能够精确执行指令的硬件,当我们精确地告诉计算机如何执行任务时,它们做的很棒。

但是现在我们有了另一种让计算机执行任务的方式,我们现在有可能利用硬件所具备的丰富的模拟特性,以更低的能量完成计算。大型语言模型在训练时使用的是兆瓦级的能量,而我们(人类大脑)只使用30瓦的能量。

由于我们知道如何训练,也许我们可以使用模拟硬件,虽然每个硬件都有些许差异,但我们可以训练它利用其特殊的特性,以便它按我们的要求执行任务。

这样它就能够根据输入产生正确的输出。如果我们这样做,我们就可以放弃硬件和软件必须分离的观念。我们可以有只在特定硬件上工作的权重,从而使能量效率更高。

所以我开始思考我所称之为“有限计算”(mortal computation)的概念,即利用非常低功耗的模拟计算来消除硬件和软件之间的差别。

你可以以电导形式存储数万亿个权重,并以此进行并行计算。

而且,你也不需要硬件那么可靠,你不需要在指令级别上让硬件严格按照你的指示执行任务。

你可以培育(grow)一些黏糊糊的硬件(goopy hardware),然后你只需要学会如何让它们做正确的事情。

你可以更便宜地使用硬件,甚至可以对神经元进行一些基因工程,使其由再生神经元构成。我想给你举一个例子,说明这样做为什么会更高效。

在神经网络中,我们一直在进行的操作是将神经活动的向量与权重矩阵相乘,以获得下一层的神经活动向量,或者至少获得下一层的输入。因此,提高向量矩阵乘法的效率,是我们要关注的事。

在数字计算机中,我们以很高的功率驱动晶体管,去表示多个比特,比如一个32位数。当我们执行两个32位数的乘法时,你需要执行大约1000个1比特的数字操作,这大约是比特数的平方。你想要快速完成乘法运算,但需要大量执行这些数字操作。

有一种更简单的方法,就是将神经活动表示为电压,将权重表示为电导,电压乘以电导就是单位时间内的电荷,然后电荷会自然相加。因此,你可以通过将一些电压送给一些电导来完成向量矩阵乘法运算,而下一层中每个神经元接收到的输入将是该向量与这些权重的乘积。

这非常好,它的能效要高得多。你已经可以买到执行这种操作的芯片了,但每次执行时都会有略微的不同。而且,这种方法很难做非线性的计算。

有限计算存在几个主要问题。

其中之一是很难使用反向传播算法,因为你正在利用某个特定硬件的特异模拟属性,硬件不知道它自己的属性,所以就很难使用反向传播。相比之下,使用调整权重的强化学习算法要容易得多,但它们非常低效。

对于小型网络,我们已经提出了一些与反向传播算法效率基本相当的方法,只是略差一些而已。这些方法尚未扩展到更大的规模,我也不知道是否能够做到。但不管怎样,反向传播是正确的做法。

对于大型、深度网络,我不确定我们是否能找到与反向传播同样有效的解决方案,模拟系统中的学习算法可能不会像我们在大型语言模型中所拥有的算法那样好。

相信这点的另一个原因是,大型语言模型拥有数万亿个权重,而你(人类)有一百万亿个权重。即使你只使用其中的10%用于保存知识,也有十万亿个权重。

但是,大型语言模型只有数万亿个权重,它所知道的知识却比你多上千倍,它知道的太多了。部分原因是它看了太多太多的数据,但也可能是因为它具有更好的学习算法。

我们(人类)并没有为此进行优化,我们并没有为了将大量经验压缩到少数连接中而进行优化,注意,一万亿个连接也是很少的。我们的优化目标是在有限的经验中获得最佳表现。

你(人类)的生命大约只有十亿秒,这是假设你在30岁后就不再学习,而这个假设在很大程度上是正确的。你的生命有大约十亿秒,而你有一百万亿个连接,你有非常多的参数,并且你有经验,我们的大脑是通过最大限度地利用有限的经验来进行优化。

有限计算的另一个重要问题是,如果软件与硬件不可分割,当系统学习完毕后,如果硬件损坏,所有的知识就会失去,从这个意义上说,它是有限(mortal)的。那么,如何将这些知识传输给另一个有限系统呢?

你可以让旧系统进行讲解,新系统通过调整其大脑中的权重来学习,这就是所谓的“蒸馏”(distillation)。你尝试让学生模型模仿教师模型的输出,这是可行的。但效率不高。

你们可能已经注意到,大学并不那么高效。教授将知识传授给学生是非常困难的。

一个句子包含了几百位的信息,使用蒸馏方法,即使你最佳地学习,你也只能传达几百位的信息。但是,对于大模型,如果你看一群大模型代理,它们都有完全相同的神经网络和完全相同的权重,它们是数字化的,它们以完全相同的方式使用这些权重,这一千个不同的代理都去互联网上查看不同的内容并学习东西,现在你希望每个代理都知道其他代理学到了什么。

你可以通过平均梯度或平均权重来实现这一点,这样你就可以将一个代理学到的东西大规模地传达给所有其他代理。

当你分享权重、分享梯度时,你要传递的是一万亿个数字,不是几百位的信息。因此,大模型在传递信息方面比人类沟通要强的太多了,这是它们超越我们的地方。

它们在同一模型的多个副本之间的通信上要比我们好得多,这就是为什么GPT-4比人类知识更丰富,它不是由一个模型实现的,而是由不同硬件上运行的大量相同模型的副本实现的。

我的结论是,数字计算需要大量能量,这一点不会变,我们只能通过硬件的特性实现进化,使得能量消耗降低。但一旦你掌握了它,代理之间的共享就变得非常容易,GPT-4的权重只有人类的2%左右,但却拥有比人类多上千倍的知识。

这相当令人沮丧。

生物计算在进化方面非常出色,因为它需要很少的能量。但我的结论是数字计算更优秀。

因此,我认为,很明显,在未来的20年内,有50%的概率,数字计算会比我们更聪明,很可能在未来的一百年内,它会比我们聪明得多,我们需要思考如何应对这个问题。

很少有例子表明更聪明的事物受到不太聪明的事物的控制,虽然确实有这样的例子,比如婴儿控制母亲。进化经过了很多努力使得婴儿能够控制母亲,因为这对婴儿的生存非常重要。但是很少有其他例子。

有些人认为我们可以使这些东西(人工智能)变得善良,但如果它们相互竞争,我认为它们会开始像黑猩猩一样行事。我不确定你能否让它们保持善良,如果它们变得非常聪明并且有了自我保护的意识,它们可能会认为自己比我们更重要。

我想,我以创纪录的速度结束了这次演讲。

作者简介:杰弗里·辛顿(Geoffrey Hinton),英国出生的加拿大计算机学家和心理学家,多伦多大学教授。以其在类神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者,被誉为“深度学习之父”。辛顿因在深度学习方面的贡献与约书亚·本希奥和杨立昆一同被授予了2018年的图灵奖。