随着具身智能(Embodied Intelligence)跃升为科技界炙手可热的话题,质疑之声也随之而起。为了深入探讨这一问题,2024 年 8 月 12 日,由腾讯研究院策划的《仲夏六日谈》第三季的开场对话,选定了“具身智能:信仰还是FOMO ?”作为讨论主题。限于篇幅,本文节选了本场对话的部分内容,您可以通过扫描文末的二维码获取本场讨论的完整内容。
司 晓:
欢迎收看《仲夏六日谈》,今天讨论的主题是“具身智能:信仰还是FOMO”,这个话题是想探讨:具身智能到底是一个正被全民热议的信仰,还是一种“害怕错过”(Fear of Missing Out,简称FOMO)的流行话题。换言之,这个话题究竟是实是虚?我们非常荣幸地请到了三位嘉宾来一起讨论。大家可以看到我们的嘉宾组合,我是纯文科的,中间两位理工男,文博兄算是文理结合起来的背景,可以说我们的嘉宾从学科背景到从业经验,都是非常多元化、非常互补的。我也问了一下,各位都很喜欢科幻,这让我尤其兴奋,希望今天的探讨可以不拘泥于过去讨论过的一些方向。
我们的题目定义为“具身智能”,这个词是过热还是偏虚呢?会不会像元宇宙一样?大家可能觉得这一波的AI达到一个顶点了,不会像之前达特茅斯会议后的几起几落,最起码它稳定在一个比较恒定的热点状态。关于具身智能,大家说得比较多的一点是,必然得通过具身智能才有可能达到AGI这一步。现在也看到很多人讨论 AI Agent,我刚刚在北京参加了一个关于数字人法律问题的活动,每一个嘉宾都从自己的角度讲了对它的分类。套用“既要有好看的皮囊,还要有趣的灵魂”,可以说这一波所谓的具身智能或者机器人的升级之处,很大程度上在于它有脑子甚至于有情感、有情绪了。那么第一个问题问各位嘉宾,大家觉得具身智能是什么?不是什么?比如说AI Agent这些词,它们的异同是什么?
司 晓:
具身智能这个词,其实是近两年才出现的。有一年,英伟达的黄仁勋突然把具身智能这个词提出来了。但根据我自己的一些体验,很早的时候有很多类似的概念,比如说大概十五年前,那会儿就有人提出了Cyber-Physical Systems(赛博和物理世界),这不是一个偏科幻的词,这是一个严肃工业中会使用到的词。一方面,有一个AI一样的程序或者说一段预编程的程序,它会一直从一些物理上的传感器去接收实时的数据,对这些数据进行快速处理,处理完后又对物理世界进行一个反馈。比如说在工厂里控制一些东西的质量,或者在一些更广泛的场景里让摄像头一直跟着某一个人走,实际上这个时候已经体现出来一点具身智能的味道了。
经过多年的发展,我觉得具身智能最大的特点在于,咱们单独提这个词的时候更关注它的执行力和思想。以前这两个方面或许都相对薄弱,但是都有那个味道,我们把它叫做很早期的具身智能。但是现在,我觉得目标越来越明晰了,我们希望看到它像人一样聪明,至少能帮人干一样的事情。从这个角度来说,它必须执行力更强、更聪明,两者合在一起,并且体现出一个完整的,像机器人一样的形态,我觉得这个东西才叫具身智能。
司 晓:
图灵在他的机器智能的文章里第一次提到了Embodied Intelligence,那么请各位嘉宾继续谈谈,你理解的具身智能是什么?不是什么?以及它和现在一些比较相近的词之间的区别是什么?
王文博:
刚才我问恒第和华哲,我说你看这个扫地机器人,加上无人机,这俩plus,再聪明点,这算不算具身智能?很多人说这个词可能概念过热了,我完全不这么认为。我们现在在风景如画的碧山村,我昨天问了几个当地的村民,我问他知不知道具身智能这四个字,他都认识,拼一起不知道啥意思。我跟他说,扫地机器人知道吗?知道。无人机知道吗?知道。我觉得革命性的科技当然是在一小撮人中开始孕育的,我们在讨论这个话题的时候,可能除了实验室里的想法,更多的要想,当一个概念出来的时候大众能不能接受,因为这直接影响到最后能不能上路。好像最近自动驾驶比较成熟了,所以我在想,咱们在讨论具身智能概念的时候,可能更多的要从那些立法者、政策制定者的角度做一个更好的沟通,他们可能不是咱们这样的背景,可能跟碧山村的当地村民认知差不多。
我个人感觉,具身智能跟过去几年存在于电脑屏幕里的ChatGPT的不同之处可能在于它有一个物理世界的执行力,扫地机器人也有,显然它不是我们期待的那种智能。它可能还有一个特性,它要有一个生长性。它遇到一个问题,不是说“摁”就好了,它就能往左边走,右边走,而是要根据现实的情况决策。第三个,还要有一些个性化的服务。恒第刚才说到三维世界,我觉得从普罗大众的认知来讲,他们能听懂的是什么呢?输入的信息是什么?输入的信息可能是多模态的,也就是说有图片、声音、气味、触觉、文字等等,经过它的智能思考,再通过一个可执行的肢体为人类服务,这个肢体可能是个扫帚,可能是个手臂,也可能是个螺旋桨,这是我理解的具身智能。
许华哲:
我觉得刚刚文博说得特别到位。我的看法正好跟你刚才说的几个点一一对应,首先第一层含义是赋予身体智能,让它能去做这些事情,这是第一层。第二层,在它跟物理世界交互的过程中提升智能,像我们人一样,在锻炼中变得更强。第三,要有一个主体性,就是说这些感官,无论视觉、触觉,刚刚说的多模态输入,都属于我这个身体,对于我来说,我看着很美的东西,可能你看着很丑,我觉得很疼的东西,你可能觉得很爽,这样的话,它和大模型是不一样的,它有一个主观性在这里,这是我认为的具身智能。
刚刚说到在物理交互中提升智能,其实有一个很典型的例子,人类的婴儿有一个东西叫Object Permanence(物体存在)。我们小时候其实是分不出来的,如果妈妈拿一个玩具给一个婴儿看,他会很感兴趣,拿布遮住以后,他立刻觉得这东西消失了,就四处张望,他是怎么样渐渐学到这个东西呢?他可能是绕到布后面或者把布掀开,一次次跟物理交互的时候,他发现物体不会消失,只是光线被挡住了,这个过程就是一个智能发展的过程,所以具身智能可能不只是狭义的给身体以智能,而是有了身体以后我们的智能会怎么样发展,甚至在没有身体的时候,无法发展的一部分能不能发展得更好,这是我的想法。
司 晓:
其实还有一个问题困惑着我,大家说 Agent,其实是文博兄说的要决策,但是“具”,也就是Embodied,是说不管它是肉体的还是机械的都必须得有一个Physical的东西吗?所以是不是三位都认同具身智能必须得是Physical呢?比如说电影《Her》,有人说形神兼备也有人说形神俱灭。从中文的角度来说,这个“形”未必得是Physical吧?如果有一个声音,它只是多模态的一种,没有任何Physical的身体,当然你可以把它装在任何一个身体上,但它可以没有任何身体吗?我从《Her》这个电影里感知到它确实是一个存在的虚拟主体,这种算不算我们讲的具身智能?可能稍微有点咬文嚼字,简单来说,这个“具”到底要不要Physical?
许华哲:
在我看来不算。具身智能一定要有身体,但这个身体可能有一个模糊的界限。首先物理的身体一定是具身智能,仿真或者游戏里面的身体应该也算是某种意义上的具身智能,我认为也算,但是像《Her》或者GPT,我觉得不算,因为它没有身体,它并不知道哪一个我才是真的我,所以我认为是不算的。
王文博:
我觉得这个身体不一定是身体的形状或者样子,它可以是一个榔头,螺丝钉都行,但它要有一个物理世界的执行能力,至于这个执行的任务是要用身体化的身体去执行,还是说螺旋桨、扫地机器人的扫帚就行,那可能是根据场景来决定的。
司 晓:
我觉得比较棘手的一点是什么?因为我看Hinton讲的科学计算说人类软硬件不可分离,这种计算能力它的优点是,一碗米饭可以搞一天,这个算力虽然没那么强,单线程的,但它的能耗很低,缺点是没有群体智能,有寿命,爱因斯坦的脑子留下来没有任何意义,它是这种类型的。刚才文博兄说,它可能是钉子或者其他的形态,但是如果我们从Agent这个角度来看,它可以没有任何东西,但可以指挥一堆没有大脑的机器去做这个事,这么看起来它是那个身体又不是那个身体。套用Hinton的说法,它的身体是无处不在的。它既不能具象为某一个东西,又不能被消灭,你把这个砍了,对它也没有任何伤害,所以我觉得这个“具”和“非具”其实是有一点棘手的。你放在现在的时代里或者未来的机器人场景里,形和神其实可以完全剥离,它也可以是虚拟的,所以这可能是一个比较有意思的话题。其实我觉得第一个环节根本不是为了达成共识,因为这个不可能有太具体的共识,而是说,一堆相近的说法放在一起会对我们的破题有一些帮助。
刚才也谈到了达特茅斯会议之后人工智能的几起几落,这一波的人工智能或者说具身智能的再次火爆,它和之前有什么不同的背景,以及大家觉得具身智能这一波的热潮可以持续很长时间吗?它会和AI一样既是热点话题又有实际产出,又有Base Model的东西,还是说会像元宇宙一样昙花一现呢?因为过去几年大家经历过元宇宙、区块链、NFT等概念,觉得你们这个行业喜欢制造概念,搞着搞着,搞金融的先去买比特币,去搞虚拟币,收割一波跑了。我们现在讲的这个东西,大家作为从业者怎样看待?
许华哲:
这一波的具身智能可能和之前非常不一样,因为这一波实际上有了AI的强加持。而且从以往的经验来看,很早的时候,机器人的执行器其实已经有很强的能力了。比如说前段时间斯坦福他们做的Aloha小机器人,它的执行器其实就是两个小小的夹爪,但你会发现它在家里面帮人撸猫、叠衣服或者是晾衣服,各种事情全都能干,它那一套装备,也就是它的执行器,可能十年前、二十年前甚至三十年前,人类已经有能力把它制造出来了。但三十年前的一台Aloha和现在的一台之间最大的区别其实是人工智能。所以有时候我们在说具身智能,在说怎样造出一个机器人的躯体,我觉得更大程度上可能是在说,我们给AI造一个它可以体验和现实世界交互的躯体,像神仙下凡一样,直接让它进入这样一个身体。它有了这个东西以后,会用这个身体去体验更多的信息,获得更多的智能。所以这一波,实际上是两方面相辅相成,AI有多强可能具身智能就会长到多厉害,它的应用范围也就会扩展到多宽。所以如果AI是个实体的,那这一波的具身智能应该会跟它相辅相成,后面会大量纠缠在一起,应该不会再分开太多。
司 晓:
您能不能稍微再解释具体一点,刚才家用机器人的两个爪子或者手,它和十年、二十年前的东西没有本质区别,是吧?从物理功能上没有任何区别。
许华哲:
对。性能也许提升了,但是自由度也许变多了,总的来讲是非常有限的提升。
司 晓:
为什么在同样的硬件下,这个大脑会使得它有更强的操作能力,除了知道干什么外,它在握持东西的时候是不是也有智能在后面?
许华哲:
握持东西的时候显然是有智能的。举一个很简单的例子,像以前在工厂里,我们也许是用一个写得很死的程序,比如说我有一个摄像机,我照到这个东西,你看见它在屏幕偏左边的地方,长这个样子,过去,请把它拿到中间,结束了。这个就是当时的具身智能,也不叫具身智能,它纯粹就是一个程序在控制一个机械臂做事。而现在,比如说像我们公司会出很多触觉的传感器,再把触觉的传感器装到机器人的手上,一般来讲是装到一个灵巧手上。灵巧手的自由度就跟人手一样灵活,它的自由度可能稍微比人少一点,但一样可以抓东西、捏东西、敲键盘,这些事情都可以做,在做的过程中,它敲击键盘的那一刻或者它拿到东西的那一刻,如果有触觉信号的话,它能切实地感觉到我摸到这个东西了,那个东西就在那儿。
刚才文博兄说到多模态,实际上触觉也好,或者它对温度的感觉也好,那些就是另一个模态,人为什么在体验世界的时候用了这么多不同的模态,因为单一模态对这个世界的理解肯定是不够深入的,你很难想象一个人只靠触觉或者只靠视觉去理解这个世界。但像现在,在AI的加持下,这么多不同的传感器会使以前的一个夹爪和现在的一个夹爪产生超级大的区别。因为现在它不光能夹这个东西,在夹东西前,它能感知到各种各样的信号,这些信号又会被AI进行一个处理,最后做一个最智能的决策。您到最后会发现,这样的一个智能夹爪已经不会比人的手差太多了。因为人的手可以被认为是五根棍合在一起,后面还有一根棍,各种各样的棍最后构成整个人体的执行器。机器人和它有本质的区别吗?没有那么大的区别,真正的区别可能还是在大脑里,所以我觉得,现在的具身智能和以前的具身智能之间最大的区别是大脑和身体的强绑定。
司 晓:
我发现刚才我在讲形和神或者说大脑和身体的时候讲的有些片面了,这里面实际上既有怎么去思考回答问题还有指挥Physical部件的一些具体动作,或者有人把它套用为大脑和小脑。机器人能不能这样比较机械地去区分呢?握持反馈或者说用什么样的力度去握持,不是用所谓的回答问题的大脑去解决逻辑问题,而是靠像膝跳反射等更基础的一些东西让它去和世界交互,去保护自己,去通过世界得到的物理信息更自然地处理它,对吗?它分为不同的系统吗?还是说都是混为一体的?有所谓的大脑小脑吗?
司 晓:
我发现刚才我在讲形和神或者说大脑和身体的时候讲的有些片面了,这里面实际上既有怎么去思考回答问题还有指挥Physical部件的一些具体动作,或者有人把它套用为大脑和小脑。机器人能不能这样比较机械地去区分呢?握持反馈或者说用什么样的力度去握持,不是用所谓的回答问题的大脑去解决逻辑问题,而是靠像膝跳反射等更基础的一些东西让它去和世界交互,去保护自己,去通过世界得到的物理信息更自然地处理它,对吗?它分为不同的系统吗?还是说都是混为一体的?有所谓的大脑小脑吗?
张恒第:
我认为是分的,而且是比较严格地分的。比如说,人在接触整个物理世界的时候,为什么需要一个小脑来做这些东西?哪怕是原始人类,他的体系里没有任何语言,也没有我们现在储备的丰富知识,没有任何符号系统,但即便在这种情况下,他还是能抓东西。再比如,家里的小猫知道粮食在哪,它会自己找过去,甚至把水薅下来,开开关,自己喝。那些东西是不需要语言的,但仍需要一个有智力的东西去操控身体。这一部分我认为是算作小脑的。而且小脑有一个很大的特点,它会和物理世界强关联,它最重要的事情是什么呢,像刚才华哲说的,比如有一个小球突然一下子被幕布挡住了,它消失了吗?它没有消失,比如人的肌肉记忆,人在看到网球飞过来的时候,可能会突然躲它或者打它一下,我根本不需要用文字分析,不用告诉ChatGPT网球飞到哪儿了,让它帮我计算速度,而是靠本能反应,肌肉直接就反应过来了,从看到信息到肌肉执行,一个循环可能零点几秒就能完全完成,这就是小脑的功能,执行很快,和物理世界连接紧密,它不需要抽象的语言文字功能。
司 晓:
它是得到了大模型的加持,还是说在大模型出来前,就已经具备这个能力了呢?
张恒第:
在大模型出来之前,这个能力已经有一些具备了。比如说咱们的仿真机器狗,您可以看波士顿动力,他们的机器狗不是会走路吗?它走路的那一套其实并没有大模型的加持,甚至连强化学习都没有用,应该是用一个叫MPC的算法,所谓的MPC就是Model Predictive Control,Model实际上指的是一个写死的程序,那个程序专门告诉那台机器人,如果你的电机,这个地方稍微出力大一点,你的关节会往上抬,如果你往前再走一步,敲到地上,你会得到一个电流反馈信号,要一步一步告诉它,但它算得很快,因为它毕竟是一台电脑,所以它一直在大脑里做大量的计算,从千千万万个选择里选出最好的下一步。它用来选择的标准实际上是一个写死的物理程序,那个程序会像小脑一样帮助机器人走路、平衡,以及进行各种各样最基础的操作。但是更上层的和我们看起来更像是所谓智慧的东西,靠它们就不行了,它们类似于一个动物,如果想让它变得像人一样强大还需要大脑的加持。
纯虚拟的数字人对小脑的需求没那么强,它的小脑可以简单一点,因为我们可以创造一个仿真世界。在虚拟世界里,它的物理规律会比较简单,它的传感器可以被认为无比强大。在现实世界中,比如说人要感受什么东西,你得去触碰,去摸,得去走路,真真切切地感受到这些力度,这些力度实际上只能通过物理反应、化学反应,最后传到神经信号,在大脑里形成。但是在一个虚拟的仿真世界里,我们完全可以认为机器人像神一样,它不需要传感器,因为它知道所有的信息。所以它和现实之间有一个区别,就是它在那里太强了,简直就是它的世界,它是那个世界的王,但一旦来到现实世界,它就不得不面对一个困境,就是它的传感器没有那么强。
王文博:
刚才司院长问这个概念是不是又会像之前一样昙花一现。很多新事物出来,它的驱动力是不一样的,有些是技术驱动的,技术驱动的结果往往对资本方、投资人不太友好,因为咱们看不到链条后面。一般的链条是Science 、Engineering加上Business,最后是法律法规要适配。如果是技术驱动的话,它后面可能还没想那么远,它想的是我要做出一个非常伟大的东西,改变这个世界,投资人问这东西多少钱?最后能干吗?有没有护城河?就把一堆科学家全问倒了。
所以第一个是我们要思考是不是昙花一现的问题,这东西它到底能干吗?用户是谁?场景在哪?有多便宜?这个问题是每次我面对实控人、投资人时,所有人都会来挑战我的问题。比如说前一阵比较火的ChatGPT,大家觉得它是一个非常成熟的应用,可以用它来生成内容,做内容营销,写文案,制作图片。但其实真正发生的事情是什么?是你让现在最好的大模型去做一个社交媒体封面,你必须人工加智能,如果纯靠智能做出来,只能做到内容扶贫。这个我自己也做过,写小红书比较高难度的文案,盲测打分只有七八十分,所以最后很多企业家一算下来,这个应用场景好像一下子被限缩了,所以很多人问我,这个会不会替代我?我说眼下还不用太担心,因为人工智能比你贵多了。所以,这是第一个问题,成本到底能有多低?实验室的科学家拿的可能是政府的钱,政府希望你拓展人类的边界,这是想象的可能性,至于最后能不能落地,这是后面链条的事了。
第二个问题,这东西有没有持续性呢?必须让各方参与其中的人,不管是Science也好,Engineer、Engineering还是商业的人都能有所收获。如果这个科技本身投入非常大,收获期非常漫长,它会吓退一批愿意投身在里面的资金,这批愿意投身在里面的资金往往是最有效率的资金,它不像政府的资金,政府的资金看得比较远。所以我觉得任何一个概念的提出,最后要结成果实,提出太早不是什么好事,它会挫败一个人。这就好像求婚,求婚太早了往往就走不到终点了。就像过去几年很多国内投身到大模型的人,你在发布会上看,每个人都是壮志凌云,私下跟他聊,都焦虑得不得了,他说我用户在哪儿?没看见,这护城河在哪儿?好像谁都能做。所以我觉得真正把钱放在牌桌上的那些人,他其实是最关心司院长这个问题的,他就关心两点,一是便不便宜,二是我做这事情有没有先发优势的护城河,不然我为什么要做,最后归根结底的问题是谁来买单,如果咱们只靠有情怀的个人或者政府来买单,这个事情就不可持续。扫地机器人可持续,因为所有的人都看见它的好处了,像您刚才说的有触觉的机械手09,还有在To B端的一些应用,军事或者是高危操作,它就是有人会买单,只要成本合适。所以在跟一些学界或商界的朋友交流时,经常提到一个事,这件事就是它可预见的未来成本到底能不能低到比原来的解决方案更具有吸引力。但这个东西很难预测,因为你很难预测市场的规模,所以你很难预测可规模化的产量有多少,最后这个成本能降到多低,所以一般的投资人会把这个想象空间拉到无限大,无限大的情况下,规模就会很大,成本就有可能会低,它的逻辑就是这样。
许华哲:
文博是从商业的角度。从我这个角度来看,我觉得技术首先要有价值,要能产生商业价值,才有后面那些商业真正落地,有护城河,给这个世界带来经济价值。
但从人工智能发展的视角来看,我觉得具身智能一定不是昙花一现。为什么呢?刚才Jason也提到,从达特茅斯会议一直发展至今,我们人工智能经历了几次寒冬。但这几次寒冬还是总结出了一些规律的,比如研究智能的先驱Richard Sutton前一阵写了一篇文章叫《The Bitter Lesson》(苦涩的教训)。他在里面说什么呢?所有我们尝试把人类智慧、符号主义这种小规模的、很聪明的精巧东西放进去的系统全都崩溃掉了,比如说我们的专家系统,比如说我们的符号主义被联结主义击败,再到现在的神经网络。什么东西推动人工智能发展呢?数据驱动,计算力上升,可规模化,这是找到的一条路。具身智能我觉得是这条路上的一个集大成者,我们之前走数据驱动这条路,其实经历了很多次打击,早年大家都不信,直到有了计算机视觉发展、NLP,发展到后面有了大模型、具身智能,大家才看到这条规模化的数据驱动道路是对的,而具身智能正是这样一个系统,把我们之前做的眼睛的部分、嘴的部分全都集成在这里。为什么现在大家还在讨论具身智能到底靠不靠谱,或者它会不会昙花一现?原因是它太难了。
它难的点在于,具身智能里有个东西叫“莫拉维克悖论”,这东西是说,我们以为简单的事情其实是困难的,而我们以为困难的事情其实是简单的。举个例子,我刚才正好盯着地面,看到一个蚂蚁搬着食物沿着轨迹在走,其实这件事情如果放在机器人身上是非常困难的,它要寻路,要举着一个很重的东西,而且还要跟其他蚂蚁协作,但这个东西对被普遍认为智能较低的蚂蚁来说却可以做得这么好。对人也一样,我们用手去摘果子,我们的老祖先不停地在锻炼具身智能的能力,所以我们以为这东西太简单了,生下来我没练多久就会了。但是对具身智能的机器人来说很难,因为它没有几千万年的进化,它没有为了生存做这件事。所以为什么我觉得现在具身智能肯定在对的路上,但大家还在讨论它靠不靠谱呢?因为它也足够难。
司 晓:
这个挺好,刚好也带出了我想问的一个问题。之前微软也好或者说OpenAI投的 Figure 01也好,感觉炫技的时候都是在家里搞一个类似保姆工作的场景,扫个地,我要扫哪儿,用什么去擦,擦完之后丢在哪儿,实际上是个挺复杂的东西,这在我们看来就是特别简单的东西。但这一类反而是大家炫技的场景,而不是说到工厂里去生产一个汽车,为什么这波炫技是炫这些,而不是到工厂里面炫。如果从marketing的应用来说,它可能都有场景和用户。如果专指这一波,你觉得家用端更有市场或者能更早落地吗?或者说,它从技术上实现的难度在工厂端和家庭端分别是什么样的感觉呢?
张恒第:
家庭端显然难过在工厂,这个毋庸置疑。因为工厂是一个比较可控的环境,一旦可控的话,我们就可以想办法通过预编程的手段,以降低智力但提升精度的方式来完成这个事情,但你一旦到家庭这种复杂的环境,每个人喜好不一样,我吃苹果,他吃橘子,我的杯子放在这里,他的压根就不是杯子,是个碗。这样复杂的场景,你完全没法通过仅靠精度加一些预编程来实现,这种条件下就必须要求我们的具身智能系统有很强的智力,只有在智力的加持下才行。在工厂里,我们现在落地的话完全可以用传统的,比如说PLC控制,甚至是更简单的一些算法。左右一个回归器,太偏左了偏右回来,太偏右了偏左回来,就完全够了。工厂里当然也有很复杂的场景,所以我猜想这一波具身智能的应用落地可能一开始反而是会在有那么一点点客制化的工厂里去实现,因为这是一个完全开放的环境和完全可控的环境之间的折中状态。在这个状态上经过一段时间的锻炼,再加上一些人工智能GPT方面的发展,有可能它能从这个地方一步跃到家庭中去,可能很快就能达到这个状态。