本期为《仲夏六日谈》第三季第一期节目文字内容,主题为《具身智能:信仰还是FOMO?》。

 

十大看点:

 

对话嘉宾:

司晓 腾讯集团副总裁、腾讯研究院院长

王文博 香港科技大学终身教授

张恒第 帕西尼感知科技CTO

许华哲 星海图科技联合创始人

 

具身智能:信仰还是FOMO?

 

司晓:欢迎收看《仲夏六日谈》,今天讨论的主题是《具身智能:信仰还是FOMO》,这个话题是想探讨:具身智能到底是一个正被全民热议的信仰,还是一种“害怕错过”(Fear of Missing Out,简称FOMO)的流行话题。换言之,这个话题究竟是实是虚?我们非常荣幸地请到了三位嘉宾,他们在各自领域都非常知名,我们请他们来自我介绍一下。

王文博:大家好,我叫王文博,是香港科技大学商学院的教授,目前主要从事人工智能相关的用户研究,我最近在做的研究是用AI生成小红书文案、短视频素材等营销内容,此外我比较关注用户体验和企业家对于科技的反应、愿意投入的热诚及焦虑。

司晓:文博兄应该算网红教授了,您属于知识型网红,我看您的视频号时,发现我的好友里已经有三四百个人关注你了,这个比例还是挺高的。华哲、恒第很年轻,你们两位应该是典型的理工男,而且是机器人行业的从业者,先给大家介绍一下。

许华哲:大家好,我叫许华哲,目前是清华大学交叉信息研究院的助理教授,同时也是清华大学具身智能实验室的负责人。我主要研究具身智能,更直接地讲,是让机器人学会操作的能力,像我们一样用双臂、双手去跟物理世界交互。我去年做过一个很有意思的东西,让机器人包饺子,但不是在工厂里面流水线化地包饺子,而是让它像妈妈或者我们自己一样,用双臂来包饺子,这是一个很典型的代表。能不能让机器人通用地去做人的手可以做的所有事情,这是我的一个研究目标。

张恒第:观众朋友们好,我是张恒第,是帕西尼感知科技的CTO。我们公司主要致力于为机器人做一个最重要的感知——触觉。为什么触觉这么重要?就像刚才Jason说的一样,机器人现在只有一个大脑和一只可以看见东西的眼睛,它真正跟人交互或者和其他物体交互的时候,最重要的一个像人一样的感知就是触觉。所以我们致力于让所有的机器人都拥有像人类一样丰富而有温度的触觉,让它可以更广泛地进入人类社会,在人类的社会生活以及心理符号上成为一个更加有温度、有热度,更加具象的存在。

司晓:感谢三位嘉宾的介绍,大家可以看到我们的嘉宾组合,我是纯文科的,中间两位理工男,文博兄算是文科或者文理结合起来的背景,可以说我们的嘉宾从学科背景到从业经验,都是非常多元化非常互补的。我也问了一下,各位都很喜欢科幻,这让我尤其兴奋,希望今天的探讨可以不拘泥于过去讨论过的一些方向。

我们的题目定义为“具身智能”,这个词是过热还是偏虚呢?会不会像元宇宙一样?大家可能觉得这一波的AI达到一个顶点了,不会像之前达特茅斯会议后的几起几落,最起码它稳定在一个比较恒定的热点状态。关于具身智能,大家说得比较多的一点是,必然得通过具身智能才有可能达到AGI这一步。现在也看到很多人讨论 AI Agent,我刚刚在北京参加了一个关于数字人法律问题的活动,每一个嘉宾都从自己的角度讲了对它的分类。套用“既要有好看的皮囊,还要有趣的灵魂”,可以说这一波所谓的具身智能或者机器人的升级之处,很大程度上在于它有脑子甚至于有情感,有情绪了。那么第一个问题问各位嘉宾,大家觉得具身智能是什么?不是什么?比如说AI Agent这些词,它们的异同是什么?

张恒第:具身智能这个词,其实是近两年才出现的。有一年,英伟达的黄仁勋突然把具身智能这个词提出来了。但根据我自己的一些体验,很早的时候有很多类似的概念,比如说大概十五年前,那会儿就有人提出了Cyber-Physical Systems(赛博和物理世界),这不是一个偏科幻的词,这是一个严肃工业中会使用到的词。一方面,有一个AI一样的程序或者说一段预编程的程序,它会一直从一些物理上的传感器去接收实时的数据,对这些数据进行快速处理,处理完后又对物理世界进行一个反馈。比如说在工厂里控制一些东西的质量,或者在一些更广泛的场景里让摄像头一直跟着某一个人走,实际上这个时候已经体现出来一点具身智能的味道了。

经过多年的发展,我觉得具身智能最大的特点在于,咱们单独提这个词的时候更关注它的执行力和思想。以前这两个方面或许都相对薄弱,但是都有那个味道,我们把它叫做很早期的具身智能。但是现在,我觉得目标越来越明晰了,我们希望看到它像人一样聪明,至少能帮人干一样的事情。从这个角度来说,它必须执行力更强、更聪明,两者合在一起,并且体现出一个完整的,像机器人一样的形态,我觉得这个东西才叫具身智能。

司晓:图灵在他的机器智能的文章里第一次提到了Embodied Intelligence,那么请各位嘉宾继续谈谈,你理解的具身智能是什么?不是什么?以及它和现在一些比较相近的词之间的区别是什么?

王文博:刚才我问恒第和华哲,我说你看这个扫地机器人,加上无人机,这俩plus,再聪明点,这算不算具身智能?很多人说这个词可能概念过热了,我完全不这么认为。我们现在在风景如画的碧山村,我昨天问了几个当地的村民,我问他知不知道具身智能这四个字,他都认识,拼一起不知道啥意思。我跟他说,扫地机器人知道吗?知道。无人机知道吗?知道。我觉得革命性的科技当然是在一小撮人中开始孕育的,我们在讨论这个话题的时候,可能除了实验室里的想法,更多的要想,当一个概念出来的时候大众能不能接受,因为这直接影响到最后能不能上路。好像最近自动驾驶比较成熟了,所以我在想,咱们在讨论具身智能概念的时候,可能更多的要从那些立法者、政策制定者的角度做一个更好的沟通,他们可能不是咱们这样的背景,可能跟碧山村的当地村民认知差不多。

我个人感觉,具身智能跟过去几年存在于电脑屏幕里的ChatGPT的不同之处可能在于它有一个物理世界的执行力,扫地机器人也有,显然它不是我们期待的那种智能。它可能还有一个特性,它要有一个生长性。它遇到一个问题,不是说“摁”就好了,它就能往左边走,右边走,而是要根据现实的情况决策。第三个,还要有一些个性化的服务。恒第刚才说到三维世界,我觉得从普罗大众的认知来讲,他们能听懂的是什么呢?输入的信息是什么?输入的信息可能是多模态的,也就是说有图片、声音、气味、触觉、文字等等,经过它的智能思考,再通过一个可执行的肢体为人类服务,这个肢体可能是个扫帚,可能是个手臂,也可能是个螺旋桨,这是我理解的具身智能。

许华哲:我觉得刚刚文博说得特别到位。我的看法正好跟你刚才说的几个点一一对应,首先第一层含义是赋予身体智能,让它能去做这些事情,这是第一层。第二层,在它跟物理世界交互的过程中提升智能,像我们人一样,在锻炼中变得更强。第三,要有一个主体性,就是说这些感官,无论视觉、触觉,刚刚说的多模态输入,都属于我这个身体,对于我来说,我看着很美的东西,可能你看着很丑,我觉得很疼的东西,你可能觉得很爽,这样的话,它和大模型是不一样的,它有一个主观性在这里,这是我认为的具身智能。

刚刚说到在物理交互中提升智能,其实有一个很典型的例子,人类的婴儿有一个东西叫Object Permanence(物体存在)。我们小时候其实是分不出来的,如果妈妈拿一个玩具给一个婴儿看,他会很感兴趣,拿布遮住以后,他立刻觉得这东西消失了,就四处张望,他是怎么样渐渐学到这个东西呢?他可能是绕到布后面或者把布掀开,一次次跟物理交互的时候,他发现物体不会消失,只是光线被挡住了,这个过程就是一个智能发展的过程,所以具身智能可能不只是狭义的给身体以智能,而是有了身体以后我们的智能会怎么样发展,甚至在没有身体的时候,无法发展的一部分能不能发展得更好,这是我的想法。

司晓:其实还有一个问题困惑着我,包括我在北京开这个会的时候也没想清楚。大家说 Agent,其实是文博兄说的要决策,但是“具”,也就是Embodied,是说不管它是肉体的还是机械的都必须得有一个Physical的东西吗?所以是不是三位都认同具身智能必须得是Physical呢?比如说电影《Her》,有人说形神兼备也有人说形神俱灭。从中文的角度来说,这个“形”未必得是Physical吧?如果有一个声音,它只是多模态的一种,没有任何Physical的身体,当然你可以把它装在任何一个身体上,但它可以没有任何身体吗?我从《Her》这个电影里感知到它确实是一个存在的虚拟主体,这种算不算我们讲的具身智能?可能稍微有点咬文嚼字,简单来说,这个“具”到底要不要Physical?

许华哲:在我看来不算。具身智能一定要有身体,但这个身体可能有一个模糊的界限。首先物理的身体一定是具身智能,仿真或者游戏里面的身体应该也算是某种意义上的具身智能,我认为也算,但是像《Her》或者GPT,我觉得不算,因为它没有身体,它并不知道哪一个我才是真的我,所以我认为是不算的。

王文博:我觉得这个身体不一定是身体的形状或者样子,它可以是一个榔头,螺丝钉都行,但它要有一个物理世界的执行能力,至于这个执行的任务是要用身体化的身体去执行,还是说螺旋桨、扫地机器人的扫帚就行,那可能是根据场景来决定的。

司晓:我觉得比较Tricky的一点是什么?因为我看Hinton讲的科学计算说人类软硬件不可分离,这种计算能力它的优点是,一碗米饭可以搞一天,这个算力虽然没那么强,单线程的,但它的能耗很低,缺点是没有群体智能,有寿命,爱因斯坦的脑子留下来没有任何意义,它是这种类型的。刚才文博兄说,它可能是钉子或者其他的形态,但是如果我们从Agent这个角度来看,它可以没有任何东西,但可以指挥一堆没有大脑的机器去做这个事,这么看起来它是那个身体又不是那个身体。套用Hinton的说法,它的身体是无处不在的。它既不能具象为某一个东西,又不能被消灭,你把这个砍了,对它也没有任何伤害,所以我觉得这个“具”和“非具”其实是有一点Tricky的。你放在现在的时代里或者未来的机器人场景里,形和神其实可以完全剥离,它也可以是虚拟的,所以这可能是一个比较有意思的话题。其实我觉得第一个环节根本不是为了达成共识,因为这个不可能有太具体的共识,而是说,一堆相近的说法放在一起会对我们的破题有一些帮助。

刚才也谈到了达特茅斯会议之后人工智能的几起几落,这一波的人工智能或者说具身智能的再次火爆,它和之前有什么不同的背景,以及大家觉得具身智能这一波的热潮可以持续很长时间吗?它会和AI一样既是热点话题又有实际产出,又有Base Model的东西,还是说会像元宇宙一样昙花一现呢?因为过去几年大家经历过元宇宙、区块链、NFT等概念,觉得你们这个行业喜欢制造概念,搞着搞着,搞金融的先去买比特币,去搞虚拟币,收割一波跑了。我们现在讲的这个东西,大家作为从业者怎样看待?

许华哲:这一波的具身智能可能和之前非常不一样,因为这一波实际上有了AI的强加持。而且从以往的经验来看,很早的时候,机器人的执行器其实已经有很强的能力了。比如说前段时间斯坦福他们做的Aloha小机器人,它的执行器其实就是两个小小的夹爪,但你会发现它在家里面帮人撸猫、叠衣服或者是晾衣服,各种事情全都能干,它那一套装备,也就是它的执行器,可能十年前、二十年前甚至三十年前,人类已经有能力把它制造出来了。但三十年前的一台Aloha和现在的一台之间最大的区别其实是人工智能。所以有时候我们在说具身智能,在说怎样造出一个机器人的躯体,我觉得更大程度上可能是在说,我们给AI造一个它可以体验和现实世界交互的瓶体,像神仙下凡一样,直接让它进入这样一个身体。它有了这个东西以后,会用这个身体去体验更多的信息,获得更多的智能。所以这一波,实际上是两方面相辅相成,AI有多强可能具身智能就会长到多厉害,它的应用范围也就会扩展到多宽。所以如果AI是个实体的,那这一波的具身智能应该会跟它相辅相成,后面会大量纠缠在一起,应该不会再分开太多。

司晓:您能不能稍微再解释具体一点,刚才家用机器人的两个爪子或者手,它和十年、二十年前的东西没有本质区别,是吧?从物理功能上没有任何区别?

许华哲:对。性能也许提升了,但是自由度也许变多了,总的来讲是非常有限的提升。

司晓:为什么在同样的硬件下,这个大脑会使得它有更强的操作能力,除了知道干什么外,它在握持东西的时候是不是也有智能在后面?

许华哲:握持东西的时候显然是有智能的。举一个很简单的例子,像以前在工厂里,我们也许是用一个写得很死的程序,比如说我有一个摄像机,我照到这个东西,你看见它在屏幕偏左边的地方,长这个样子,过去,请把它拿到中间,结束了。这个就是当时的具身智能,也不叫具身智能,它纯粹就是一个程序在控制一个机械臂做事。而现在,比如说像我们公司会出很多触觉的传感器,再把触觉的传感器装到机器人的手上,一般来讲是装到一个灵巧手上。灵巧手的自由度就跟人手一样灵活,它的自由度可能稍微比人少一点,但一样可以抓东西、捏东西、敲键盘,这些事情都可以做,在做的过程中,它敲击键盘的那一刻或者它拿到东西的那一刻,如果有触觉信号的话,它能切实地感觉到我摸到这个东西了,那个东西就在那儿。

刚才文博兄说到多模态,实际上触觉也好,或者它对温度的感觉也好,那些就是另一个模态,人为什么在体验世界的时候用了这么多不同的模态,因为单一模态对这个世界的理解肯定是不够深入的,你很难想象一个人只靠触觉或者只靠视觉去理解这个世界。但像现在,在AI的加持下,这么多不同的传感器会使以前的一个夹爪和现在的一个夹爪产生超级大的区别。因为现在它不光能夹这个东西,在夹东西前,它能感知到各种各样的信号,这些信号又会被AI进行一个处理,最后做一个最智能的决策。您到最后会发现,这样的一个智能夹爪已经不会比人的手差太多了。因为人的手可以被认为是五个棍合在一起,后面还有一根棍,各种各样的棍最后构成整个人体的执行器。机器人和它有本质的区别吗?没有那么大的区别,真正的区别可能还是在大脑里,所以我觉得,现在的具身智能和以前的具身智能之间最大的区别是大脑和身体的强绑定。

司晓:我发现刚才我在讲形和神或者说大脑和身体的时候讲的有些片面了,这里面实际上既有怎么去思考回答问题还有指挥Physical部件的一些具体动作,或者有人把它套用为大脑和小脑。机器人能不能这样比较机械地去区分呢?握持反馈或者说用什么样的力度去握持,不是用所谓的回答问题的大脑去解决逻辑问题,而是靠像膝跳反射等更基础的一些东西让它去和世界交互,去保护自己,去通过世界得到的物理信息更自然地处理它,对吗?它分为不同的系统吗?还是说都是混为一体的?有所谓的大脑小脑吗?

张恒第:我认为是分的,而且是比较严格地分的。比如说,人在接触整个物理世界的时候,为什么需要一个小脑来做这些东西?哪怕是原始人类,他的体系里没有任何语言,也没有我们现在储备的丰富知识,没有任何符号系统,但即便在这种情况下,他还是能抓东西。再比如,家里的小猫知道粮食在哪,它会自己找过去,甚至把水薅下来,开开关,自己喝。那些东西是不需要语言的,但仍需要一个有智力的东西去操控身体。这一部分我认为是算作小脑的。而且小脑有一个很大的特点,它会和物理世界强关联,它最重要的事情是什么呢,像刚才华哲说的,比如有一个小球突然一下子被幕布挡住了,它消失了吗?它没有消失,比如人的肌肉记忆,人在看到网球飞过来的时候,可能会突然躲它或者打它一下,我根本不需要用文字分析,不用告诉ChatGPT网球飞到哪儿了,让它帮我计算速度,而是靠本能反应,肌肉直接就反应过来了,从看到信息到肌肉执行,一个循环可能零点几秒就能完全完成,这就是小脑的功能,执行很快,和物理世界连接紧密,它不需要抽象的语言文字功能。

司晓:它是得到了大模型的加持,还是说在大模型出来前,就已经具备这个能力了呢?

张恒第:在大模型出来之前,这个能力已经有一些具备了。比如说咱们的仿真机器狗,您可以看波士顿动力,他们的机器狗不是会走路吗?它走路的那一套其实并没有大模型的加持,甚至连强化学习都没有用,应该是用一个叫MPC的算法,所谓的MPC就是model predictive control,model实际上指的是一个写死的程序,那个程序专门告诉那台机器人,如果你的电机,这个地方稍微出力大一点,你的关节会往上抬,如果你往前再走一步,敲到地上,你会得到一个电流反馈信号,要一步一步告诉它,但它算得很快,因为它毕竟是一台电脑,所以它一直在大脑里做大量的计算,从千千万万个选择里选出最好的下一步。它用来选择的标准实际上是一个写死的物理程序,那个程序会像小脑一样帮助机器人走路、平衡,以及进行各种各样最基础的操作。但是更上层的和我们看起来更像是所谓智慧的东西,靠它们就不行了,它们类似于一个动物,如果想让它变得像人一样强大还需要大脑的加持。

纯虚拟的数字人对小脑的需求没那么强,它的小脑可以简单一点,因为我们可以创造一个仿真世界。在虚拟世界里,它的物理规律会比较简单,它的传感器可以被认为无比强大。在现实世界中,比如说人要感受什么东西,你得去触碰,去摸,得去走路,真真切切地感受到这些力度,这些力度实际上只能通过物理反应、化学反应,最后传到神经信号,在大脑里形成。但是在一个虚拟的仿真世界里,我们完全可以认为机器人像神一样,它不需要传感器,因为它知道所有的信息。所以它和现实之间有一个区别,就是它在那里太强了,简直就是它的世界,它是那个世界的王,但一旦来到现实世界,它就不得不面对一个困境,就是它的传感器没有那么强。

王文博:刚才Jason问这个概念是不是又会像之前一样昙花一现。很多新事物出来,它的驱动力是不一样的,有些是技术驱动的,技术驱动的结果往往对资本方、投资人不太友好,因为咱们看不到链条后面。一般的链条是science 、engineering加上business,最后是法律法规要适配。如果是技术驱动的话,它后面可能还没想那么远,它想的是我要做出一个非常伟大的东西,改变这个世界,投资人问这东西多少钱?最后能干吗?有没有护城河?就把一堆科学家全问倒了。

所以第一个是我们要思考是不是昙花一现的问题,这东西它到底能干吗?用户是谁?场景在哪?有多便宜?这个问题是每次我面对实控人、投资人时,所有人都会来挑战我的问题。比如说前一阵比较火的ChatGPT,大家觉得它是一个非常成熟的应用,可以用它来生成内容,做内容营销,写文案,制作图片。但其实真正发生的事情是什么?是你让现在最好的大模型去做一个社交媒体封面,你必须人工加智能,如果纯靠智能做出来,只能做到内容扶贫。这个我自己也做过,写小红书比较高难度的文案,盲测打分只有七八十分,所以最后很多企业家一算下来,这个应用场景好像一下子被限缩了,所以很多人问我,这个会不会替代我?我说眼下还不用太担心,因为人工智能比你贵多了。所以,这是第一个问题,成本到底能有多低?实验室的科学家拿的可能是政府的钱,政府希望你拓展人类的边界,这是想象的可能性,至于最后能不能落地,这是后面链条的事了。 

第二个问题,这东西有没有持续性呢?必须让各方参与其中的人,不管是science也好,engineer、engineering还是商业的人都能有所收获。如果这个科技本身投入非常大,收获期非常漫长,它会吓退一批愿意投身在里面的资金,这批愿意投身在里面的资金往往是最有效率的资金,它不像政府的资金,政府的资金看得比较远。所以我觉得任何一个概念的提出,最后要结成果实,提出太早不是什么好事,它会挫败一个人。这就好像求婚,求婚太早了往往就走不到终点了。就像过去几年很多国内投身到大模型的人,你在发布会上看,每个人都是壮志凌云,私下跟他聊,都焦虑得不得了,他说我用户在哪儿?没看见,这护城河在哪儿?好像谁都能做,但是腾讯有应用场景了,它还免费,我怎么混?所以我觉得真正把钱放在牌桌上的那些人,他其实是最关心Jason这个问题的,他就关心两点,一是便不便宜,二是我做这事情有没有先发优势的护城河,不然我为什么要做,最后归根结底的问题是谁来买单,如果咱们只靠有情怀的个人或者政府来买单,这个事情就不可持续。扫地机器人可持续,因为所有的人都看见它的好处了,像您刚才说的有触觉的机械手09,还有在To B端的一些应用,军事或者是高危操作,它就是有人会买单,只要成本合适。所以在跟一些学界或商界的朋友交流时,经常提到一个事,这件事就是它可预见的未来成本到底能不能低到比原来的解决方案更具有吸引力。但这个东西很难预测,因为你很难预测市场的规模,所以你很难预测可规模化的产量有多少,最后这个成本能降到多低,所以一般的投资人会把这个想象空间拉到无限大,无限大的情况下,规模就会很大,成本就有可能会低,它的逻辑就是这样。

许华哲:文博是从商业的角度。从我这个角度来看,我觉得技术首先要有价值,要能产生商业价值,才有后面那些商业真正落地,有护城河,给这个世界带来经济价值。

但从人工智能发展的视角来看,我觉得具身智能一定不是昙花一现。为什么呢?刚才Jason也提到,从达特茅斯会议一直发展至今,我们人工智能经历了几次寒冬。但这几次寒冬还是总结出了一些规律的,比如研究智能的先驱Richard Sutton前一阵写了一篇文章叫《The Bitter Lesson》(苦痛的一刻)。他在里面说什么呢?所有我们尝试把人类智慧、符号主义这种小规模的、很聪明的精巧东西放进去的系统全都崩溃掉了,比如说我们的专家系统,比如说我们的符号主义被连接主义击败,再到现在的神经网络。什么东西推动人工智能发展呢?数据驱动,计算力上升,可规模化,这是找到的一条路。具身智能我觉得是这条路上的一个集大成者,我们之前走数据驱动这条路,其实经历了很多次打击,早年大家都不信,直到有了计算机视觉发展、NLP,发展到后面有了大模型、具身智能,大家才看到这条规模化的数据驱动道路是对的,而具身智能正是这样一个系统,把我们之前做的眼睛的部分、嘴的部分全都集成在这里。为什么现在大家还在讨论具身智能到底靠不靠谱,或者它会不会昙花一现?原因是它太难了。

它难的点在于,具身智能里有个东西叫“莫拉维克悖论”,这东西是说,我们以为简单的事情其实是困难的,而我们以为困难的事情其实是简单的。举个例子,我刚才正好盯着地面,看到一个蚂蚁搬着食物沿着轨迹在走,其实这件事情如果放在机器人身上是非常困难的,它要寻路,要举着一个很重的东西,而且还要跟其他蚂蚁协作,但这个东西对被普遍认为智能较低的蚂蚁来说却可以做得这么好。对人也一样,我们用手去摘果子,我们的老祖先不停地在锻炼具身智能的能力,所以我们以为这东西太简单了,生下来我没练多久就会了。但是对具身智能的机器人来说很难,因为它没有几千万年的进化,它没有为了生存做这件事。所以为什么我觉得现在具身智能肯定在对的路上,但大家还在讨论它靠不靠谱呢?因为它也足够难。

司晓:这个挺好,刚好也带出了我想问的一个问题。之前微软也好或者说OpenAI投的 Figure 01也好,感觉炫技的时候都是在家里搞一个类似保姆工作的场景,扫个地,我要扫哪儿,用什么去擦,擦完之后丢在哪儿,实际上是个挺复杂的东西,这在我们看来就是特别简单的东西。但这一类反而是大家炫技的场景,而不是说到工厂里去生产一个汽车,为什么这波炫技是炫这些,而不是到工厂里面炫。如果从marketing的应用来说,它可能都有场景和用户。如果专指这一波,你觉得家用端更有市场或者能更早落地吗?或者说,它从技术上实现的难度在工厂端和家庭端分别是什么样的感觉呢?

张恒第:家庭端显然难过在工厂,这个毋庸置疑。因为工厂是一个比较可控的环境,一旦可控的话,我们就可以想办法通过预编程的手段,以降低智力但提升精度的方式来完成这个事情,但你一旦到家庭这种复杂的环境,每个人喜好不一样,我吃苹果,他吃橘子,我的杯子放在这里,他的压根就不是杯子,是个碗。这样复杂的场景,你完全没法通过仅靠精度加一些预编程来实现,这种条件下就必须要求我们的具身智能系统有很强的智力,只有在智力的加持下才行。在工厂里,我们现在落地的话完全可以用传统的,比如说PLC控制,甚至是更简单的一些算法。左右一个回归器,太偏左了偏右回来,太偏右了偏左回来,就完全够了。工厂里当然也有很复杂的场景,所以我猜想这一波具身智能的应用落地可能一开始反而是会在有那么一点点克制化的工厂里去实现,因为这是一个完全开放的环境和完全可控的环境之间的折中状态。在这个状态上经过一段时间的锻炼,再加上一些人工智能GPT方面的发展,有可能它能从这个地方一步跃到家庭中去,可能很快就能达到这个状态。

司晓:我想到了之前大家说的云代驾,它更多是个概念对吧?如果要真正放在代驾场景里还要考虑网络环境,考虑一个人如果代驾几辆车,假如说真的有两辆车同时发生危险的时候,能不能干预。如果放在一个矿区的场景里,我确实可以开五台矿车,这还不是智能,可能更多的是类似于在线即在场的真实的驾驶感。因为腾讯云的峰会也演示过,在武汉去开鄂尔多斯的一千五百公里,而且一个人开五台车,那是因为那个车足够慢,精度要求也没那么高,所以可以跳来跳去地开。但是放到所谓的真正的云代驾场景里,谁也不敢让你这么干,是不是这个意思?

王文博:对,我们通常认为To B比To C场景更容易实现,因为只要是涉及人员在场、人机互动的情况,它里面就有很多干扰项,不是说我成本到位了,ROI一算就可以做的,还要考虑保护这个人的感受。万一形成伤害怎么做,里面有很多非科技的因素牵扯进来,我也非常认同它最后可能会在一些具有成本效应的To B端中率先完成一些应用,而且这些To B端其实不需要特别广义的一些智能。当然,它要有视觉多模态的输入,但是它可能在很多其他的制约条件方面没有这些东西,这个其实对推动整体的具身智能是有好处的,让一波先尝果子的人看到成效,后面的人才愿意探索,反正我觉得无论是从整个部门规划还是整个学科发展来说,让一部分人先用起来都是对后面有好处的。

司晓:其实我很纳闷,现在有卖机器马、机器狗的,这么大个东西弄到家里挺危险的,万一摔倒了砸到谁怎么办,那种很复杂的场景就更不用说了。    

王文博:但你看大厂搞发布会,要不冲咖啡要不做游戏,它为什么选择这种?我觉得是跟他们要达到的传播效果有关系,在物流车间里展示叉车估计没人看,放在网上都没人看,大家会觉得跟自己没什么关系,咖啡不错,美国人天天冲咖啡。

许华哲:我倒是觉得具身智能它这一波和之前几波的本质区别在于两个字,泛化。关注点在于做一件事情能不能通用地泛化到类似的场景和物体。所以大家很喜欢在To C的地方炫技,炫技就是说我这个泛化性好,因为咖啡壶可能不一样,厨房场景也不一样,但是落地还是落在To B,但我觉得放大镜要往前再走一步,如果在To B场景中我们看到的是传统的拧螺丝,或者是做一些重复性的东西,它就不需要具身智能,因为它不需要泛化,它就是同样的东西做一千遍一万遍。那在To B的地方到底做什么?其实我们看到了一些东西,比如说有一些地方是货到人,这些不需要,但有些仍然是人到货,比如说总装的地方,厂子里,这儿有一个平板,那儿有一个铁块,这儿有一个圈,这些东西要把它都放在一个篓子里。比如这件事目前还没有办法流水线化,只能用传统机械臂去做。它有种半开放保姆的感觉,比较简单,但是靠传统那套控制算法又做不了,或者像园区内外卖的最后一公里,其实这个园区里没有那么复杂的路况,但你要没有点智能还真做不到,很容易就卡在那了,所以我觉得可能会先落在To B但需要一定的智能程度的地方。

司晓:还有一个关联的问题,在实现的路径上,我看到好像有的机器人可以让真人带上一个设备,直接教它怎么操作,有的通过神经网络的训练,先让它在计算机里摔倒多少回,走多少回,再把最好的算法直接装到身体里,这两种学习路径或者说别的学习路径都适应哪些场景,分别有什么优劣势?

张恒第:这两种实际上我们可以简单地认为一个是监督,一个是无监督。您说的那种类似于强化学习,就是把机器人的脑子和它身体的仿真模型扔到一个假的空间里,在虚拟空间里让它摔倒千万次,它总能找到一个策略,那个策略会使它正常地站起来,走起来甚至跑起来。一旦达到这个条件,我们再把那一段和它脑子里生成控制策略的那一段代码,直接下载到一个真正的狗里头,它就跑起来了。这个目前看来,对用小脑执行的任务非常有效。

但是另一方面,让它去做用大脑执行的任务还差蛮多,所以用大脑执行的任务更多是用遥操作的方式。我们给它生成很多的标注数据,在这些标注数据的基础上解决问题会简单一点。发散一下讲,为什么会造成这两种区别?因为用小脑控制的机器狗在到处跑的时候面对的是一个很干净的物理世界。物理世界大家都知道,比如说整个现实世界的规律也许就是一个薛定谔方程,就那几条,在虚拟环境里也是一样,就是几个力学方程,它复杂的地方是它自由度多,构型比较变幻莫测。在这个基础上,它只面对这些很简单的公式演绎出来的世界,最好是用这种让它无监督地自己学习,无师自通,就跟小孩学走路一样,你也不用去手把手教它,先左脚,再右脚,它连话都听不懂,你就说小朋友过来,让它多试几次,它就试出来了,就是这样一个道理。但他进入学校后面对的都是很复杂的带语义的各种各样的知识,他需要大量的符号,需要符号之间的各种转换,各种Mapping,各种变换。这一部分就是因为它的数据量实在太大了,您如果说有一台超强的计算机,从宇宙大爆炸开始用基本规律算,确实能把这些都算出来,但是有这么强的计算机吗?根本不存在。所以最后我们需要对这个体系进行一个截断,截断的结果就是在它的截断边界上形成了一大堆的数据,这一堆数据都要人帮忙或者说是它的一个Teacher去帮忙把这些数据归集出来,再教给它,这就是我们所谓的遥操作的那些措施,现在有一个提法叫Data-Efficiency,就是说以前要学一万遍才能学会的东西,现在逐渐只需要几十遍、一百遍,甚至有厉害的叫Few shots Learning,可能教几遍就会了。所以这种技术确实可能是使这一波具身智能持续发扬光大,变得更智能的一个重要因素,因为在物理世界里不像在虚拟世界里一样,你跑一万遍,也就是电脑多开几个核,Run一下,要实实在在地在实验场里头要建这么多跑道,让它跑一万遍还是相当贵的,所以从数据中学习的效率是很重要的,但它确实需要人类去教它,去标注。    

司晓:这个背后,也是大模型的进化导致学习效率提高吗?

张恒第:也可以认为是人工智能的发展,但它不一定是我们所认为的那种大模型,它有可能是其他的一些技术,但都是在人工智能的版图里。

许华哲:我觉得刚才恒第讲得非常全面。一般来说,在模拟器里去尝试的叫强化学习,强化学习就像巴普洛夫养狗一样,一按铃给它吃的,以后一按铃它就过来了,它是通过这样的方式。这个的好处是你不需要具体教它怎么做这件事,只要告诉它孰好孰坏,它就会不停地尝试,找到能让你满意的那个做法,这是好处。但坏处是什么?它的效率其实是比较低的,因为它要自己通过试错找到什么是正确的,肯定比别人直接告诉它正确道路要慢得多,所以它数据效率低,那怎么办?大家说那一定只能放在模拟器里,至少在目前这个阶段,放在模拟器里是可以的,因为模拟器反正是要计算,计算一万遍一千万遍都没关系,只要你电脑足够多,GPU足够多。所以一般来说,从身体的肢体技术来讲,挑战一些上限的东西,比如我要打网球,投篮,我要搞得特别好,特别精准,包括AlphaGo其实是一种非具身的技术,它要突破人类上限,要试一千万遍,我觉得是非常必要的。但很多带语音理解的,身体上没有那么难的事情,我往往可能采用真实数据对它进行一个示教,给它十个、一百个、一千个,大概这个量级的示教,它就能学到很多事情,而且也能有一些泛化的效果。这是两条路的一个技术上的区别。

至于未来走哪条路,我觉得其实一定是混合的,具身智能一定是所有的数据混合的,我们要从互联网数据去学大模型,要从仿真数据里去学精巧的技术动作,要从示教数据里学具体的任务怎么做,要根据它跟世界的继续的反馈,用那部分跟真实世界的互动进一步提升它的智能,我觉得这几层的数据都是要混合在一起的。因为人就是用这些数据去做的,我打一个游戏,看一场b站直播,我既自己摸索,也会请厉害的兄弟教我一下。

王文博:说到这个数据,正好有一个问题咱可以讨论一下。因为我们人接收多模态的信息学习执行,实际上学习效率是非常高的,因为我们有非常强的举一反三的泛化的能力,所以像阿尔法狗,它把棋谱全学完了以后,俩阿尔法狗互相下,下出很多人类前所未有的棋谱,再去学习。但是把这套放在ChatGPT里就不管用了,因为他们发现,你让ChatGPT写出很多唐诗,再拿这些唐诗、小作文去训练它,它的泛化提高效率是非常非常低的。所以有一种说法认为,我们卡在类似于ChatGPT的智能的发展瓶颈了,也就是说人类的高质量数据不够了,或者说低成本且高质量的数据不够了。那么在具身智能领域,这块优质数据的存在或者它的数量以及学习效率目前的水平会不会成为以后触达天花板的一个瓶颈?

许华哲:我觉得文博这个问题非常有水平,我认为具身智能最核心的瓶颈就是数据。为什么现在大家其实都已经用起来GPT了,觉得它好像能解决生活中80%的文字相关的事,但为什么具身智能连给我端茶倒水这种事都没有解决。就是因为没有数据。因为机器人本身是人造的一个东西,它天然的没有数据,不像语言,我从微博上的引战帖、知乎上的回答帖,都能获得很多。但具身智能怎么办?离具身智能最近的一个解决方案可能是自动驾驶。比如特斯拉,它把这个车卖给我们,我们帮它开,我们开的过程中,它偷偷OTA,把它的数据拿回来,它有很多数据,但机器人目前还没到这个阶段,这个涉及一个数据飞轮,要有更多人用它,它采到更多数据,它的用处更大了,才能形成一个数据飞轮。

张恒第:华哥说的这个特别重要,刚才文博也提到数据,这确实是关键中的关键,我们在产业界里做各种各样的业务,有些是垂直的一个很小的领域,有的是很大的比较需要泛化的两种领域,两种领域都发现一个事情,就是数据采集的成本很高。但我又不得不去采集数据,因为也有一种方法,就像刚才说的,虽然这是一个高级的任务,但我一样要把它扔到仿真器里,疯狂地模拟,那样模拟出来的结果可能比较差强人意,因为现在有Sim2Real,就是所谓的仿真器和真实世界之间的一个差异,你要去弥补它。另一方面就是仿真器的计算成本,以前我们认为它比较低,是因为我们只算牛顿力学,但是现在有很多东西,比如说我在家里面要操作叠衣服,洗过的衣服和没洗过的衣服都是柔性的,柔顺的程度还不一样,这个对于仿真来讲有一个很大的挑战,即便是计算机去模拟它,那个数据的获得也不便宜,一点也不便宜。

所以另一方面,在真实世界里,我们能不能想办法采到足够多的数据呢?实际上可以,我生产一万台机器人,一万台机器人一起采没有问题。谷歌这么干过,谷歌不但是自己投入的资金大,而且它一呼百应,它喊大家一起来收集数据,全世界几十个学校、上百家单位可能就一起配合收集这么多数据。第一轮数据其实已经有一个比较好的雏形了,是一个叫X-Embodiment的数据库,它里面可能是上TB的机器人各种操作的一些数据,但目前看来,拿到这些数据似乎离我们真正要让它在泛化场景里用起来还是有一定差距的,像GPT它是学了互联网级别的一个文本数据才达到这样的效果。我在想,如果我们在不修改任何算法上的一些突破思路的情况下,不说互联网级别或者说是一个国家级别这么多的数据,哪怕较少的数据也需要加到一起才有可能去执行这个事情,正因如此,现在国内的政府机构已经开展了各种各样的这种计划。如果中国要在具身智能这个领域持续跟进甚至进入世界前列的话,数据是一个非常关键的东西,现在很多市或者国家都开始召集这样的项目,让大家在关注度高的领域采集大量的数据,所以其实不光是我们意识到了这个问题,它几乎快成为一个共识,大家在一起想办法,从各个层面去解决它。

王文博:这个如果再延伸一步,就变成了具身智能发展最需要的关键生产要素。一般我们之前的AI被认为是算力、算法和数据,其实算法或者算力可能不是我们的优势,但是我们有丰富的应用场景,我们有众多的人口和世界上最强大的供应链,这些可能都能成为我们在竞争格局中一个关键生产要素的来源。所以如果从一个更高的维度去想,也许我们国家或者我们的某些优势产业有一个很好的发力身位,因为它有数据。这个数据如何流通、定价、交易都要统筹地去看,把它放到具身智能这么一个宏大的发展叙事空间去想这个数据怎么流转。我跟汽车金融走得比较近,其实据我了解,大家都知道数据很重要,因为都知道很重要所以每个人都抱得死死的,一说合作会考虑对谁有利多一点,可能我们的举国体制反倒有一些优势。

司晓:很好的一个延伸。刚才文博兄谈到了机器人的普及,除了场景和客户群,待会希望您再深入地从市场端的角度讲一下,您认为它的未来前景是怎么样?但我想先问一个问题,大家看到的机器人的普及,比如特斯拉的擎天柱号称两万美金,国内现在号称十万人民币,其实这个东西把价格打下来,脑袋部分的边际成本几乎是0的。现在说到身体的部分,它可能跟IOS18讲的一样,肯定也是靠云端结合的,是不是小脑这个东西必须得放在本地呢?这个我其实不是很专业,哪些东西要解决,哪些东西能够把成本有效地降下来呢?把最经济的部分放在必要的部分,那它身体的自由度能简化到什么程度?比如说脚可能在家里没有那么重要,手很重要,手远远比脚重要,如果我们不求万能而是尽可能简化成本,那把成本简化到什么程度最适合家用成本,既能满足懒人的科技需求又能照顾我们呢?

王文博:这个问题可以再加一层,大脑这部分可以通过模型的迭代升级,但硬件这块可能要通过拆卸,要模块化,可能1.0的版本触感比较差,就把这些手指头卸下来换一换,就目前在硬件和材料方面的情况来说,可预期的未来会有这种突破吗?

张恒第:文博兄说的这句话其实我们公司干过,1.0的时候它触感没那么好,2.0升级之后,换一个手指头,机器人立马就灵敏很多,但还是会延续刚才那个问题。您可以想象,比如说我本来老了,但是突然有一天我穿越了,穿越到一个年轻人的身体里头,突然一下子涌入了大量的信息,我手上的老茧也没有了,我现在可以摸很细致的各种桌子椅子,眼睛也很好了,我看到的信息一下子涌入进来,这对于大脑也好小脑也好,都是一个冲击,它需要重新调整一下,适应完后才有可能适应新的身体。这个需要提升本地的算法,算力的话可能还好。

回过说刚才那个问题,确实是小脑那一部分必须放在本地,但放在本地,它要的不是算得复杂,算得大,而是算得快,足够的快,快到什么程度呢?比如说人的大脑里头有一个阿尔法波,它大概是0.01秒,一秒大概一百次,人的上层的神经活动大概是0.1秒,要比基本的阿尔法波慢十倍左右。但是对于机器人来讲,机器人的基础阿尔法波大概是千分之一秒,一秒会算一千次,所以这样的话,你很难想象在云端有一颗小脑在控制机器人的走路,它有可能突然磕到一块石头,立马就得反应过来,根本容不了网络的通讯。所以具身智能,不说完全体,一个中间体的状态一定是小脑在本地的。比如GPT会先把语音转成文字,文字再转成Token,Token再发过去发到云端,然后云端再返回来。

另外一方面,除了执行器的快速控制以外,传感器也特别重要,人之所以动作这么丝滑,不光是因为人有脑子,有手脚,也是因为人耳聪目明,各种各样的信息特别多,本地处理特别快。所以我们可能还需要一个很重要的技术把听觉、视觉、触觉等多模态的信息,像GPT处理文字一样,压缩成一个一个的Token,把它以很快的速度传到云端,然后反馈给我们。同时又有一个基础的小脑,可以让人走路基本不倒或者搬东西的时候重心不歪,这些基本的功能在本地实现,更复杂的,带语义的,带情感理解的全部放到云端。

许华哲:我刚刚想到一个场景,像家里水管漏了,这个时候我们怎么办?我们首先自己有一个大脑,这个大脑可能不太行,想想怎么拿块胶布,反正想一想,没想出什么辙来,怎么办?我给我妈打个电话,开着视频,她告诉我,在左边抽屉拿个什么东西出来,一步一步做。我妈这个时候就是GPT,就是云端大脑,她是一个超级大脑,她更懂这个事,她给到我这个知识,我用我的大脑处理她的信息,然后做这件事。我本地一定要有一个很好的小脑,我真的能把物理世界的这个事,绳子缠上,胶布缠上的一个过程完成。所以我觉得这个一定是一个层级化的过程,智能从云端可能是最强的,逐渐变弱,但逐渐变得反应更快,然后落到这个身体里。

刚刚谈到成本,包括文博兄提到的能不能拆换,我觉得整个硬件,无论是算力这块卡还是机电系统里面的这些硬件,都是越来越便宜的,这个便宜并不是因为它越来越差了所以便宜,而是它规模化一旦起来,一个东西一旦行业内大家都知道,开了模以后,每一个单件的成本都会降低。你会发现机器人本体这块越来越便宜,而且这也符合人工智能的一个发展规律,这个东西越能规模化越能采到大量数据,越能铺得开,一般也会发展越好。所以硬件规模化,成本下降会给智能的发展带来好处,这样的话,未来大脑应该是机器人最核心的价值,本体是一个不停往下走,同时还在不停变强的状态。

司晓:我曾经有一个观点,在AGI出现之前或之后,如果世界上存在许多拥有超强身体的机器人,并且它们的制造成本足够低,这样的时代对人类来说是好事还是坏事?你可以想象一下,如果每个人家里都有一个波士顿机器人,甚至有十个,它的脑袋忽然有一天进化得很快,这种事情对于人类的未来到底是好事还是坏事?当然我们有点扯远了,对于机器人的进化来说,前期毫无疑问大脑跟不上身体,小脑可能还可以。在大模型的加持下,虽然大模型仍处于婴儿期,但是进化速度从多模态、反应速度各方面甚至模拟人类情感方面都在以光速进化,但是感觉物理的东西的自由度、材料,包括生产成本是受限于物理规律的,成本的下降显然比大脑慢,能不能说在现在这个阶段,如果要实现人人拥有很多机器人,或者说,黄奇帆老师上次问我一个问题,他说原来我们结婚的时候有三大件,自行车,电视机,手表,大概是三大件。他当时问我未来有什么三大件?我想了一下,我说飞行汽车、机器人,也就是说这个东西肯定是未来走入寻常百姓家的一个东西,在目前这个阶段,如果从普及的角度来说,硬件的限制可能是最主要的障碍吗?

张恒第:从普及上来讲的话,我觉得即便是到未来,肯定也是身体比大脑先来。因为即便大脑现在进化得这么快,但事实上它离我们的物理世界还是有一定距离的,GPT像一个缸中之脑一样,不停地接受各种中文字符,它输出的也是中文字符。但是事实上,你看人的大脑,它可不是这个样子,他一生下来,就闻各种味道,摸各种东西,看各种各样的东西,身体的各种感觉也先来,所以实际上我反而觉得具身智能的Body是大脑到来的一个先决条件。实际上,我们的小脑发展相对较快。一旦小脑的问题得到解决,在一定的泛化能力要求范围内,比如专注于洗碗或晾衣服等任务,如果我们能突破这些小的难点,那么我们就能利用相对简单的人工智能来完成许多工作。如果这种应用在商业上是可行的,并且我们进入这个领域后继续利用数据驱动的方式积累大量数据,直到所有可用的数据都被充分利用,那么拥有更高级别大脑的人工智能或许就会随之出现。到那时,我们就可以恭敬地等待它的诞生了。

司晓:机器人的大脑实际上还没有进入那个拐点?

张恒第:远远没有。实际上,像GPT这样的学习方式并不必要。它试图学习全世界所有我们见过的人类知识,但看看婴儿的学习过程,他们并不需要这样做。婴儿学习依靠的是不断的、多样的、多模态的信息输入。最终,婴儿并不需要背诵所有的唐诗也能写出几首,不需要学完所有的莎士比亚作品也能会说英语。因此,我认为未来的大脑可能不一定会像GPT那样。它有可能完全基于另一些逻辑,有可能更加data efficient,利用较少的数据就能泛化并执行许多任务。但不得不说,身体的发展是最快的。回顾地球的进化历程,出现了像蛇颈龙、霸王龙和各种巨型昆虫等身体强大的生物,但它们的智力并不一定高超。所以,我感觉在赛博世界中,我们可能会看到类似的进化路线:先是身体的发展,然后才是大脑变得更加强大。

许华哲:在没有身体的情况下,脑袋的发展似乎更快,这主要是因为GPT的错误和失效没有物理成本。当GPT出错时,我仅仅浪费了一次打字的机会。所以,如果我问三次问题就能得到正确答案,我就会觉得很了不起。但是,如果我们谈论到机器人的具身智能,社交成本就大多了。如果我要机器人帮我拿一杯奶茶,但它需要我说三次才能理解,并且前两次都弄洒了或弄丢了,那我肯定会非常不满意,这种高成本是显而易见的。所以我比较认同恒第刚刚说的这个角度,

就是说身体加上相对较弱的智能会先出现,随着身体和智能的逐步发展,智能程度会逐渐增强。然而大模型可以是一个很好的底座或起点,因为它已经具备了很好的能力。我想把这样的大模型看作是我们进化过程中所有知识的一个原始状态。当这些知识融入具有一定智能的身体中时,它还会进一步发展,最终达到能够准确执行具体任务的水平,要真正发展到我让他买奶茶就买奶茶,让他洗碗就洗碗,让他陪我玩就陪我玩的程度,我觉得这个发展还是需要一定时间的。

王文博:从替代成本的角度看,我觉得身体的成长应该要慢于信息或者大脑的成长。在人类最近的一千年文明发展史中,尽管我们的手和大脑在生理结构上没有显著变化,比例也保持不变,但我们的大脑功能和科学知识的发展已经非常惊人。所以我持有另一种观点。从替代成本的角度来看,我觉得要进入数据飞轮并实现智能的发展,关键在于它的替代效应有多强。如果这个效应不够强,那么它很难获得我们刚刚讨论的数据,从而难以发展出智能。

司晓:在上万年甚至上亿年的生物进化史中,碳基生命的进化显示,身体和智能的变化在人类出现时达到了一个拐点。在这个智力的拐点上,智能的变化是以我们难以想象的数量级进行的。受到之前讨论的启发,我原来的总结是,智能通过云端实现了对人类智力的替代,并且未来可能超过人类智力。虽然这种智能可能不具备理解、回答或自我意识,但这并不重要。它能提供与人类专家智力相当的替代,使你能够综合许多专家的能力,并随时咨询。例如,你可以远程获取关于造火箭的信息,虽然你还不能实际制造它,但这种智能将极高的门槛大幅降低。然而,在机器人领域,我们不能简单地做这样的类比。机器人所需的智能与仅仅回答问题的智能在某种意义上是不同的,因此,这不是通过当前的深度神经网络技术就能实现的,可能需要完全不同的其他技术。

张恒第:确实,智能的载体可能是一个全新的结构,但如果使用Transform模型,我们会遇到一个问题。之前Jason提到了Immortal computation,这种计算是会消失的。为什么会消失呢?是因为它接收的信息都来自一个固定的身体,这种绑定对于具身智能来说是一个核心要素。在动画片《攻壳机动队》中,有一个场景描述了将大脑连接到云端,同时控制多个机器,如战车等。但这种情况我并不认为是具身智能,因为对于它来说,任何一个身体都没有特别的价值,坏了就换另一个。它的体验类似于强化学习,在目标函数中并没有考虑到要保护自己的身体。但是,一旦有了身体,它的感悟可能开始与人类有更多的共同点。虽然我认为最终的AGI形态可能与现在的ChatGPT不同,但它的问答形式让我们感觉到人工智能与人类非常接近,给我们带来了希望。即使最终的形态与它不同,它也完成了一个重要的历史符号的构建,表明我们正朝着正确的方向前进。然而,我仍然认为身体会更早到来。正如文博兄提到的,像GPT这样的数据可能快要用尽了,那么其他数据从哪里来呢?从具身智能的从业者角度来看,这些数据可能来自其他模态,就像Immortal computation一样,作为一个摄像机或一个身体,这样的结构可以采集到独特的数据,这些数据在互联网上是找不到的。像日本人的ICRA会议,他们强调工匠精神,站在一种一半赞扬一半批判的程度上来看,人们认真产生的有用数据被丢弃了,如果有一具由AI控制的具身智能躯体,它可以像老师傅一样采集各种数据,它的技能也许有一天可以传承下来,像AI它有一个特点,它可以复制。一个人一旦学会,下一个人也会。通过这种方式,我觉得数据飞轮还是存在的。但它前期肯定会经过一个比较残酷的统一,有可能具身智能的Body会先模块化,最后形成一个像车一样四个轮子的标准型号。也许到未来,机器人在某一个阶段是四个轮子加两个手,再到未来变成两条腿,有可能形成几个标准型号,在这几个标准型号下,数据是可以复用的,每一个具身智能的Body都可以以自己的身份去过完一生,采到有用的数据,这些数据也许有一天会在云端聚合起来,然后产生,到那个时候就真的有可能有AGI了。如果未来有进化史的话,我们说的绑定身体的和不绑定身体的肯定完全是两种路线,因为本来对人来讲,也是身体的结构塑造了我们的大脑和思想。

王文博:这种观点之前也听到过,要是从这个场景来聊问题的话,你会发现那些人想得跟咱们这些人还不太一样。一般来讲是三种驱动,技术驱动,技术驱动对资本不太友好,尤其是长线的。第二种是场景驱动,场景驱动对竞争不太友好,比如说有几家具有垄断地位,别人就很难进来,他有丰富的数据。第三种是资源驱动,对地球不太友好,因为可能是线性的,大家看到成果了就往上怼。

我们说说场景驱动这些人,场景驱动的人不会想亿年、万年的事,可能都不会想一年的事,想的是这个季度的事,因为下个季度财报要发了。所以第一点,他比较短视。第二点,他对目前的成本是非常清楚的,而且他对成本的下降趋势也非常清楚。所以如何让这些人看到一个可预期的未来也比较重要。第三点,这些在实操中摸爬滚打的企业家特别清楚执行一个事有多难,这个是咱们实验室里的教授、学者无法体会的。你跟他说技术成熟了,他说放到家里面去需要很多有关部门批准才行,就从这点来说,他就不会去做,他会让别人先趟一摊浑水。我一直觉得很多颠覆性的,最后能够产生实际的对每个人有影响力的科技,最后阻碍它的往往不是科技本身。好比说,我觉得近几年真正意义上影响每个人的科技是精准推送赋能下的短视频,拿碧山村来说,所有人都知道短视频,因为它完全改变了每个人信息摄入的方式。回到咱们具身智能,刚才Jason提到穿戴,这直接影响到他的使用习惯,咱们需要他戴,他戴上了,我们才有高频的数据汇入,但他说,我干吗要戴,又热又重,还要我花钱,你送我,我都不要。    

你把这些数据和资金的成本全加起来看一看,科技描绘的收益非常非常高,所以现在很多投资人觉得现在听到的科技描绘的故事还没到一百分,实际落地的时候可能就剩十分了,现在的泡泡吹得还不够大,还不够吸引这些人进入。说实话,更多的是我们媒体或者科研的一些人在憧憬未来,虽然很激动人心,但真让这些人参与进来,改变自己的生产线,他们往往会置身事外。企业家只有在一个赛道挖得特别深才可能活下来,一旦挖深了,他就会想着柴米油盐。所以腾讯研究院做这个事情其实特别好,这是必须有人做的事,唤醒大家的参与感,让大家贡献数据也好,把这个东西带起来也好,这其实需要有人来做。

张恒第:我再从生存角度讲一讲为什么我们更愿意这样说?一方面,刚才文博兄说得是对的,数据的价格真的不便宜,但是我们是怎么干的呢?我们除了发头衔以外,我们不只是白送头衔,我们还给他们钱。从这一方面来说,一个是我们知道数据的价值非常大,另一方面,我们的一些场景既不是在工厂这种非常可控的环境里,也不是在家庭中那么开放,需要调用到GPT的程度,但它恰好在两者中间。另外一方面,它还有一个特点,它非常需要一个新模态的信息,比如说它需要触觉,所以在这种情况下,目前我们的market还是比较费力气的。在这个基础上,他对数据的模态非常重视,以至于他们都愿意花这么多钱去把这个模态弄出来。比如说我想到的可能遇到的场景,除了人形机器人有一点Show off,另一方面比如说我们在一些工厂里需要做定制化的产品或者物流线上去做不同package大小的货物,还有一些,比如说易碎的、很容易坏的物品,那种地方的数据可以说是前无古人,因此数据采集的边际效应特别强,相当于采到一点点,价值就大得不得了。最简单的,比如说去摸一下那个玻璃大概要多少牛的力量才会把它捏碎,不同的玻璃杯子或者不同的形状,捏到哪个位置,就光这一个信息就非常重要。

司晓:以后的机器人是否应该在生产时进行标注,以便简化其后续操作并有效协作?

张恒第:这个有点像我们在做自动驾驶的时候,是不是要建设智慧公路。就目前来看,我们的很多客户是不会来支配我们的,只有一条路,就是我们从头到尾把解决方案完成。

司晓:这个可能是因为机器人社会还没有到来,到来的时候就不一定了。因为我们做过一个研究,人类从马车时代切换到汽车时代,路大概花了五十到一百年才跟上的,路实际上不是那样规划的,它很慢的。

张恒第:

是的,特别慢,而且它有历史效应和改造成本。在机器人领域,尽管面临诸多挑战,我们却能成功找到一个特定环境,恰好对新模态有很大的需求,这种新模态本身已具备创造商业价值的能力,因此我们敢在这一领域大量收集数据。当然现在我感觉,在更宽泛的人形机器人范围内,大家好像还挺热情的,热情的还蛮夸张,但事实上,我觉得以我们从业的经验来看,数据采集的规模远远不是我们采集一个很小的垂直领域的那点数据,所以我感觉确实会遇到我说的那种问题。你采集这些数据的过程中,你没形成这么强的智能的时候,谁会愿意为它买单?可能真的不容易,但如果是针对那种垂直的地方,比如说我做一些非常需要我的触觉的信息,但是事实上现在又没有这样的数据的地方,它的价值会显得非常非常大,特别是我刚才提到的,以前很多老师傅的工匠精神,他们需要传承的那些东西,如果我们要把它数据化,再规模化,降低它的成本,实际上是非常有价值的,因为那种东西不像以前师傅带徒弟一样代代相传,它是真的失传了,特别是在现在的社会,更少的人愿意干体力相关的活,也就是我们刚才提到的,AI吟诗作对很厉害,倒杯水很难,所以现在我们在做的触觉的模态,实际上就是为了解决这一个问题,当然也不光是触觉,也有其他努力,比如说身体内部的一些姿态传感器,力传感器,以及各种各样的传感器,实际上都是在干这个事情。以前我们可能把人类的身体理解得比较简单,都认为它就是一堆棍子串在一起,实际上远远不止这个,它感知能力实在太强了,它比一个ChatGPT只能听一大堆文字转成token,实在是要强太多太多。

王文博:这个我插一句,因为正好我们说到商业,这也是一位企业家问我的问题,他说你看这么多年科技的迭代最终指向的往往就是三个更,一个是更快,比如说汽车替代马车,一个是更便宜,就是数控机床组装,生产成本下降。第三个是更爽,比如说精准推送的短视频比看传统电视爽。

司晓:更爽也包括更懒?

王文博:这三个其实都是指向更懒,用更低的成本获得更个性化的反馈。在可预见的未来里,包括您公司做的带触觉的具身智能,它更多的是指向更爽还是更便宜呢?因为更便宜这个东西对于很多企业家投资人来说,吸引力远远低于更爽,因为更爽有一个差异化的空间,更便宜最后只能决出一个最便宜的人,他是第一,其他人规模效应差距越来越大,所以如果具身智能指向的是成本上的更便宜,最后愿意入局的往往是目前有很大成本优势的人,他会觉得这是进一步巩固优势的机会。但是如果具身智能指向是更个性化、更爽的维度,那可能可以激励更多的人进入这个赛道,那现在是更便宜还是更爽呢?

张恒第:现在是一个发展的阶段,可能最终目标是更懒,人人都想更懒。但是为了达到更懒,我觉得最重要的一点是更便宜,要先做到更便宜,先做到比人工便宜。当然有一些地方比如说一开始我要去代替产业线上的工人,这是一个很大的问题,你代替完了之后,后面可能还有法律政策上的问题。比如康养这个领域,比如你喊我进厂打工,没关系,我拧螺丝,我天天拧十二个小时,没问题,但是你喊我去照顾老人,二十四小时,而且我一生就这样过下去,根本不可能。它也不是更快了,一种程度上可以说是更便宜了,但另一方面,这一部分人一直没有得到过关爱,是一个全新的需求,当然我们现在还没有达到那个阶段,但是我们相信在具身智能的发展下,还是会比较快的。目前主要还是去做,人去做会觉得特别无聊、特别没价值的事,但是你让机器做,重复性高,容错能力又太差了。在那种场景,我们能找到更便宜的那个点,我们现在已经逐渐地从更便宜做到更快,更便宜已经达到了。更快的话,目前逐渐也可以做到和人工一样快,甚至超过人工。更爽的话,那就得诸君一起努力到未来,看能不能做到更懒了,那个稍微遥远一点。

司晓:其实我们在录制前准备的时候,就发现我们实际上有一个重大缺陷,就是只坐了四个男的,导致我们前面录的话题全是在讲生产力,讲细节,讲商业,讲经济,讲社会。其实不能简单说是缺了女性视角,而是说我们在研究大模型的时候要分两个方向,第一个我们要关注生产力方向,第二个要关注情绪价值方向。因为我们之所以说它是人类智力的一个平替,它替代的就一定不只是智力或者说智力的一种呈现,还在于带来情绪价值。你的高情商,会谈话,能够抚慰别人,这个本身是情绪价值。中场休息的时候,场外的女嘉宾给我一个很大的启发,我们从原来的文字聊天界面进入到GPT带语音,也就是多模态,除了背后能力变化,这个变化更多的是在情绪价值上,或者说作为一个陪伴对象,倾诉对象,或者说你做的触觉除了触别人,能不能给被触摸的对象带来一些精神抚慰。

我们有一位同事,也是位女同事,她在录我们自己的一个视频节目的时候,专门跑到上海去摸了一个LOVOT的日本机器人,说是五万块钱,只会卖萌,啥都不会,你很难想象这样的东西,男性用户会买或者是怎么样,但是实际上它销量还挺好,这种东西我们之所以说看起来像人,或者说长得像人,说话像人,又有人的多模态能力,实际上一个重要的方向就要考虑到它的情绪价值,刚才说的康养实际上已经在某种意义上揭开了这个话题,它除了照顾老年人之外,还能带给老年人情绪价值。我们找大概一百五十位老年人,这些老年人从来没有接触过大模型,我们把他们请到公司,让他第一次去做这个事。比如说你让他捏一个数字人,他捏的不是后背,他需要后背的精神陪伴,他捏出来的首选甚至是自己的父母,或者是一个同年龄的人,其实就是说,不同年龄段的人的精神需求或者不同群体的精神需求其实可以高度定制化,可以人设定制化,声音定制化,可以定义性别。除了长相之外,它的人设可以定义了,反而给供给端提供了一个无穷大的想象力,而且还有很多年轻人拿AI做灵魂伴侣,那是没有身体的。我听了很多节目,包括看到YouTube上的一些报道,我都觉得匪夷所思,可能确实跟跨年龄段有关,女性用户多一点,它其实有很大的市场。

在生产力之外的部分,在提供情绪价值的那个部分,我不知道几位理工男有没有一些思考,或者觉得这一块在市场机会或者技术路径上和我们刚才第一Part聊得有没有一些不同?

许华哲:之前看过一个up主,他在b站上做了一个非常感人的视频,他用GPT加上生成式模型做出了已故奶奶和他聊天的内容,他把他们以前的聊天记录放进去,以这种方式去怀念。具身智能在这个时代其实可以有一个物理上的陪伴,可能是一些你已经再也见不到的人,无论是你永远失去的初恋,还是已故的亲人,还是一个你想象中的明星,你可能每天给他打call,但是他永远也不会到你的生活里,我觉得这些都是具身智能非常大的可能性。但是我们仍然需要找到精准的匹配,它现在能力在哪儿,我需要的是什么?也许跟我对话这件事已经可以去做了,它可以根据我的表情和动作做出反馈。包括刚刚恒第讲的,有了触觉以后,我可以跟它有一个拥抱,有一个肢体接触,我觉得这些对用户来说,对我们每个人来说,都是非常非常重要的,因为每个人都会有深夜伤感的时候,都会有渴望一个我希望的那个人在我身边的时候,我觉得这个是非常大的一个想象空间。

司晓:这里面其实有大量的法律和伦理问题。先不聊这个,我们就从用户需求来说,真的有这样的需求,你们作为科学家,作为从业者,怎么样给大家提供情感方面的抚慰需求?

王文博:或者细化一下,假如说要实现这种情绪价值的需求,它需要什么样的数据呢,它是什么类型的数据?比如说陪伴也好,情侣也好,夫妻也好,他们之间的信息传递,它这种多模态可能是比较少见的多模态,它有微表情,它有气味,它有身体语言,很多时候吵架都不需要说话。一个眼神,这个白眼翻到什么程度,眼白眼黑的比例,就能说出不同的信号,就这种数据,它能被训练吗?当然了,这是一个畅想。因为有一种说法,人其实很难对于物或者他认定的一个非人产生类似于人类的情感,这是很难的。这就是为什么你很难爱上超级英雄,因为他长得不太像人,超人稍微就强了点,但是如果超人或者蝙蝠侠把面具拿下来,他获得女粉丝的可能就多了很多。所以具身如果走到这一段的话,它可能真的要有一些人的基本属性。这就好像我有时候观察我的朋友圈,我朋友圈人比较多,有时候发一条东西,就看谁对这个东西比较感兴趣,从来不点赞的人,他会留个言,点个赞,一说到AI,你只要说到能成为你的女朋友、男朋友,所有的人都刚需,因为在真人世界中,找一个伴侣,试错的代价太大了,但又特别刚需。

许华哲:我想问文博有没有看过哥大最近出来一个东西叫Talking face,它的脸跟真人长得一模一样,也能发怒,您刚说到翻白眼,他也可以做,包括微笑、大笑都可以做,这可能就是迈向情感陪伴的第一步。

司晓:除了灵巧手,脸也很重要,脸可以单独成为一个产品。

张恒第:现在像英国的Ameca,中国的XRobot,他们可以做各种惟妙惟肖的表情。

王文博:我觉得最后要实现商业的话,除了灵巧眼本身之外,它还要有一个非常好的故事,让大家去接受这个东西,就好像大家能接受钻石这块破石头代表爱情。有一句话一直在流传,大家觉得就非得要一块破石头才能结婚。只是现在大家会觉得一个橡胶脸怎么可能做到,但是Z时代的人比如香港小学生,他们对虚拟人非常能接受,他说这有什么问题吗?没什么问题,就好像我们看动画片觉得葫芦娃没问题,对他来讲,会动的葫芦娃非常正常,所以我们在谈论这个话题的时候,其实我觉得更应该倾听未来使用者的想法,他们的舒适区跟咱们很不一样。

许华哲:我觉得对大家来说,尤其现在学校里有很多学生,他们会跟纸片人谈恋爱,甚至我也遇到有学生用大模型结合原神游戏里的一个角色创建了一个微信,他在没有女朋友的时候跟原神角色进行互动,我觉得他们对这个接受度非常高,如果我们把这个游戏里、动漫里的人物变成一个实体的机器人,装扮成Silver也好,或者芙莉莲也好,我觉得接受度是非常高的,但是如果你变成一个真人,我觉得这又是一个跨越,因为比如cosplay,大家带入的可能是剧情里的情绪情感,但如果是我的一个同班女同学、男同学,可能接受度又会是另一个层面的。

张恒第:我感觉后面可能真的会涉及很多法律问题,比如说我用一个在世人的形象来作为我的一个亲密的伴侣,感觉有点可怕。所以实际我可能会从两个方面理解这个事情,一个方面是像我们是做触觉的,触感在人的情感和人的思想发育过程中其实有举足轻重的作用,有一种说法是说人在胚胎状态的时候,还在发育的过程中,他有一个时期是怎么构建自我意识的,是靠没事去往外动两下,摸一下,然后得到各种各样的反馈,基于这样的反馈,刺激给到发育中的大脑,最后人的大脑才形成了一个所谓的自我意识,他是通过推外物,从外物得到反馈,来构建了对自身的认识。有了这以后,我才能看到东西,闻到东西,听到东西,他在看、闻、听的时候才知道,我看到的实际上是外界,并不是我自己,所以为什么人对于触摸的依恋很强烈,我觉得是因为他有一个构建自我认识的阶段。有一些来自基因的硬编码到人体的编码里,所以这些也是纸片人谈恋爱和以后真正的具身智能和人的互动的一个区别,具身智能和人的互动是有表情的,它甚至会拍一下你。但是从另一个角度来看,比较可怕的是,万一用它去扮演活人的形象甚至是逝去的亲人,我觉得可能有很多法律的、伦理的各种各样的问题。但是也许有第三条路,比如说人当年是怎么接受猫、狗作为自己的陪伴的,猫和狗以前也是游离在人类社会之外的,他们被吸纳进来后,可能在所有人的共识里形成了一个符号,就是说猫是一种陪伴的生物或者狗对我很忠诚。我个人更希望未来的具身智能成为另一个维度的猫或者狗,它也许不是一个人,它很聪明,它很智能,但我希望未来人类不把它当成一个人类的平替,而是一个很独特的存在,类似于狗会认为人是一个独特的存在一样,在那种情况下,建立一种全新的和另一个陪伴之间的一种互动,但我觉得它应该是一个全新的体验,比如有一些科幻电影里,它会演一个人把意识都上传到网络里,那个时候已经没有肉身,但是到处都是他的肉身,在那个时候他的心态可能和我们这个时代的人的心态是完全不一样的。

所以我在想,未来,当具身智能的陪伴出现在老人康养领域,它有可能会有一个路径依赖,他会希望它就是我的一个后辈。但是在更远的未来,我觉得人类有可能会接受原来我们有一个伙伴叫机器人。到了那个时代,我觉得应该是一个机器人的发展和人类的心态都逐渐趋向于另一种成熟的问题。

许华哲:我想挑战这个观点。我们养宠物的时候,其实我们希望它越笨越好,狗傻傻的,萌萌的,甚至走路都摔倒,我会觉得它特可爱。但人和狗的关系真的能映射到人和具身智能的关系上吗?

王文博:这个东西是这样的,首先天花板要拉到足够高,但是用户可以选择地狱模式还是蠢蛋模式,你可以选择哈士奇,也可以选择比较笨的京巴,这样的话可以适配各种区间。

回到这种陪伴型的,我听不少投资人畅想的时候,他们觉得从数据收集和从法律法规准入来讲,这种机器玩具可能是一个比较好的中间形态。因为你一说机器人,各种各样不好的抵触情绪马上就来了,但你可以说是一个智能玩具,长得像狗的智能玩具,它可以输出一些智能的东西,可以跟你进行互动甚至一些触觉的东西。

张恒第:我们现在也有一些案例,在家庭里头收集数据实在太困难,从法律上几乎是不可能做到的。一个是隐私问题,一个就是你也没有好的理由去把那些数据全部归集到你这边,经销商自己去收集数据还有可能,但实际上都是不太符合现行的各种规定的。所以我们觉得这样的数据还是要在特定的环境下去采集,但并不是说不可能,像现在GPT 4.0版本,实际上已经有好多情感识别的能力了,另外有一家叫Ameca的机器人公司,好像是英国的,基本能执行出来惟妙惟肖的表情,它也能读懂人的各种表情,所以我觉得技术层面上,最基本的,不管是执行还是感知,像我们刚才说的情感的小脑基本上可以实现。但对于更高级的理解,比如说沉默的氛围预示着我俩可能快吵起来,这种可能还是比较远一点的。

许华哲:我倒是觉得那个玩具,我自己会挺想买的,因为我从小就特别想养一只狗,我曾经养过一个月,我爸说实在太麻烦了,你又不收拾,都是我和你妈收拾,就把这个狗又还到了宠物店,钱也没有要回来。所以如果有一个跟狗差不多,不用去喂,又不用每天带出去遛弯的玩具,即使作为一个成年人我也会觉得很好,我每天下了班,躺在床上拍拍它,它过来跟我打打招呼。

王文博:而且其实它功能都不需要太强,它只要比云养狗多一两个功能就行了。

张恒第:所以短期内的话,是不是我们都觉得玩具形态是比较好的,从情感陪伴方面的一个切入,越像人越容易陷入恐怖谷效应,因为人家说你不像人,是个机器猫。

王文博:恐怖谷其实也会随着时间被修正,因为一开始大家觉得特别新,但是随着大家对这个东西的接受度越来越高,其实就放下了这种由不确定性带来的恐怖。

司晓:对,当大家还没有掌握这项技术的时候,看到所创造的与真实极为相似的面部或模拟表情,可能会对逼真的技术感到惊讶。然而,一旦这种技术变得稀松平常的时候,具身智能就像触屏时代出来的孩子,AI时代出来的孩子一样,他们可能认为很正常。

司晓:我想问一下,现在有特斯拉、比亚第等车企代表,有谷歌、亚马逊、BAT等互联网公司,也有波士顿动力、Figure 01等公司在做机器人,这几种player各自有什么样的优劣势,或者说,他们切入的时候好像没有谁在做陪伴类,是都在做生产力吗?

张恒第:陪伴类的这一阶段一般是玩具。机器人的话很少有做陪伴的,不过也有,不得不说也有。但总的来讲的话,像我们自身是属于实验室出来做机器人的,实验室出来的话比较技术,会抱着一上来就想搞一个Upper People Technology,去颠覆一个什么东西的心态,但实际上不会一直维持这个心态,因为做着做着,其实人会逐渐和社会实例形成一个平衡。我们的整体愿景是非常宏大的,比如说我们希望最后每个机器人都会获得像人一样的触觉模态,但最终落到实处的时候,商业上肯定还是会要求做一些比较务实的事情,我们就去找比较相关的,真的需要触觉而且现阶段能做出来的具体场景,同时能为未来累积更多的数据,这个是我们的一个优势。

但是相对于车企,我个人觉得,他们比较有能力的地方在于他们本身就是一个特别厉害的集成商,以至于他们前期的成本控制、供应链、后期销路等等会做得更好一点,所以他们适合做机器人的本体。当然也有直接上来做本体的。但是总的来讲,我觉得车企相当有优势。还有一群人是做应用的,应用的话对于需求的收集要非常迅速,我认为互联网公司做这一块是有优势的,因为他们能以最快的速度拿到各种各样的相关需求,因为网上的信息他们很熟,他们也很懂运营,这一块他们会比车企做得更好。所以我觉得这三个基本上涵盖了整个行业的上游、中游和下游,这三个基本上都不可或缺,我很难想象有一天让一个车厂自己去做很上游的核心零部件或是所谓的被卡脖子的一些元器件,他可能不会特别在行做这个。但一旦国内的产业链比较完整,有做这个的,有做中游的,也有做下游的,他们会通过某种方式合作起来,把这个事情通过大家的努力完成,基本上我觉得是这样。

许华哲:因为我自己在做技术落地,也在做创业。像车厂这样的地方,它天然有产业背景,天然有这个厂子,所以它做出机器人就可以直接在总装车间里面干活了。而且它有很多的技术积累,无论是硬件上面的,还是说做本体可能都有一些技术上的积累,以及他以前采到的相关数据,比如说感知数据。特斯拉自动驾驶的数据是对这个世界的感知,机器人同样需要,如果要在公开道路上行走,同样也需要这样的感知数据,所以它天然有一个这样的优势。

但是我觉得这波具身智能的核心还是在智能这块,Figure 01,One X这些公司为什么仍然能出得来,而且造成了比较大的轰动,是因为他们有了一个好的本体后,还有很强的智能的能力。这样的智能能力,就是泛化,它可以通用地解决一系列的问题,传统企业很难有这样的AI的能力。所以我觉得这两个应该是处于一种互补的状态,真正落地的时候,我倒觉得,我们有一个好的本体之后,智能部分应该是一脑多型的,就是说我们有一个通用的大脑,它应该在各个机器人上面都可以去做这样的事情。

王文博:现在一般的传统投资人都有一个特点,首先他所处的行业赛道是足够大的,他有足够的想象空间。那么像游戏、车厂这些,他们本来就有很大的现金储备,他拿出一点钱,他试错,就算没试出来,他也可以接受,但一些比较传统的工厂类其实很难赚钱,纯工厂要去资助这种先锋研究是比较困难的,往往汽车或者平台性公司的眼界看得比较远,因为大部分车企都已经年头很久了,平台公司如果不出意外的话,一般也能活不少时间,他们周期也比较长,这点是可以理解的。

还有一个,我觉得从产投的角度来讲,政府其实在里面扮演一个很重要的角色,因为政府的资源是巨大的,而且它可以做很多短期内可能看不到任何回报的东西,我们怎么通过一个好的传播机制让政府的决策人甚至在更高的地缘政治的角度去认识这个东西的重要性,其实是我们各方面很多的从业者需要关注的一个东西。所以当然是希望这些产投人能够拿到一个还不错的结果,不然其他的就比较难,好像现在参与AIGC最多的也是汽车和品牌玩家,其他人他觉得咱就看着办,你们出来我们再跟就可以了。

司晓:最后一个问题抛给大家,这个预测也不一定负责任,但是大家可以根据自己现在的认知来回答,什么时候我们家里能够有一个普及性的,成本可负担的,功能还可以的,具有一定情绪价值的家用保姆,各位觉得大概需要多长时间?

张恒第:我觉得情绪价值是最大的一个变数。分开说吧,不看情绪价值的话,我觉得只需要三四年左右,因为我现在对本体的信心还是比较足的。因为现在很多做人形机器人的公司都会选择双足或者是更复杂的一些方式,但有一天如果他们真的意识到这个东西立马就会变成现实了,大家的态度绝对会转一百八十度大弯,一下子回到成本控制上。那个时候你会看到很多把成本一下子从几十万美元压成一两万的手段,这方面不存在特别大的困难。另一方面的话,智能上,以我目前的一个感觉来看,基本上缺的只是数据,采集数据的方式已经有很多了,现在有一些采集数据的方法甚至不需要机器人参与其中,直接从人上面采。当然还有一些方法是直接从视频里头学,比如说YouTube上有很多教学视频,教你怎么叠衣服,教你怎么收碗、洗碗,那些数据一拿过来,一旦灌到机器人的脑子里头,让它干这些简单的事情是完全可行的。

司晓:现在充放电一次大概能支持它做多久?

张恒第:一次高强度工作三四个小时是可以的,当然,以后真正进入家庭的时候要考虑安全性,电池肯定得想一想办法,把它整得更安全一点。像我们目前的话,已经有一些机器人在逐步朝这个方向走了。

司晓:而且也有做那种换电的对吧?

张恒第:目前还是充放电,换电的话可能会更麻烦一点,因为要求电池做成一体拆卸,可能会更麻烦一些,但要从干活能力上来讲的话,我觉得应该要不了多久。情感的不太了解,十年吧,这个只有乱说了。

许华哲:我这儿的预测应该相对会激进一点,我觉得应该两年内就能有一台机器人号称已经在家里面运行了,他可能没有办法做所有的事情,但已经产生价值,已经能帮我们做很多事情了。我觉得四年应该会有一台机器人能做几乎所有的事情,情感方面我认为是六年,为什么我这么激进?因为我吃过这个亏,对一个东西进行预测,一旦带了人工智能,带了智能两个字的时候,就得激进一点。比如说2020年的时候,也有人问我,你觉得真正能对话的大模型还有多远,因为我自己也不搞自然语言,我会觉得好像还很远,我就说至少五到十年,一转眼这事就解决了,人工智能一直给大家带来惊喜,从ImageNet可以给猫狗分类,到AlphaGo可以下围棋,再到大模型,每一个阶段其实就是三年甚至更短的时间。所以我会非常激进地认为,两年之后我们就能看到那台机器人在我们的家里面了。

王文博:首先咱们要定义一般一个人在家里都干些啥,你抛开情感部分不谈,其实没有什么复杂工作,就收拾收拾垃圾,泡个咖啡,拿拿东西,开门,取送快递,就这些。其实如果你把这些任务全拆解开来的话,我觉得也不是那么难,可能短期内也能实现,至于情绪价值这东西,我觉得超级难,我感觉在可预见的未来可能都看不到,为什么?是因为人对情绪价值的索取是无止境的,一个人如果能够长时间地取悦你,他必须总是给你带来惊喜,知道你的框架还能在这个框架外遵循某种规则去打破这个框架,这个是相当难的。而且对人来说,相同的话说三遍以后,他就觉得你得给我来点新鲜玩意儿,这很难。像做短视频一样,拍个短视频谁都会,但是拍到能被大家喜欢的短视频,上个月的手法,这个月可能就不行了,这个是一个超级需要迭代的东西。第二个,要快,像现在GPT,你还要等它一段时间,在我们及时的对谈中需要迅速反馈,这很难。所以我觉得它可能还是以一个秀肌肉或者是一个被大家憧憬的未来的形式存在的,我自己比较悲观,不是说科技达不到,而是说人心太贪婪。

司晓:今天我们其实跨了很多话题,我觉得我们在线的听众,包括我本人,收获应该都是非常大的,虽然我们的嘉宾构成在性别上有一定缺陷,但我们还是尽量努力,稍微打开了一点其他方向,我们也希望下次再进行类似讨论的时候能引入更多的角色,更多的话题维度。因为这个话题确实是像各位所说,真的是集大成者,而且与它相关的社会影响、伦理影响和法律法规等问题,我们今天也完全没有展开,它确实是一个系列的东西。但是无论如何,相信我们今天的话题给大家带来了非常多的信息增量,也感谢各位嘉宾带给我们的分享以及大胆的预测,我们一起期待未来,谢谢。