为深入探讨AI时代的人机关系,引领社会共同思考人机共生时代的经济发展机遇与社会应对策略,腾讯研究院联合前海国际事务研究院、青腾、香港科技园公司等机构举办 “AI时代的人机关系展望”论坛,这也是“人工智能+社会发展系列高端研讨会”的第二期。
论坛上第二个圆桌论坛邀请到前沿技术、城市规划和社会治理四位资深专家,探讨机器人作为智能执行体在新一轮AI技术和产业爆发期的价值和挑战,进而讨论要建立以人为中心的新型人-机-环境的关系,我们应该对齐哪些价值和路径?以下是圆桌讨论实录。
讨论嘉宾:
张振山 联合国人居署中国项目主任
徐迎庆 清华大学美术学院长聘教授,清华未来实验室主任
邵 磊 清华大学无障碍研究院院长
胡延平 FutureLabs未来实验室首席专家
徐一平 腾讯研究院高级研究员(主持人)
圆桌讨论实录
徐一平:人机交互是不断变化的领域。人工智能的发展标尺上,我们究竟处在哪一个位置?畅想中“未来”之坐标又在何处?我们能在多大程度上把握以人工智能为代表的“新质生产力”走向?之所以我可以在这和大家一起交流和请教,是因为腾讯研究院支持了很多青年研究员进行这方面的探索,今天我是代表青年的研究员向4位专家来请教。
这个话题要聊的话有二个逻辑起点,希望和在座和线上的观众们一起交流。我们为什么起了这么一个题,第一是研究的真问题,刚才我们发布的报告的封皮,这个封皮看起来是简笔画,不如现在GPT画的丰富。但它的灵感来自于马蒂斯的一幅创作《舞蹈》,主要讲的是人与环境的关系。这个蓝色和绿色的背景反映的是宇宙和大地,这个画充分反映了我们在创作过程中的困惑和思考,未来人机牵手之后人机的关系会向何处发展,以及我们的物理环境将如何响应?这是第一个问题。
第二个问题是在前两个环节中大家已经了解到了,为什么今天要谈论人机,和之前的人机有什么不同?我觉得一定是在大模型或者是生成式人工智能的不断加持下,机器人的能力增强了,特别是智能的能力增强了,人们对它的期待高了。它不仅仅是一个简单的工具,是不是还可以变成我们的助手或者是一个伙伴。在这种环境和变化下,如何找到新的发展坐标系,我们都说原点是“以人为本”,但是我们面向哪里去发展是特别想请教4位专家的。我先把代表青年人的困惑向各位专家介绍。
第一个问题想请教一下张振山主任,联合国人居署是可持续发展人居议题的倡议者,也是推动者。张主任在两年前公开的讲话中提到数字技术未来将成为城市和社会发展的新动力,对于机器人会走入到家庭空间的实体AI,您认为它最大的价值有哪些?
张振山:非常感谢主持人,也感谢大家,大家下午好。
我来自联合国人居署,人居署是联合国系统中负责城市和可持续发展的机构,所以联合国人居署也非常重视智慧城市,联合国人居署也有智慧城市的旗舰项目。
联合国人居署中国办公室也非常重视智慧城市的发展,特别是中国在这方面应该说是在世界也处于领先的地位,因此在2019年联合国人居署中国办公室也成立了一个叫“未来城市委员会”的项目,我们吸引与中国相关的企业共同打造。我们也出版了几本展望,今年的题目正在编写叫“数字城市治理”,明年想做人工智能与城市,也非常高兴能够来参加这个活动,通过各位专家的发言也学习到了很多。
讲到机器人在城市的发展是毋庸置疑的,无论是在城市的规划、建设和管理当中都需要智慧智能或者是机器人。举个例子,城市规划和建筑设计,在早期的时候是用一种软件叫CAD即及辅助设计,实际上就是辅助你画图。我想下一步的发展,现在有孪生城市,我看刚才发布的“人机友好与空间探索”就是接下来在城市规划方面,通过智慧的人工智能的发展,使规划、设计更具有合理性。
不仅如此,在社会发展方面也非常需要,刚才谈到了儿童友好、老年友好、残障人士友好,我想机器人的价值还是能够很好地体现出来。
徐一平:第二个问题请问一下徐迎庆老师,清华大学未来实验室是一个交叉学科组成的实验室,徐老师本身也参与开发过多款机器人,包括和小米合作让铁蛋机器狗带有嗅觉功能,还参与做过机器人乐队。请徐老师从开发者的视角来帮我们指引一下AI大模型对于机器人的功能提升有哪些帮助?
徐迎庆:指引说不上,我谈一点个人的想法。AI大模型出来以后,特别是去年以来掀起了一股热潮,另一方面也应该比较冷静地看,我们先说一点题外话。首先人的学习体验不是靠大模型得到的,而是靠每一次感知的垂直体验得到的。第二是人类的认知,几位老师都谈到了视觉、嗅觉、触觉,也谈到了多模态的融合和转移。今天为什么计算机做了这么长时间大家还是不能够完全尽人意,即使短期的目标技术的发展超出了我们的预料,但是从长期的目标刚刚开始。
比如说我们观察一个东西,很少观察一个独立的东西,现在计算机视觉大部分做独立的东西,我们看到一个场景看到很多人,这些人之间的关系我不知道,但是有一个大概的概念。我们去动物园看狐狸,还没有走过去味道就过来了,我们吃饭看一道菜好香,这个“好香”不是完全看到的,还有闻到的,加上过往大数据的体验得到的。
刚才也讲到视觉大约占人类认知或沟通的83%左右,这是美国劳工部的数据,还是很早的数据。另一方面,我们也知道很多地方可以没有光线,但没有一个地方没有味道,嗅觉在上述劳工部数据的百分比就不是那么强的意义,如何把多模态做得更好,是非常值得我们思考的问题。
比如说在家庭机器人中,对于老年人的护理,是不是有一个对话系统能够解决他的情感问题。从用户体验的角度来讲,很多人养宠物(例如:小猫、小狗),你从来没有期待能够跟它们对话,为什么还对它有这么深的感情,每天给它们换猫砂、弄猫粮,还要去撸它,早上起来还要带着它去遛狗,所有这些都是付出。在付出的过程中人类到底得到了什么,老年人得到了什么,情感怎么就从照顾阿猫阿狗的过程中就得到了情感上的补偿,这些东西可能都没有完全研究清楚。现在往往是从技术的角度来看服务,我觉得这可能是比较大的偏差。
大数据本身是一种技术,它是一种靠概率推理得到的推理结果,人的认知很多是推理的部分,有更多不是推理的部分,这块我自己觉得大数据一方面给我们带来很多思考的灵感,因为在我们过去的知识,或者是获取灵感的效率和频率更高。另一方面也给我们带来很多的误导,让我们觉得从技术的角度这样做下去就是对的,我个人对今天大数据的发展不是特别看好,现在是这样走,当它走到一个瓶颈时,到了天花板就上不去了,那时候怎么办。这是值得我们思考的问题。
大数据对今天的机器人发展也好,对今天的人机关系发展也好,有它很优势的一面,能够给我们带来更多的灵感,因为拿到数据的综合分析更多。另一方面带来非常不好的就是会误导我们,我自己有很多这样的体验,我带学生到法拉利博物馆,那边有一个雕塑,我想用这个照片给学生上课做分析,我就问GPT这个雕塑是什么、谁做的?GPT就告诉我这个雕塑是谁做的,这个艺术家做过什么事情,说得非常完整。但是因为上课就必须谨慎,而且我没听说过这个艺术家,我就把图片重新做了一次图像搜索,结果得出的结果完全不一样,最后发现图片搜索的结果才是对的。
我最近在做一些计算机艺术,我让GPT给我几个比较漂亮的曲面和模型,GPT给了我很多,我就挑了其中一个问GPT,说这个曲面我怎么没听过,结果GPT说“我是瞎编的”。大数据有它非常好的一面,但是可能也同样多的不好的一面。我们应该冷静分析,不能人云亦云,不能大家都在说大数据怎么样的时候,我们要反过来思考它未来是不是人类的思想方式,第二是,它能够走多远?
徐一平:谢谢徐老师,开篇的提醒非常重要,就像您问机器人曲面模型是怎么来的时候,它知道是瞎编的,这个动作很重要,这是我们对机器人或者是AI的治理引导,接下来怎么做也可以再探讨一下。
刚才徐老师提到说多模态是为了更好的为人服务,机器人智能的基础是对人的学习和模仿,最终的目的也是要回到对人的发展上,这也是一种养成系。我想问一下邵老师,邵老师您也主持了很多人居课题和无障碍的课题,您觉得机器人即将或者是正在哪些环节为人类提供更好的价值?哪些人群是有望受益?或者是可能还被忽略的?
邵 磊:谢谢一平给我这么一个宝贵的机会,虽然我是清华的,但是在人工智能方面是彻头彻尾的外行。
今天孙富春老师和张正友老师讲的东西大部分听不懂,小部分一知半解,能在这儿很重要的一个原因是今天我们这个会是人工智能和社会发展,这里面得益于两点,一方面是腾讯关注人,腾讯关注残障,第二方面是台下坐着吕世明主席,吕主席八年前创建了清华大学无障碍发展研究院,我当时是小白,就这么参与了无障碍研究院的工作,因此八年以来一直成为了在残疾事业方面的支援者、教师和专业工作者。所以这八年,就您提到的话题做一个小切口,从残障的视角、从无障碍的视角来看以人为本和人机协作有很多的新的体会。
我先说两个貌似题外的话题,这八年我其实也有困惑,我一直在思考无障碍的目标是什么?可能大家都在想无障的目标是坡道、扶手、助听器,还是高科技的眼镜,这可能都是我们非常重要的依托,在今天会上吕主席致辞时说了很有意思的事情,终于实现了从家里出门不管是坐高铁还是坐飞机都能自由的来到深圳,深圳是一个一直存在的地方,差别在于这个过程从不能到能,我觉得您这个过程从一个很艰难的体验走向顺畅、有尊严、舒适、自主的体验,这八年来我对于无障碍的认识是很重要的定义,它是一个过程。
这个过程甚至可以理解为大家都谈过恋爱,相对于婚姻而言,大家没有办法忽视恋爱过程的刻骨铭心和那份甜蜜和美好,所以我觉得过程这件事,如果我们看今天的人工智能和人类智能,反而有它的哲学含义。换句话说,我们其实不担心机器变得越来越聪明,今天一早我特别好的朋友给我发短信,他知道我要来开这个会,他说机器聪明没有关系,就像科学家说的走向自主意识、自主学习,我觉得没有问题。但是问题在于恐怕都不想让人变得更机器,所以所有过程的酸甜苦辣和忆苦思甜,这曾经是我们的定义,未来也可能是我们很重要存在的理由。
第一个就是无障碍的哲学含义——过程。
第二是关于障碍,我看今天台下有我认识的有障碍一位是吕主席,但相信在场的人中不仅仅他一位有障碍。关于障碍如何定义和解读,大家可以自行判断。眼神不好的,腿脚不灵便的,其实每个人都有障碍。这就提到了通用的含义。
2018年,清华大学发布了一个宣言,叫做“通用无障碍发展北京宣言”。特别感谢张老师,当时我没有这个勇气,后来是张老师代表联合国人居署表示,这个宣言符合SDG的发展目标,鼓励我们努力推进。走到今天,我觉得在讨论人机协作的情况下,这个议题更有意义。因为在人机共存的未来,技术的通用性、可持续性、经济的适应性和资源的可持续性带来的影响变得更加重要。因此,通用性在人机协作下成为一个更重要的命题。吕主席今天提到经济性是一个值得关注的问题。将来,我们需要花费大量成本和资源来推动人工智能的研发和机器的生产。在这种情况下,如何判断什么是贵的,什么是便宜的,什么是值得的,什么是不值得的,这些问题赋予了无障碍更多的经济和政治社会内涵。
回答您这个问题,其实都不用回答了,因为刚才张翼老师的发布会,还有几位老师讲的各种应用和徐老师做的各种工作。清华这些年做了很多中国特色的探索,比如说徐老师团队做了给盲人大幅面的显示器,在13英寸的屏幕上集成7200个可以自动上下动的点,实现了把所有的图形、文字能够开始触摸。比如季林红老师用很便宜的价格做了自储能的外骨骼,让截瘫的患者可以站起来行走防止肌肉萎缩,这些又便宜又适用的方案为我们的残障,为我们在过程中走得更美好,提供了很多可能性。
徐一平:谢谢邵老师,刚才邵老师反复提到一个词就是障碍和破除障碍,我也有心理障碍,我昨天来深圳之前特别紧张,我无法缓解我的紧张就打开了我的电脑,一个大模型叫“PI”,是一个聊天的心理咨询类的大模型,我就问它我很紧张怎么办?它说问问胡延平老师。胡老师关注中国互联网的发展很早的,基本上已经30多年了,今天邀请到了胡老师从FutureLab角度帮我们谈一下,怎么样破除在为人提供无障碍服务方面,机器人作为一个超级入口能够提供哪些价值?比如说现在有自动驾驶汽车,手机有更多AI的功能,机器人相比这些入口有什么样的不同?
胡延平:我从现在说向未来,仅就现在的现在来讲,刚才听前面的报告有一个感受,现在到了一个timing,需要无论是在数字世界还是现实世界都到了人和机器人和人和智能的关系到了需要有所安排的时候了,无论是规则层面、系统友好、界面友好、交互友好、空间友好各个方面都到了需要作出安排的时候了。
以一个盲人为例,一个只有几岁大脑的导盲犬,未来远远不如机器人,当一个盲人和机器人行走在城市的道路上,去到商场、去到写字楼、去到任何地方的时候,我们如何对他“友好”,这是个根本的问题。这也是我认为这个报告的意义,把问题提出来并且在场景化在很多方面做相应的安排。这是第一从现实谈起。
第二,从发展的不同阶段来看,实际上要经过四个阶段,这四个阶段需要循序渐进。
第一阶段叫无障碍,包括人和机器、人和智能交互的无障碍,人和智能在现实空间当中的无障碍。
第二阶段是有温度,这是情绪计算。包括像Character.ai、PI.ai在解决的问题。
但是有温度距离第三阶段能共情还有很长的距离。从AI到EI(EI, Endogenous Intelligence内生智能,智能创造智能)再到II(Independent Intelligence自主智能),当这个机器真正有一些意识时,可能共情才能谈得上。能够共情的机器给到人的关怀和有温度的机器给到人的关怀是不一样的。
第四阶段是深关怀,这是机器作为人创造出来的智能体,我认为是它的终极使命,就是能够给到人类深切的关怀。深切的关怀这又是两个方面的,一是能够帮助人类从繁重的劳动和现实的束缚中解放出来;二是在很多智慧和探索方面走的更远,这是它的终极意义。
这四个阶段是循序渐进发展的,而这四个阶段又是和智能不同阶段的进化紧密关联的。仅就大模型的演化,也是要经过四个阶段。第一阶段从当下来讲,是基于大语言模型LLM的理解。第二阶段很显然是开始有一些物理的、各个学科子系统的科学模型能够成为模型本身的原理。所以,大模型的原理是往更进一步的方向进化,多模态只是站在空间智能意义上对交互意义的诉求。第三阶段是数字和现实混合现实意义上的模型原理。第四个阶段都在讲世界模型。世界模型的实现非常困难,没有前三个阶段的基础不可能走到世界模型。而世界模型也对应到了AI到EI再到II,内生智能也就是自主这阶段。
张正友教授讲的,看到视频时给我最深切的感受是机器人开始能够探索这个世界,探索意味着自主性的开始,或者是我们最终赋予机器人的基本能力,这种自主性探索能力是非常重要和基础的。因为有了这种探索能力,才能够成为未来无论是基于通用智能的专用能力,还是基于通用智能的泛化鲁棒性的通用能力的可能。从未来形态来讲,不是机器人形态的智能还是机器人形态的智能,这是另外一个命题了。从根本上来讲,未来智能一定是混合、一定是多样化、一定是多模态,一定是我们看不见的智能,具有强大的通用能力。随时能够支持到能够看见、具象、具身的智能,这种具象具身的智能就随时随地和像Matrics这样的母体连接起来。这并不科幻,不断的增益到看不见的智能,看不见的智能又能够支援到各种各样的场景化的智能。
从发展来讲,显然是循序渐进的过程。这样一个循序渐进的过程未来一定是我们所讲的端边云网、感算数智一体,不是我们今天所讲的大语言模型的小智能的场景。而是一个大智能的场景,毫无疑问就是张博士讲的模型。模型的第一是传感感知。有了通用、专用的基础能力做支持,又有通用的专用的场景化的具身智能作为载体,下一步无论是为弱势人群、特殊人群去服务,还是说教育、学习、娱乐等一些生活场景的服务,老年人的照顾看护,包括在很多服务行业的服务机器人、制造机器人就更不用讲了,它一定是高度泛在的可能。从这个高度泛在的可能来讲,只是说面向特殊人群,老年人群体和家庭场景起步更快一些,C端起步会比B端在一些方面会更晚,这是一定的。今天如果站在第一性原理去看它的底层逻辑,方向其实很清楚,只是说步骤怎么去做,比如说机器人的大脑小脑怎么统合,小脑的感官怎么统合,不同的模型和模态怎么使得机器人具有在专用场景下的通用能力。
从未来的趋势来讲,我认为是非常乐观的。但从步骤来讲是要经过四个阶段。这也是今天看到发布报告的意义,不仅要看到未来,而且要为未来做一些准备。科技有三观,第一是认知的观念,第二是科技价值观,第三是产业发展观,这新三观中最重要的是实现中间的科技价值观。
所以为什么我看了今天发布的报告之后提炼为12个字“科技向善,以人为本,双向奔赴”,现在到了双向奔赴了。我们要考虑人的问题,也要考虑机器和智能的问题,在这个基础上方向奔赴才能创造一个以人为本,科技向善的智能未来,而且这个智能未来肯定从终极意义和终极目标一定是以人为本的。谢谢。
徐一平:谢谢胡老师,胡老师点了很重要的两个题,第一是双向奔赴,第二部分的内容就要从这4个字出发请教4位老师,从人的治理角度,应该考虑哪些人的顾虑。第二是机器人应该如何去响应这些顾虑,才能更好的奔赴。
第二部分提的4个问题是关于人机协作的规律,我们总要把人机关系有所安排。先请教张振山主任,您认为在机器人迈向通用,进入更多的城市、工厂甚至家庭的过程中,有哪些治理的挑战是我们普遍需要关注的?
张振山:谢谢主持人,我觉得刚才胡老师说得非常好,到了这个阶段一定要有所安排。这个安排就是我们现在都知道机器人帮我们做了很多工作,在工厂里可以减轻劳动的恶劣环境(焊接、喷漆等工作),在家庭里也帮我们做一些辅助的工作,包括在酒店场景都可以帮忙送餐。广义上的无人驾驶汽车机器人,其实为城市和城市的发展,为人类的进步做了很多的工作。
但是我们也应该看到,在这个过程中它还是会产生一些问题,比方说刚才胡老师也提到以人为本,我们叫以人为本的未来城市。比方说无人驾驶汽车,现在一些地方要用无人驾驶汽车来代替人工的司机了,这样司机就会面临着失业的问题。当然不仅仅是这样,在生产线上过去是工人,现在也可能面临失业的问题。包括在机器人的应用过程中可能会有程序的问题、机械的问题会造成对被服务人员的受伤等问题,这些问题是人机治理将来比较突出的问题。
我们应该从政策、法律上以及从技术上来为这些治理制定应有的政策、规章、技术,使将来机器人的应用能够比较规范化,比较安全。
徐一平:谢谢张主任,我简单总结一下,不一定对。张主任提到在人的交互中首先要安全,多模态能不能一定持久上回应安全的问题。第二是机器人在进化发展过程中一定会学习人、学习环境,会不会有隐私的问题。第三是发展的程度很高,它会替代人吗?这是很通用的顾虑,也是我们非常需要考虑的。
另外一个治理的难题、挑战是和场景相关的,比如说工厂的机器人它可能更多的注意不要伤到人,那么在家庭里更大的是隐私的障碍和服务的障碍,所以在场景里有哪些治理的难题,想请教一下邵老师。
邵 磊:这个话题特别大,因为场景实在是太多了,生产、生活、交通、娱乐等等。刚才大家讨论了很多,眼看的体验在现实城市中人机交互在发生变化,昨天我坐飞机来时,我每次经过首都T3都会发现增加一些东西,在飞机里会有越来越多的插入智能体、屏幕和人机交互的方式,现在加入了智能人脸的查询机和增加了各种各样查询信息的屏幕,增加了各种各样的人工智能的闸机。我注意到最小的变化是每个座椅旁边都增加了四个充电口,两个两个Type-C和两个USB的。可以看到在场景中越来越多地出现了添加的、重新改装的人机协作必备的设施。
我们的习惯也会发生变化,比如说背后都是LED屏,它的亮度和射出来的光,以及对健康和行为的影响都会发生变化,所以我觉得在空间层面上正在处于一个原有的建筑空间走向了充满机器和设施设备集成非常重要的过渡阶段。
在以前,时空是相对分离的,而现在,我们需要实时响应。最近我们在讨论一个话题是未来老龄化社会也好,或者是更加健康的社会也好,其实急救体系是非常重要的,包括在急救车、EAD、云端抢救、远程医疗,大家有没有想过这样的情况下所有的信息要求都是及时、实时同步的,哪怕延迟几秒几分就会带来诊断的后果会有很大的区别,这对于软件、硬件、通信以及其中的风险和误差会产生很大的影响。不管是内部的运作体系和基础设施还是表现上都会带来很大的变化。
我是从事建筑和城市设计的,这些变化会影响到工作流程。举个例子,过去设计一个建筑或建造一座城市并不是一件特别容易的事情,因为它是一个线性的过程,需要经过许多环节和采用许多不同的方法。然而,我们发现,人工智能和各种辅助技术可以大大压缩流程,实现并行设计和动态调整。从CAD到现在的建筑信息模型,人工智能的大规模检验和辅助都可以瞬间完成,这对效率和时间管理有巨大的影响。
还有一个非常关键的事情,我提到在应用场景中人的需求。人的需求其实千变万化,但我认为人工智能和未来的数字化时代为标准化和个性化提供了各种可能。如果说20世纪是想要一匹马却给你一台车,而且这台车还很便宜,21世纪从大规模的生产、大规模的消费走向一个又便宜定制化的产品、建筑也是一个可行的愿景。
徐一平:谢谢邵老师,邵老师提到定制化,胡老师提到有温度,这都是以人为中心的侧写。我们对机器人有那么高的要求,是不是需要机器人不断突破它的能力边界,比如说世界模型或者是用大量真实和仿生数据去学习,这些数据还是从人和世界中产生,那么会不会带来一些挑战,机器人设计中怎么回避这些挑战?
我想先问一下清华大学未来实验室的徐迎庆老师,徐老师之前实验室做过很多智能家居的项目,比如说通过传感器采集人的行为,看看人有没有摔倒提供及时的响应。刚才又提到未来这些传感器可能可以集成到机器人身上,哪些是可以集成的,哪些是在集成的过程中要回避隐私的障碍和人的顾虑,请徐老师圈点一下。
徐迎庆:这也是个挺难的题目。回到刚才那个例子,我觉得现在机器人的发展,就我自己的理解,可以分成三大类:
第一类,模拟人的行为、延展人的能力。比如说工厂里,我们去过很多汽车厂(奔驰、宝马)里面的机械臂把汽车外壳或者整机搬来搬去,把人胳膊的力量扩展了,是行为模拟替代了过去生产线上的工人。
第二类,模拟人的思考,但现在还非常少,比如说刚才正友老师展示的小狗在那边转圈,我特别开心,我终于看到了小狗开始思考要想往哪儿走,这是很难的一件事。
第三类,基于思考来决定行为,现在的行为是人编排好的,比如说在生产线上就干这个,一点都不能差,思考也是在刚刚开始,如果能够在思考的基础,这些行为可能就更有意思。
因为我们也做用户体验研究,回到上一个问题,每个人都有养老机器人或者是家庭的机器人,人到底对这个机器人有什么样的期望值,是不是这个机器人就一定能够照顾老人,我觉得短期内也不一定。为什么?我们看到老人养宠物的时候完全是在付出,是在照顾宠物,但是他活得很开心。他每天去遛宠物、喂它吃的,我知道如果家里宠物不幸没了,主人大都会非常伤心,甚至哭成泪人。我就会想:以后如果机器人朋友(宠物)不在了的话,主人会不会也这样伤心?到底情感是怎么产生的,这是我们做看护机器人和护理机器人首先要解决的问题。我们不能从工程的角度出发,应该从人机工程学、人机交互、人类的需求角度出发。
我们知道每个人都有体味而且随着健康的变化,体味会略有变化。如果一个家庭服务机器人一边和主人聊天,一边能够闻到他身上的气味,就意味着它可以根据主人的体味变化来监测主人的身体健康状况。再比如,情感计算也很重要。如果机器人问“您今天怎么样?”主人说“我有点不舒服”的时候,能够理解他的语气和情绪,也会为判断其精神和健康状态提供重要参考。“我有点不舒服”和“我特别不舒服”完全不一样。自动驾驶也是类似的情况。现在很多自动驾驶的目的是做出租车服务。比如,一个乘客上车后说“开车”,有时可能会说“开车,开车,开车!”这其实反映了他的心态。车内的环境光、速度和音乐是否需要调整,但今天的语音识别系统只会识别“开车”这两个字,而不会理解背后的情感和状态。再比如,一个刚进出租车的人说“什么味儿啊?”这可能是因为上一个乘客喝酒了,人类司机会立即解释“不好意思,刚才有个人,可能味儿没散出去。”但是你让机器理解环境的味道是超级复杂的问题。
您问的问题是还有哪些可以扩展的,真正为人服务或者是以人为本的人机协作的场景下,机器人刚刚开始,它做的是极为初等的东西,当然今天做的东西已经超过了我们对机器人的短期预期,可能以为这个东西要5年才能做出来,没想到2年、3年做出来了,但是作为长期的预期,人类真的把机器人作为朋友还差得很远。
《人类简史》的作者尤瓦尔-赫拉利,曾说过这样一段话“人与人之间的关系是怎么建立起来的?是因为你在不断和他沟通,在沟通中取得了信任。”咱们是一个团队的,你不会轻易信任一个你不认识的人。为什么会有信任,因为我们有共同的价值观,我说的东西你基本同意,如果你不同意最后也能够理解我,实际上人工智能发展到今天也带来同样的问题,人工智能比人类更能哄得你高高兴兴的,让你更加舒服,最后你把它当成朋友了。这时候世界就真的发生巨大的变化了,因为一旦人工智能成为你的朋友,作为人类的你,其实就很可能被人工智能左右了。而人工智能是由相对整个人类而言的一个小团队的人创造出来的,人工智能不是自己创造出来的。这对未来人类的发展就产生巨大的挑战,这个挑战是人到底应该往哪里走,到底应该跟着谁走,信仰到底是什么,你自己不知不觉中就会被带走了。
在这个环境下,哪些是人应该把握的,哪些是机器应该做到的,我觉得到今天为止还没有太多的能力能严格把这个分开,这是我们应该在未来深度严肃思考的问题,以上是我的想法,谢谢。
徐一平:谢谢徐老师。一个问题是哪些事情机器能做到,另一个问题是哪些事情不应该让机器来做。您提到机器人可以提供两个方面的价值。在机器人与人建立关系的过程中,机器人实际上可以提供一些情感交流和情绪价值。同时,机器人也可以为残障人士提供强大的工具和力量支持。这是机器人的两个主要价值。
针对情感方面,更难的是达成共识。请胡老师再给我们指导一下,现在大模型的技术突破是如何不断提升机器人对人类情感理解的能力的?它不仅能说人话,还能用不同的音色来说人话,背后的技术发展是如何支撑这一点的?
胡延平:人机关系从情感的角度来讲是有三个场域:
第一个小场域是说人机在交互过程中的回答、问答是否有温度,是否感觉理解你。
第二个场域是说能够在日常关心你、帮助你,尤其是解决你的很多问题,这是对人的关怀意义上的情绪价值。
终极意义上的情感场域是前面讲到的机器是对人的解放,这是三个场域,但是这个过程显然不是那么理想,有可能是机器是对人的代替,或者是就业意义上的对人的挤出。
现在情绪计算和情绪智能能够做到有温度,正在往共情方向走,第二个方式是机器人的能基于通用能力、专用场景光滑的同时在各个场景都能够应用开来我们也比较有信心,第三个方面是恰恰需要有更深度的思考和群体智慧才能够达成的过程,也就是走向人机共生,以人为本的时代需要考虑的问题。因为这涉及到很多在社会学、经济学甚至是纸质学层面思考的问题,因为它里面有力量、利益分配等问题,我相信有这样的群体智慧。一直有一个提法未来是选择出来的,今天讲技术的创造力已经超乎很多人的想象,它能够怎么样其实不是一个问题,它应该怎么样才是问题。
另一方面的思考,今天我们谈到这轮的强智能,AI 2.0阶段的能源消耗、资源的消耗包括算力数据似乎构成了一个挑战,包括业内来讲也说这能力不可持续,因此也造成了社会焦虑。这种社会焦虑大家感到一个庞然大物出现了,给能源系统和社会资源系统都带来了比较大的挑战,反过来讲这个智能对人类的智能构成了一种碾压,我觉得这种焦虑实际上是阶段性的理解偏差造成的焦虑。刚才问到徐老师这个问题,数据的焦虑其实来源于现阶段的发展范式本身的局限性,因为现在处在一个大模型的小周期里,仅就模型来讲后面还有三四个周期,有科学模型的周期、混合现实模型的周期,还有世界模型的周期可以讲数据量一定是会指数级的增长,只要记录信息的范式是数据,处理信息是范式的数学算法,连接数据的是网络,数据从中长期来讲一定是继续指数级增长的,只是说现在的算力、能效比、量效比是比较局限的。比如说Open AI刚才讲到训练的算力下降到原来的1/10或者是1/20,但是需求在高效成长。尤其在空间智能、具身智能的维度下,探索式的智能,面向自主的智能数据量更加是爆发式的增长。从数据的角度来讲,人类所创造的数据是从0到1,人类数据量是有限的数值。合成数据所创造的数据增长是从1到10,比如说英伟达最新开源模型的训练70%用到合成数据。但合成数据是基于前面0到1的数据范式,遵循了一定的规则。接下来科学模型所创造的数据是从10到100,我们看到科学模型对于算力的需求、对于能源的需求是要超越目前的大语言模型在AIGC层面的消耗。再接下来具身智能、空间智能和自主智能对于数据、算力,至少在每一秒产生数据的量是远远超越前三者的,这是从100到无限的区间。
很多时候看问题要跳脱一个个的小周期则会有更清晰的判断,具体到每个人,我们今天已经开始成为数智人,因为关于数智人也有一个研究的指标大概是1000 TOPS(单片)左右,比如说手机、AIPC、智能家居等其他部分合并的算力往1000 TOPS左右在走。实际上当你开了一辆国产的智能汽车,4organ架构时你一瞬间就已经是1000 TOPS了。机器人的算力是低于智能汽车的,机器人大概只有AIPC级别的算力水平。
什么时候机器人到了1000 TOPS、2000 TOPS或者是更高的阶段,移动汽车的算力反而是最高的。每个个体都正在从数字人往超级个体走,未来每个人都是超级个体,未来有4种人的形态:1.人;2.增强的人;3.和智能连接的新智慧的人;4.机器人这4种形态,这4种形态尤其是后三种一定是基于比大数据大出多少倍,比今天的算力要强出多少倍的环境。
在这个环境下,在今天我们看到的大模型都是小模型,现在看到的大数据都是小数据,机器人都是机器。所以长周期的视角来看创新的过程,会有不一样的判断。当下的焦虑症只是当下,并不可怕。最终看到的能源消耗、资源消耗和智能的强制碾压态势,相信群体智慧可以驾驭。我们未来要面对一个又一个比今天挑战更具挑战性的强智能到超级智能的进阶,每个进阶都会有新的挑战。当下的焦虑不是问题,我们更有希望看待人机关系更美好的未来,只是说我们需要为它做安排和准备,从一个一个小周期演进的角度来看事情发展的过程。
徐一平:谢谢胡老师,现在很多问题都是小周期的问题,我们谈论小周期机器人怎么提高它的智能水平,从0到1的智识,发展到从1到10,环境可能需要做一些适应性的改造,比如说物理的环境、数字的环境甚至是治理的环境。像孙富春老师在主持和研究的仿真器是不是也算一种环境,通过这种环境来提高机器人的训练效率。最后想请4位专家从个人的角度,今天的论坛可以得到一个非常积极的结论是在我们都可见的3-5年内机器人就跟我们共处了,从您个人的角度人机共处过程中我们是什么样的角色?您的期待是什么?
张振山:在机器人或者是智慧城市的发展过程中,我们的环境肯定还是需要不断地改善,相互地适应。比方说无人驾驶汽车以及机器人用了很多,它的能源怎么解决,在城市建设中以前是按照传统的配电的模式来做的,将来是不是要在道路上建无线充电设施,机器人在每栋建筑中怎么解决能源的问题,以及将来来了这么多的机器人和无人驾驶的汽车,我们可能会面临着很多维修的问题。4S店不是卖汽车了,而是转向更多地维修遇到问题的汽车的工作。
包括人也是一样的,过去人是在生产线上,人是在服务的过程中。现在人被解放出来,一方面叫失业,无法就业导致生活困难的问题。另一方面要增加很多培训机构,使从岗位上下来的人能够转变他们的技能,能够更多地来使用机器人。
所以,我觉得在这方面人机互动、环境改善及人的适应方面还需要做大量的工作。这是我的看法,谢谢。
徐一平:谢谢张主任,刚才您说的能源问题其实很重要,人脑袋运行效率就是20赫兹左右,城市空间投放机器人到底需要多少能源,怎么样测算,怎么样供给,这其实是能源环境方面需要做的响应。
接下来有请邵老师。
邵 磊:这些年还是做残障议题,从我做这个工作来看,人的主体性和社会的不平等性是未来在人机融合或者是人机协作情况下,我觉得是一个永恒的命题。在面对技术进步和产业革命,在面对人类世界中产生的不平等和人的身份的矛盾。
从这个角度来讲,今天讨论的通用无障碍是人的问题也是机器的问题。我们讲的人机协作肯定是人的问题,也是机器的问题。我们讲的特别美好的体验,机器人即服务,是人的问题,也是机器的问题。甚至是张主任说到的大自然,能源问题是人的问题也是机器的问题。吕主席说到经济财富,是人的问题也是机器的问题。但是有一点,我觉得在快速发展中,人和人之间的关系,人对人之间的理解、信任,以及讲的“爱”是人的事情,不是机器的事情,这一点不管怎么发展恐怕也不能被替代。而且机器的发展应该让我们更好地享受这一整个过程。这是我个人的一点感悟,谢谢。
徐一平:谢谢邵老师,非常走心。很多关系还是要在人与人之间发生会更美妙。接下来请胡老师继续谈谈,我觉得可能在胡老师的理论里可能邵老师说的问题都是现在这个周期的问题。这个周期有什么方式解决这些问题,有什么可行的方式和路径?
胡延平:发展才是硬道理,很多问题会在发展过程中迎刃而解。
最后我谈另外一个观点,未来每个人都是超级个体,今天在当下手机里可能是8B的模型,我的电脑已经是700亿参数的模型。当年底用一个M4 Auto的Mac Book时,就已经可以在电脑里安装一个千亿参数的,可能是8位量化或者是4位量化的模型,它的体量已经和GPT3.5相当。但是它的能力已经是在逐步接近GPT4,甚至在某些方面能够表现得更好。这个方向是毫无疑问的,目前的问题是局限性造成的。
人机关系目前也存在局限性,比如自然交互和超级入口,这其实是人的需求,包括两足机器人和人形机器人,这些都是人的需要,而不是机器的需要。因此,未来的发展和演化有两条主线。一条是站在人的角度,另一条是从机器人的角度,超越人机协作,探索机器人如何能够走得更远,这与超级入口和自然交互无关,但机器人的能力会不断进化。这两者是齐头并进的。今天我们所看到的只是智能的早期阶段。尽管从1950年到2050年,智能已经经历了多个发展阶段,从计算智能到智能设备,再到感知智能和认知智能,但仍然处于非常早期的阶段。
今天讲的智能是什么呢?transformer+VIT,其实都不是真正意义上的多模态模型,更不是面向未来具身智能所需要的多感官模型。因为多模态和图片、视频、文本是两个概念,这里头有深究的地方。现在处于是模拟态的多模态的早期,接下来在方向很清楚的情况下是取决于技术的进步,未来无论是一个盲人还是听障人士,在各个场景都已经出现了突破性的产品,这也是机器人2.0。今天有一位嘉宾讲的观点我特别认同,机器人今年受到非常关注的发展,归根到底不是因为机器人本身,而是因为强智能的发展。
包括今年1月CES前后我们看到很多和残疾人、盲人有关的产品。盲人由此能够看见这个世界了,因为它用告诉的方式让盲人能够看见,而且这个方式不是过去意义上的计算机视觉,而是这一代的强智能的方式,包括用听见的方式来感知这个世界。我看到这个产品都有一瞬间被深深的感动,这个世界终于为他们关上一扇窗的同时打开了一扇门。这种产品有技术的创新和智能的发展给你带来深深的触动和感动的感受,相信这个感动的过程是连续的过程,因为这个过程已经开始了,我们只需要拭目以待去看就好了。就像今天人机报告的发布意义一样,需要为它做很多准备,不能说只是像一个旁观者一样,每个人都是参与者,就像每个人未来都会成为超级个体一样。
徐一平:我们讨论这个问题不光是从健全人的角度,去考虑未来智能怎么加强超级个体的主体性。而是一定要回应到吕主席提到的中国有8500万的残障人士,需要通用能力的人,怎么样来武装成更超级的个体和更健康的个体,还有老龄人口的问题。
最后请徐老师帮我们做一个总结。
徐迎庆:人工智能的发展神速,特别是尽管GPT这类的人工智能刚刚开始,国外的部分机构已经有上百万块卡在运行,这件事太震惊了。
所谓“震惊”有两个:第一,这么大的算力需要我们重新思考,我们目前没有这么大的算力。第二,未来的发展是不是要靠所谓的暴力算法来解决问题,这也促使我们重新思考怎么样去探索人工智能,是不是应该先考虑最基本的智能是怎么实现的,比如说学习最早期的生物是怎么思考的,现在很多都是在模拟行为。
从不同的角度去思考什么是我们应该探索的未来之路,靠拼算力似乎是很困难的。但是我们在其他方面还是有很大的机会和希望的。比如说今天谈的机器人,大家有一个基本的共识,我们在智能制造方面还是有一定的优势。机器人其实也是一种智造,在这个环境下怎么去发展机器人,刚刚正友老师介绍他们做了很多了不起的工作。
另一方面,在我们目前没有这么多算力的前提下,我们怎么思考未来对人工智能的重新定义。同时,也要积极地参考和学习别人的经验。我觉得这是我们在未来面临的特别大的挑战。
我就讲这些,谢谢。
徐一平:谢谢徐老师,也谢谢在座所有嘉宾,这个话题是在发展的问题,我们也会持续关注,研究院会继续组织一系列关于AI及社会方面的议题,欢迎大家继续交流,我们圆桌二就到此结束。