No.65

相变：下个时代的前情提要

司晓 腾讯集团副总裁、腾讯研究院院长

2024年1月24日，由腾讯研究院和腾讯可持续社会价值事业部主办的“2024腾讯科技向善创新节”顺利进行。活动以 “相变”为主题，包含主题演讲、圆桌论坛、在线研讨、线下展览、辩论赛等形式，探讨AI技术与行业变革、技术社会、科技艺术、城市发展、个人成长等议题。

在本次活动上，腾讯集团副总裁、腾讯研究院院长司晓进行了以《相变：下个时代的前情提要》为主题的分享。回顾了人工智能在过去一年取得的进步，以及AIGC、大模型等技术的发展，对未来社会可能产生的影响。
以下为分享全文：

朋友们，大家好，我是腾讯研究院的司晓。很荣幸再次站在T-Week科技向善创新节的舞台上，与大家分享一些我们对未来世界的思考。上一次我在这里分享还是2022年初，过去两年，整个科技行业发生了天翻地覆的变化。

2022年末，ChatGPT 发布，给我们带来了十分有眩晕感的2023年。从2023年中开始，就有许多观点把科幻作品类比到现实世界，有人说我们可能要迈向《终结者》《黑客帝国》，也有人说我们要进入《上载新生》或者《失控玩家》的世界。

如果我们把2023年作为人工智能科幻剧的第一集，那么2024年第二集显然已经在开播了。但我们还不知道2024 年的剧情是什么，因为当下我们还处在前3分钟的“前情提要”里。

这也是我们将这次科技向善创新节的主题命名为“相变”的原因。相变是一个非常复杂的物质系统，即在温度、磁场等外部环境的持续改变下，不同“相”之间相互转变的过程。就像冰、水和水蒸气之间“相”的变化：0度以上到 100度以下，水的常态都是液体，但一旦升到100度，水就会从液态变成气态，也就是性状就会发生突变。

我们人类，作为一种动物，在这颗星球上生活几十万年之后，突然在最近的2000年里经历了三次科技革命。而就在我们以为第三次科技革命即将接近尾声的时候，通用人工智能突然迎来了曙光，科技革命不再是人类工具的革命，而有可能孕育一种新的智能，大幅改变我们已知的生产与社会形态，这也是一种相变。

进入2024年，我们很难预测人类下一个时代究竟会进入哪个状态。但我们明确地感知到，当下，我们已经身在AI所助推的相变之中。

那么，现在AI到底发展到了什么程度呢？人是万物的尺度，既然在此之前，我们一直认为智能是人类专属的，那么我们还是要用目前自己的智能去衡量现今AI发展的水平。我们可以粗略地将人脑的功能拆成几大板块：语言、视觉、听觉、抽象思维、情感和直觉，等等。

在接下来的部分，我想通过一个时间轴来快速展示过去一年中，人工智能领域所取得的显著进步。这个时间轴不仅仅是一系列日期和事件的罗列，它更是一个窗口，让我们得以窥见人工智能技术飞速发展的趋势和轨迹。

回望过去的一年，大模型的迭代让人眼花缭乱，我们一次次被它的进步所震惊。行业也开启了“百模大战”的时代，应该说是你方唱罢我登场，有人戏称“人间一天，大模型一年”。

首先是2022年11月，ChatGPT 首次让大众目睹了大模型的神奇能力，短短2个月累计用户就超过了1个亿，创下了互联网产品史上，或者说人类产品史上最快的破亿记录。

当大家还在津津乐道于大模型一本正经地胡说八道，会讲林黛玉倒拔垂杨柳的段子时，2023年3月，GPT-4的横空出世展示了它的学霸气质。它在美国的法律、生物奥赛等这些高难度的专业考试中的排名居然进入了前10%，且对语言理解的准确率大幅提升了40%，应该说足以通过图灵测试。同期，Plugins 这种功能的上线让大模型开始有手有脚，也开启了更大的想象空间。

同样在3月，Midjourney 5 震撼发布，其逼真的效果让人再次震撼。而更让人震惊的是，这家独角兽公司只有11 个员工，据说其中还有几个都是实习生。

9月，ChatGPT Voice 功能上线，一个像人一样边说话边“嗯、这个、那个”，能够灵活运用语气词、自然停顿的语音助手，让我们惊呼，AI真的是太像人了。于是，大家开始让两个 AI 聊天，或者真人与AI聊天，创造了很多节目和段子，成为风靡一时的新玩法。

11月，GPT-4V上线，用于生成图片的DALL-E 3被整合进 GPT 中，我们可以不用去学习像Midjourney 一样非常复杂的咒语，即 Prompt。曾经大家还一度说 Prompt Engineering 是一个很有前途的职业，工资很高，但是我们很快就发现，你用更简单的自然语言就可以创造出非常专业的图片，使用的门槛被进一步降低了。

这种全新的图片生成工具，在不到半年的时间里似乎完成了从“专业相机到傻瓜相机”的转型。此外，像 GPTs 这种功能的推出，更是让每个人都定制一个大模型的梦想成为可能，也预示着 GPT 的 iPhone 时刻真正有降临的可能性。

同期，Google 发布了原生的多模态大模型 Gemini，即双子座，从这个大模型训练的初期，它就把文本、图像、声音、视频等各种数据 Token 化，让大模型更为接近真实世界本来的样子。

12 月，Pika 凭借文字生成视频的功能火遍全网，而其团队只有4个人，不到半年估值飙升到2.5亿美金。就连 Pika 创始人父亲任董事长的信雅达公司，也跟着收获了6个涨停板。

通过上面的梳理，我们发现 AI 的进化速度可谓飞快，这可能是人类科技史上第一次以天为单位在进步。

如果我们将非洲类人猿露西视为人类智能诞生的起点，1946 年第一台计算机“埃尼阿克”（ENIAC）视为机器智能诞生的起点，那么机器智能其实在短短的 77 年里，走过了人类 320万年的智能进化过程。

在过去的 77 年里，人类平均智能水平变化其实不大，而机器智能却像火箭一样快速地追赶过来。从最开始只能像算盘一样进行“机械的数字计算”，到现如今百花齐放的 AI 应用。这种迅猛的发展速度，不仅对我们今天的生活方式构成了挑战，更对我们预测与想象未来提出了更高的要求。

好在，我们人类智能的一个优势，就是在我们实际能做到一些事情之前，就能够对许多可能性展开充分的想象。以至于在计算机还没诞生的年代，科幻小说就已经流行了 100 多年。

在今年的成都世界科幻大会上，我也和著名科幻作家刘慈欣老师短暂地进行了交流，当时我想请教他 AI 对人类未来的影响是什么，或者说人机未来的终局会是怎样。

大刘老师非常谦虚，他说科技从业者更了解 AI 技术，科幻作家更多通过科普信息来获取前沿技术进展。不过，我还是坚持认为，某种程度上科幻的想象力启蒙了科技的发展。科幻的背后寄托了人们对未来的想象力。一个典型例子是，正是人们对于天空的向往，想象出载人飞行器，然后才发明了飞艇、飞机、宇宙飞船等等。国家天文联合会在上世纪 70 年代曾经把月球表面的一个陨石坑命名为“万户”，为了纪念一个叫万户的明朝官员在四百多年前所做的一次飞行试验。

当时他非常勇敢地把47个自制的火箭绑在椅子上，自己坐在上面，双手举着两只大风筝，然后叫人点火发射。结果大家也知道，万户牺牲了，但人类探索天空的脚步却从未停止。

对于描写黑暗未来的科幻作品，以前我们会觉得是纯粹的想象，但是，当我们把看什么样的新闻、坐哪一趟航班、买什么样的衣服甚至吃什么药的决策权让渡给人工智能时，科幻作品里描绘的机器统治人类的黑暗一幕也是有可能发生的。

所以，很多人想到AI 崛起的未来，第一个想到的就是《黑客帝国》和《终结者》这种故事类型。我们将之简化为一个问题，就是 AI 的诞生，是让我们获取知识的能力变得更加平等，还是更加极化？也就是它会加大我们社会不同群体之间的差距，还是会让大家变得更平等？

我的答案可能与很多科幻作品或者许多人的预测不同，我认为平权与极化是同时发生的。

因为，从中国互联网过去 20 年的发展史来看，普惠与鸿沟几乎都是在同时出现，这一点其实并不矛盾。比如，网约车出现的时候，大大提高了打车的效率，无论是从司机端还是乘客端，都觉得更方便了，我们看到空载率也有显著的下降，普通人可能再也不用在路边，尤其是寒冷的冬天里，等待很久都打不到车，而且打车的费用也有下降，这是一种典型的效率提升带来的普惠。

但可能大家也慢慢意识到，这对那些不会用智能手机、没有安装打车软件的老年群体来说其实更加不友好了，这就是网约车这个应用造成的事实上的不平等。因此后来网约车平台也都纷纷推出了电话叫车、线下打车点和老年版 App 这些对于老年群体更加友好的功能来解决这个问题。

在 AI 领域的应用肯定也是如此，比如在图片生成领域，尽管 AI 现在生成的图片是否具有“艺术性”还有一定的争议，但它确实让许多原本没有任何绘画基础的人，拥有了创造艺术作品的能力。例如日本漫画作品《赛博朋克：桃太郎 John》，作者实际上从未画过漫画，或者说他根本没有画画的能力，但是他构思了故事框架和人物对话，画面部分则完全交由 AI 生成，用 AI 文生图的能力居然六周时间就完成了一个畅销的动漫作品的制作，这是专业人员也无法企及的。

从这个角度而言，这不仅是技术的平权，更是创造力或说表达能力，通过图片、动漫来表达自己想法的能力、艺术能力的平权。

AI 赋能的领域不仅仅局限在图片与文字的生成上。以前只有高级管理者，或者老板们才会有专属的秘书，帮其节省大量时间和精力。但是普通人打工出差时，机票、酒店、出租车、报销、比价这些非常复杂的工作都要自己一点点完成，非常耗时耗力。

未来，如果人工智能Agent，或者说这种代理人的功能进一步成熟的话，其实任何人都可以拥有一个永远在线的“虚拟秘书”。

你只要告诉它“帮我订下下周去北京出差的行程”，每个时段的行程安排也可以通过它和其他人的虚拟秘书来对接协调。随着它和你的磨合，通过你的数据去喂养它，它会比真人秘书更加了解你的想法，更加有默契。所以从人机关系的角度，我也做过一个判断，大模型实际上是人类第一次从发明工具到生产、培育自己的助手。

教育领域也是如此。比如今年我们看到大模型出来之后，一个非常流行的聊天软件 Call Annie 就能为海量学生提供 7×24 小时在线的口语练习，这在以前是无法想象的。因为口语其实是教学环节中最消耗人力的部分，这也是中国人很小就在很努力地学习英语，但大部分人学出来依然是哑巴英语的主要原因。那么有了AI，这种问题就会变得可以解决，通过 AI 的方式去实现，可以说它的边际成本几乎降为了零。

不只是语言的学习，我们还看到国外有一些非常知名的开放的慕课平台，比如Coursera 在2023年就通过 ChatGPT 开始给每个课程提供助教服务。它解决了这种免费或低价的开放课程平台一个比较大的痛点——就是看完在线课程之后，学生有疑问，但没有真实的老师可以及时解答问题，那么 AI 现在去扮演了这种角色。

举一个我自己用ChatGPT的例子，之前我尝试用大模型的文生图能力去设计一个飞行器。我跟它说，我想设计一个飞行器，需要什么样的工种？其实我是不知道的。

它马上就帮我列举出来需要包括美术、概念设计师、空气动力学、电池和机电等等十几个专家角色。我接下来任命概念设计师为最终决策人，每一轮要求所有的虚拟专家都参与讨论发言，最后他们用达成一致的文字意见去文生图，生成图片设计方案，最后由概念设计师去选择其中一张作为这一轮的输出。在这个基础上，再去讨论、生成和审核下一轮。我也特别强调，中间不需要再问我，不需要我额外地发指令，你就在完成五轮讨论之后，直接把作业交给我。大家可以看到，几轮之后，它交的作业还是挺像模像样的，很像是一个可以飞起来，但是又看起来很酷的飞行器。

接下来就发生了很有意思的事情，我要求它设计一个有 30 个电动马达的飞行器，我之所以问这样的问题，是因为在现实世界中有这样的飞行器。腾讯投资的一家德国的飞行汽车公司Lilium，它就是有具备30个电动马达，能够进行垂直起降的飞行器。

但这时候你会发现它就开始胡说八道，因为它没有见过这样的飞机，它居然把很多悬翼做成小的悬翼放在一个大的悬翼下面，这个显然它在经济性、安全性和空气动力学上都是不成立的。

所以我就问它：“你这东西到底靠不靠谱？如果出了问题，OpenAI，你的东家要承担责任的。”很搞笑的是它就拒绝接收了这条消息，然后主动结束了这一轮对话，应该说非常的狡猾。

通过胡说八道出来的这种方案，说明其实空气动力学专家在里面并没有真正地发挥作用。但是未来随着Agent 功能的完善，随着幻觉率的进一步下降，普通人通过大模型去要求它同时扮演不同的角色，随时调用各种专家能力，去完成原来一个人不可能完成的任务的事情，已经不再是科幻小说里的情节。

通过上面这些示例，我们可以简单地总结一下大模型时代我们实现了：

知识唾手可得，创意即刻涌现；
技能随时召唤，智力供给无限；
身份随意切换，表达交流无碍。

如果说之前人类发明的是工具，那么今天发明的大模型更像是个万能助手，用或不用，有人说它一定会产生更大的数字鸿沟。我觉得是有道理的，甚至可以把我们之前的二八原则，也就是 20% 和 80% 变成 2% 和 98%，但上面的例子也恰恰能够说明，我们是通过最新的技术，通过AI技术，可以把普通人变成艺术家，变成设计师，变成一个有秘书的老板。

大模型的横空出世将各种能力变成了一种随时随地可调用的服务，看似是 Model as Service （模型即服务），但仔细想想，这背后本质其实更像是 Intelligence as Service（智力即服务）。之前很多人讲过 AI as Service。但在这一轮浪潮中，把 AI 变成 I，可能恰恰是这一波人工智能真正变革的本质。

未来更强的人工智能的实现不一定是 Transformer，甚至也不一定非得是大模型，但通过云端去提供类人甚至超人的智力，可能才是真正的趋势和本质。

在讨论了这一轮人工智能是人类智能被无限供给甚至有可能被取代后，下一个问题自然就是，大规模的失业到底会不会到来？

在《底特律：变人》还有《赛博朋克 2077》这样的科幻和游戏作品里也有类似问题的呈现。这个问题其实是一个非常古老的问题，在每一次人类的技术变革中都发生过，都被广泛讨论过。比如内燃机发明出来之后，马车夫做什么？再比如电话发明了之后，电报员，甚至电话接线员可能也没有事情做了。

近现代的人，如果以 75 到 80 岁作为平均的预测寿命来看的话，其实几乎所有人都会在自己生命的某个阶段，赶上过一次甚至几次的技术革命。

回顾过往技术革命，劳动者在技术变革中的出路其实一半在技术身上，一半在我们自己身上。那么这一次，应该说一半在 AI 技术上，另一半也需要我们自己的努力。

为什么这么说呢？在 AI 身上的那部分是，当 AI 出现之后它到底会如何影响到我们社会生产的方方面面。另一半则是，当我们预见到技术会对我们的社会产生一系列变革的时候，我们应当怎样从自身去出发，去看看自己怎样能够在变化后的世界找到一个更合适的位置。

比如从现在来看，今年肯定很多人都尝试将大模型融入到自己的工作中了，包括我在腾讯研究院也鼓励我们的研究员多在日常工作中使用 AI 工具，而且还给大家说智库和咨询行业如果不会用大模型，被淘汰只是时间问题。

但现阶段我们会发现它可能还无法替代我们研究员的所有工作，而是帮助我们去做了一些日常大家不太爱做的琐碎的工作——比如资料搜集和索引，研究结论出来了，但是还要为报告生成个务虚的开头或结尾，或者给长篇累牍的文字加上切题的图片。还有大家可能平常最不喜欢的写周报，但是周报对于内部的信息同步又很重要，包括会议记录，目前都可以交给 AI 比较好地完成。

如果你是腾讯会议的忠实用户，你可能已经体验过，腾讯会议在近期接入了基于混元大模型开发的AI 助手，能够帮助你用问答的方式与会议去做互动。

比如，你入会晚了半个小时，你可以问它刚刚会议里都说了些什么，哪些是和我有关的。再比如，你可以问它具体某个参会的人在会上提出了什么观点，其他人是如何回应的。这个时候你会发现你不用再去翻阅速记或者回看录像，它都可以给你很直接的答案。

这些能力的背后其实就是我们腾讯的混元大模型，为了长期的自主可控，我们选择了一条更难的研发路，即全链路自研的路线，从零开始训练大模型，训练语料从300G 的 Token 发展到现在2.8T 的Token，模型质量提升的速度还是非常快的。目前，混元已经接入了数百个腾讯的产品和业务场景中，确实会让我们使用者的工作效率大幅度提升。

在美国去年技术圈也有一个很有意思的例子，一家技术公司准备招聘 1 名码农，有 2 名程序员来应聘：一个是拥有 4 年开发经验的程序员，另一个是拥有19年开发经验的程序员。两人被要求同时开发同一个产品原型，一周后交作业，只有 4 年经验的那个人居然完成了95% 的开发，而有19年经验的那个人只完成了 7%。原因就是前者有 AI 的助力，而后者没有。站在4年开发经验的人的角度讲，我们会说他被 AI 赋能了。但从19年开发经验的工程师的角度讲，是不是意味者他一定会被淘汰呢？

其实不是，因为如果他也用大语言模型来辅助编程，那么肯定他会比那个4 年经验的人做得更好，因为他可以不用再做那些繁琐的基础编码工作了，而是更专注于思考在构架、效率、稳定性、创意这些框架下的东西上，怎么把这个产品原型做得更好。而这些能力可能是那个4 年开发者经验的人，凭借现有能力的大语言模型辅助也做不到的。

这样说来，目前AI替换掉的可能是我们不想做的那个部分的工作，并且赋予了每个人一些原本所没有的能力，让他们能够专注在自己更擅长的那件事上。

但不得不说，确实有些岗位可能会被AI所彻底取代，比如以前的高速公路全是人工收费，在ETC普及之后，大家可以直接摄像头照车牌，再通过微信支付自动扣费，那显然就不需要那么多的公路收费员。

随着 L3 自动驾驶牌照近期在国内的开放，L4 和 L5 等级的完全自动驾驶技术还是有可能会到来的。那么到了那个时候，我们就会比较悲观地认为，网约车、出租车，或者说司机本身这个职业可能会是一个非常危险的岗位。

那么回看历史，一种职业彻底被消灭有没有？消灭了之后会怎么样？这个事情其实以前也发生过。那有没有解决方案呢？

我在这里也想卖个关子，在我们本次科技向善创新节上有另一位嘉宾，德国耶拿大学产业、工作与经济社会学博士许辉，他也会做一个关于这个主题的分享。他在过去多年就是做这方面的研究，并且我跟他初步交流，他在结论上还是相对乐观的，大家有兴趣的话可以关注下。

科幻作品里对“AI 向善”想象的一个范本，就是《WALL-E》《机器人总动员》。

我们现在看《机器人总动员》这部 2008 年的皮克斯动画，会发现 15 年前那个时间点我们其实对 AI 还是有非常美好的想象的，就是一个勤勤恳恳的回收机器人，在坚持上百年的辛勤工作，希望通过它的力量把环境被破坏的地球恢复成人类可以生存的样子，并希望能把人类带回地球这个家园。

《机器人总动员》背后其实探讨了一个更为关键或者更为深层的问题，就是机器人背后的技术本质到底是什么？著名的经济学家布莱恩·阿瑟曾在他的《技术的本质》这本书里提到一种模型，即技术不是工具或机器，而是一种捕获现象并组合加以利用的过程。

我们可以拿人类发明“空调”的过程来理解技术的本质，也就是如何去诠释“捕获现象并组合加以利用”。

空调的发明过程，要首先建立在我们对“相变”这一现象的理解基础上。科学家们首先发现了物质在从液态转化成气态，也就是蒸发的时候会吸热，冷凝也就是气态转化成液态的时候会放热。材料科学家们又在不同时期，发现了不同材料在相变时吸收与释放热量的性能是不同的。最终，我们才能够构建一个系统，把两个现象分别放在室内和室外，从而最终实现让屋内的空气冷下来，屋外的空气热起来的热交换。

我们会发现，现在 AI 其实已经不止能够生成文字、图片和声音了，甚至还可以进行新的技术发现，甚至是发明。

2023 年末，Google 旗下的人工智能公司 DeepMind 开发了一个名为材料探索图谱网络（GNoME）的机器学习工具，能够预测新的化学结构。他们使用现有的化学结构库，预测出了220万个全新的晶体结构。为了验证这个机器的预测，他们还合作进行了实验，并成功合成了其中 41 种晶体，也就是说把预测变成了现实中的一个晶体。DeepMind 公开了这些稳定结构中的 38.1 万个，其中包括可能具有超导结构或者说用于电池的一些晶体。显然这个项目的意义在于，它让研究人员对已知的候选材料有了数十倍的增加，大大加速了材料科学的发展。

显然，AI的这种进步，会帮助我们拓展人类文明的边界。举两个简单的例子，说明AI 如何帮助我们向内和向外太空探索。

第一个是人类基因测序，这件事在计算机介入之前，或者说 AI 介入之前是一件至少以年为单位的工作量，费时费力。但在2000年后，随着计算机和算法的介入，它所需的时长迅速变短。2022年，斯坦福大学研究团队把人类 DNA 测序的时间缩短至 5小时2分钟，重新定义了人类基因组测序速度。

第二个是探索外太空，腾讯优图实验室从 2020 年开始，与国家天文台和复旦大学计算机科学技术学院达成合作，利用 AI 帮助“中国天眼”FAST 处理每天接收到的海量数据。我去天眼现场看过，在经过调试之后，在优图技术的加持下，FAST 数据的处理速度比以前提升了120 倍，也就是过去人工需要处理一年的工作，可能AI不到3天就能完成，而且误报率的下降可以达到惊人的 98%。

这些成果可能并不像聊天机器人那样，让我们每个普通人都能在日常生活中实实际际地感受到。但它确确实实地在发生，推动着人类福祉的不断提升。我个人认为，AI 的发展至少到目前为止，并且在将来很长一段时间里对我们的社会带来的好处是远远大于它的坏处的。

但我们并不能因此盲目乐观。在技术研发和应用过程中，我们还需要不断地提出问题和隐患，不断地对行业、公司、技术和社会发出灵魂拷问，去警惕可能存在的问题，去修复已经出现的问题。只有这样，我们才能走到一个更加具有确定性的美好的未来。

作为定位于科技和人文交叉领域的行业智库，腾讯研究院成立的初衷，就是为了关注数字技术对行业和社会带来的广泛影响，特别是如何化解数字技术带来的负面作用，让它更好地造福社会。

2011年，作为研究院的前身，行业第一家互联网法律研究中心，正是聚焦互联网对当下法律制度的冲击和挑战而成立的。2014年，在法律研究中心的基础上我们组建了腾讯研究院，先后获批了博士后科研工作站及国家版权局、文旅部授牌研究基地，同时入选了中宣部出版智库，逐步形成了目前法律与政策、产业与数字经济、科技伦理与数字社会、宏观经济与金融等四大核心研究版块。

腾讯研究院成立十年来，一直致力于推动公司、行业和社会各界的对话交流。我们不仅关注技术的发展趋势，更关注技术背后的制度、社会和伦理问题。我们的目标是促进技术的发展，带来更加广泛而普惠的影响，同时避免技术造成新的不平等或其他社会问题。这是我们在2017年提出“科技向善”理念的初心，也是一直以来指引我们从事研究、交流、实践的座右铭。

独行快，众行远。科技向善创新节，正是寻找同行之人，凝集各界对科技向善的思考和共识的平台。在生成式 AI 一日千里的今天，唯有携手共创，我们才有可能共同打造一个真正的AI普惠的美好未来。

在当下这个时间点，腾讯研究院希望再次发起人工智能与社会AI&Society百人百问这样一个项目。我们希望通过这个平台，聚集来自不同领域的专家学者、行业领袖以及公众，共同探讨和思考人工智能在下一阶段社会发展中的角色、挑战和机遇。我们的目标是一起构建一个更加公正、健康的数字生态，让AI技术真正成为推动社会进步和人类福祉的力量。

要实现这个积极的未来，需要我们每一个人的参与和努力。我们诚挚地邀请每一位朋友，与我们一起提出有价值的问题，探寻正确的答案，推动共同的行动。确保 AI 技术的发展不仅是技术上的进步，更是社会、文化乃至整个人类文明的进步。

No.65

相变：下个时代的前情提要

▲ 返回顶部