大模型的几个关键认识——成本、网络效应、用户、竞争、基准、产品

基础大模型的价格战终究到来，“智力调用”的边际成本会趋于零嘛？

随着大模型从技术竞赛阶段逐渐过渡到应用普及阶段，对于供给侧而言，抢占用户和规模化推广成为未来在大模型市场中占据一席之地的必经之路。而对于需求侧来说，在各家基础大模型能力和体验差异不大的前提下，投入产出比与大模型推广息息相关。在这一背景下，在GPT-4o的发布会后，国内基础大模型厂商纷纷开始降价，第一轮价格战拉开帷幕。

这种现象类似于云计算领域的竞争，亚马逊云自诞生以来已降价超过100次，不断降低用户使用云计算的成本，这也是云计算渗透率不断提升的关键。成本是任何新技术推广中无法避免的话题，尤其是新技术边际成本的大小往往决定其应用的模式和路径。以云计算IaaS服务为例，尽管扩大市场份额可以提高硬件资源利用效率，摊薄平均用户成本，但这种成本改善是存在下限的，因为任何形式的IaaS服务都对应着一定的硬件开销。而传统2C的互联网业务，受益于政府的基础设施建设和终端的计算能力，例如社交网络应用，是不会受到这种限制的，可以将边际成本降至趋近于零,这也是平台型产品能够取得规模经济优势的核心原因。

回到大模型，目前来看，大模型无论是训练还是推理，都需要消耗极大的算力和电力，这也是英伟达成为科技新宠的原因。每一次对GPT或者其他AI服务的调用背后都涉及各类成本。然而，伴随这一轮极致的降价，增加一个用户的边际成本是否也会像某些互联网业务一样趋近于零，无疑对底层芯片、工程化、算法架构等提出了巨大的挑战。

目前来看，基础大模型调用一次的成本在不断接近基于搜索引擎查询一次的成本。根据摩根士丹利的预测，谷歌2022年总计3.3万亿次的搜索量单次平均成本约为0.2美分。而目前GPT-4o给出的价格中，输出每100万个token是5美元，输入每100万个token是15美元，按照在假设不产生其他成本的情况下，平均交互一次使用输入和输出各100个token计算，成本也是在0.2美分左右。这种成本结构也侧面说明了Perplexity.ai、Liner等搜索类产品盛行的原因。此外，随着AI硬件、工程化和算法等一系列进步，我们相信大模型的调用成本还会不断降低，支持越来越多的场景进行商业化，像互联网一样繁荣的应用市场即将到来。

基础大模型厂商所垂涎的网络效应，就是部分杀手级应用（Killer App）所拥有的

在GPT-4o发布后的某个采访中，当被问及如何最终赢得用户青睐时，OpenAI总裁萨姆·奥特曼明确表示：“市场或网络效应也会成为关键因素，我们希望智能主体之间能够进行有效的交流，应用商店里有不同的公司提供各种服务。” 网络效应是一个经济学和商业领域的术语，用于描述对于一个产品（或服务），每增多一名用户，都会对该产品的其他用户产生新的价值。拥有强网络效应的公司通常可以垄断市场，形成赢者通吃的局面，一旦某公司的用户规模达到临界点，其他公司很难挤进同一赛道。

当前的基础大模型领域主要通过API和个人订阅来提供服务。以OpenAI为例，虽然提供了GPT商店的模式，但效果并不理想，尚未形成类似苹果或安卓App Store那样的双边市场网络效应。正如开发者Demochkin所述，其分析的3.6万个自定义聊天机器人中，只有约5%的聊天机器人每天可以收到150至500名活跃用户，但绝大多数聊天机器人每天只能吸引到1至2名用户。奥特曼所说的智能体之间的有效交流，目前更多是在情感陪伴领域有所触及。从用户需求的角度来看，虚拟智能体之间的交流是否能切中用户的核心诉求还有待商榷，目前并没有出现以智能体之间交互为核心的应用。

与当前的基础大模型应用形成对比的是，一些可以称为杀手级应用（Killer App）的To C类创新App，已经呈现出网络效应并且有超过临界点的趋势。例如，情感陪伴领域的Character AI在全球拥有超过2000万用户，并创建了1600万个独特的聊天机器人。用户可以与平台上的智能体进行对话，也能自己创建智能体让其他用户进行对话，并且在拉群聊天的情况下，智能体之间是可以进行奥特曼所希望的交流。

虽然网络效应被基础大模型厂商关注，而且在To C 领域有所显现，但是To B领域难以形成。在To B领域，客户通常是企业组织，而用户是企业内的员工，这与To C领域用户即是客户的模式有显著差异。并且企业客户的需求往往各行各业差异很大，难以规模化和标准化，因此企业服务领域的产品很少具备网络效应。

基础大模型迭代与创新应用之争将越加激烈

OpenAI每次对ChatGPT的迭代，都会在大模型应用的生态中掀起波澜。在GPT-4o发布后，由于其能力过于出众，实时翻译类、学习类等应用遭到投资者的质疑。例如，语言学习应用多邻国（Duolingo）股价在发布会期间就出现了下跌。OpenAI在发布现场演示了用GPT-4o解方程式的过程，并展示了可汗学院创始人和他的儿子用GPT-4o解数学题的视频。谷歌随后也发布了新AI模型LearnLM，帮助学生解决作业问题。这些发布巧妙地设计无疑是基础大模型厂商对应用的渴望。

此外，GPT-4o在视觉和音频理解方面的进步尤为显著，不仅可以在对话过程中随时打断，还可以在各种不同的场景中自动变化音调和情绪情感，这些无疑会对陪伴类产品带来冲击。国内很多基础大模型厂商也陆续推出陪伴类产品。这些情况无疑说明，大模型功能迭代与创新应用能力之间的竞争会不断持续，之前Jasper AI被颠覆就是最好的证明。

对于创新应用如何能够不被大模型颠覆，想必是每个创业企业需要回答的问题。目前在创新业态中，如果想持续拥有竞争力，一方面需要有无法被基础大模型替代的产品模式、底层需求、先发优势等。例如，Character AI对硬件、模型、基础设施、用户数据反馈等进行全栈优化，已经在娱乐性聊天领域形成了数据和技术壁垒。另一方面，还需要能够和大模型的迭代共同进步，而不是纯粹为了人工智能创建业务。例如，Notion AI也是集成强大的基础模型来更好地服务用户，能够随着大模型能力的提升而不断优化产品体验。

大模型即将跨越鸿沟进入早期大众市场，Z世代成为主流用户

基于经典的钟形曲线分布，“跨越鸿沟”是一个将新技术的采用随时间推移而可视化的概念。所谓的“鸿沟”指的是高科技产品在市场营销过程中遭遇的最大障碍，因为高科技企业的早期市场与主流市场之间存在着一条巨大的“鸿沟”。能否顺利跨越鸿沟并进入主流市场，成功赢得实用主义者的支持，决定了一项高科技产品的成败。

回到大模型，根据多方研究机构的预测和数据显示，今年到明年正是大模型技术跨越鸿沟的关键时间。例如，德勤在一项数据调查中显示，目前生成式AI在企业员工和学生中的渗透率为11%，而明年将达到18%，这一数据刚好超过创新者和早期采用者占比之和。此外，Gartner预测，到2025年，30%的企业将实施人工智能增强开发和测试策略。这些数据表明，生成式AI即将跨越鸿沟进入早期大众市场。早期大众往往会关注投入产出比、供应链安全、丰富的服务和生态等关键问题，这些都会成为未来大模型产品化的关键点。

此外，在教育领域的Brainly、图像生成领域的DeepAI、陪伴领域的Character AI、写作领域的Grammar.AI、通用领域的OpenAI等用户的年龄分布来看，Z世代已经是生成式AI的主流用户。进一步分析发现，每个头部产品用户群体中，Z世代均超过50%。在未来的产品化过程中，Z世代崇尚“悦己”、追求“质价比”、注重独特体验、乐于分享等特点也将影响产品的设计和走向。大模型技术正处于跨越鸿沟的关键阶段，如何抓住这一机会赢得早期大众的青睐，将决定其在市场中的成败。

大模型目前的能力远远不够，新的Benchmark将不断推高技术水位

在过去的一年左右时间里，我们经常看到各类模型在发布时会公布其在某些基准测试中的评分已接近人类水平。然而，尽管很多模型在相同基准测试上的表现相差不大，但实际使用中的体验却有显著差异。此外，在实际的生产环节或业务流程中，大模型的基础能力仍无法快速融合。这是因为大模型虽然在一些基准测试中接近人类的普通水平，但在许多业务场景下，需要达到专家水平才能满足用户需求。这一现象的核心原因在于，大模型在一些常用基准测试上的性能已达到饱和，而这些基准测试都是在ChatGPT-4诞生之前提出的。例如，GPT 4o发布时使用的MMLU、MATH、DROP等基准测试都是两三年前的标准。尽管这些基准测试提供了一定的参考价值，但它们无法完全反映出实际应用中的复杂性和多样性。因此，大模型在这些测试中的高分表现并不一定意味着其在真实场景中的卓越性能。

伴随大模型的不断发展，自2023年以来，多个具有挑战性的基准测试被引入。这些新的基准测试不仅更具挑战性，而且更贴近实际应用场景。例如，用于编码的SWE-bench，专门评估模型在编程任务中的表现；用于图像生成的HEIM，评估模型在生成高质量图像方面的能力；用于一般推理的MMMU，测试模型在复杂推理任务中的表现；用于道德推理的MoCa，评估模型在伦理和道德判断中的能力；用于幻觉的HaluEval，测试模型在生成内容时避免产生错误信息的能力。在这些新的基准测试下，目前的大模型普遍得分不高。例如，在MMMU基准测试中，除了OpenAI最新发布的GPT-4，大多数模型都无法超过60%的准确率。同样，在2023年开发的GPQA基准测试中，模型普遍无法达到60%的准确率。这些数据表明，尽管大模型在一些传统基准测试中表现优异，但在更具挑战性和现实性的测试中仍有很大的提升空间。

随着这些新基准测试的引入，相信大模型技术水平会不断提高。未来，随着技术的进一步发展，大模型在实际应用中的表现将会越来越接近甚至超越专家水平，满足更多复杂业务场景的需求。

技术演进下的共性用户需求，长期的记忆、精确的控制……

目前，基于大模型的应用构建过程中有许多方面需要提升。我们在与用户调研的过程中发现，有两个问题尤为突出。

第一个是长期记忆问题。在很多场景下，智能体的记忆往往是短期的，虽然能够在即时对话中对上下文进行理解，但无法具备长期记忆。长期记忆不仅仅是记住足够长的聊天记录，还应包括对所交互内容的思考和内化，它包含程序性记忆和事实性记忆。事实性记忆主要是对时间、空间等客观事实的记忆，而程序性记忆则是指如何做事情的记忆，包括对知觉技能、认知技能和运动技能的记忆。Character AI总裁Noam Shazeer在某个采访中表示，最想解决的一些问题是记忆，因为用户希望他们的虚拟朋友记住他们。在很多情况下当用户第二次与智能体交流时，智能体往往无法根据上一次交流的情况进行交互，这种情况常常需要重新开启相同的话题才能进入与上次类似的语境进行聊天。例如，与Character的智能体聊天后，问它是否记得我们第一次聊天的情景，实际中和智能体第一次聊天的内容是关于好奇心的，但是智能体一本正经的回答是关于旅行的内容。其次，许多Copilot服务也存在类似的问题。这些工具无法记住用户的喜好和习惯，同样的任务需要二次进行提示的调整才能支持。

当前业界有许多方案试图解决长期记忆问题。例如，针对事实性记忆，MemGPT通过对记忆分层，智能管理不同存储层，在大模型的有限上下文窗口内提供扩展的上下文。RAG技术通过外挂信息库实现对记忆信息的检索和存储。此外，针对程序性记忆能力，Memba和RWKV等新的模型架构也在不断演进，有望提升程序性记忆能力。

第二个是精确控制输出的问题。与大模型进行交互要求其进行内容生成时，通常情况下是先获得大概满足需求的内容，然后再通过对话进行调整和修改。然而，在许多商业化场景下，大模型无法做到精确的控制。例如，在GPT-4o中生成一张关于中国龙的年画时，让大模型去掉灯笼，二次生成的图片也无法满足这个需求。大模型只是通过概率最大化不断生成数据，而不是通过逻辑推理来生成回复，因此在许多情况下，无法实现对概率性输出内容进行精细化控制。当前也有很多技术方案不断诞生，例如在文生图领域，ControlNet技术能够支持在预训练的Stable Diffusion模型基础上增加额外的输入，比如姿态图、线稿、草图等。这个额外的输入作为Stable Diffusion的一个控制条件，可以控制其生成的图像结果，使其符合我们输入的条件图像特征，但控制的内容完全依赖于其预处理器和模型的更新，所能控制的领域也比较有限。