腾讯研究院大模型研究课题组
前言
通用大模型技术快速发展,但很多传统行业推进得并不快。对企业而言,大模型应用需要综合考虑专业性、数据安全、持续迭代和综合成本等多种因素。针对这些现实情况,腾讯集团提出重点发展行业大模型的理念。本文基于一线大量实践反馈,做出系统归纳总结,呈现行业大模型发展真实情况,厘清关键争议和困惑问题。真正解决用户需求、距离场景和数据更近的企业,将拥有大模型的未来。
行业大模型弥合技术与需求差距
1. 大模型引发智能革命
2022年11月30日,OpenAI发布大语言模型(LLM,Large Language Model)ChatGPT,其用户数迅速增长,成为史上发展最快的应用。ChatGPT的爆火揭开了人工智能(AI,Artificial Intelligence)大模型时代的序幕,也预示着AI迈向通用人工智能(AGI, Artificial General Intelligence)的新阶段。目前业界对大模型没有形成明确统一的定义,狭义上可指大语言模型,基于Transformer技术框架;广义上包含了语言、声音、图像、视频等多模态大模型,技术框架也涵盖稳定扩散模型(Stable Diffusion)等。
在大模型出现之前,人工智能通常需要针对特定任务和场景设计专门的算法模型,执行的也是训练数据范围内的单一任务。大模型的突破,关键在于展现出了类人的通用智能“涌现”能力,能够学习多个领域知识、处理多种任务,因此也被称为通用大模型。大模型具备诸多特点。
第一,参数规模大。大模型参数规模远大于传统深度学习模型,呈现规模定律(Scaling Law)特征,即模型性能与模型规模、数据集大小和训练用的计算量之间存在幂律关系,性能随三个因素的指数增加而提高,通俗而言就是大力出奇迹。不过“大”并没有绝对标准。传统模型参数量通常在数万至数亿之间,大模型的参数量则至少在亿级,并已发展到过万亿级。
第二,泛化能力强。大模型能够有效处理多种未见过的数据或新任务。基于注意力机制,通过在大规模、多样化的无标注数据集上进行预训练,大模型能够学习掌握丰富的通用知识和方法,从而在广泛的场景和任务中使用。大模型不需要或者仅需少量特定任务的数据样本,即可显著提高在新任务上的表现能力。
第三,支持多模态。大模型可以实现多种模态数据的高效处理。传统深度学习模型大多只能处理单一数据类型(文本、语音或图像),大模型则可以通过扩展编/解码器、交叉注意力、迁移学习等方式,实现跨模态数据的关联理解、检索和生成。多模态大模型(LMMs,Large Multimodal Models)能够提供更加全面的认知能力和丰富的交互体验,拓宽AI处理复杂任务的应用范围,成为业界探索迈向通用人工智能的重要路径之一。
2. 行业大模型是AI+落地最后一公里
规模定律驱动通用大模型性能不断提升,同时也产生了“不可能三角”问题:专业性、泛化性和经济性三方面很难兼得。
第一,专业性指大模型处理特定领域问题或任务的准确性与效率。专业性要求越高,越需要针对特定领域数据进行训练,可能造成模型过拟合而降低泛化能力。此外,增加的数据收集和训练也会增加成本、降低经济性。
第二,泛化性指大模型处理训练数据集之外新样本的表现能力。大模型泛化性要求越高,越需要多样化的大规模训练数据集、模型参数量也越多,这意味着模型训练和使用成本的增加、经济性降低,同时可能降低模型对特定问题处理的专业能力。
第三,经济性指大模型训练和应用的投入产出比。大模型经济性要求越高,越需要消耗更少的算力资源与成本,满足性能需要,然而降低资源消耗基本上需要采用更小的模型或更少的参数,这又会降低模型的性能表现。通用大模型以发展通识能力为主要目标,更侧重泛化性,在专业性和经济性方面很难充分满足具体行业的特定需求,存在“有幻觉、成本高”等情况。
行业机构采用大模型还有两个关键考量因素:竞争和安全。将数据转化为竞争力是核心驱动。为有效提升竞争力,机构会尽力寻找性能最佳的模型,并利用行业专业数据或私有数据的独特资源,对模型进行定制调整和优化。目前GPT-4等市场头部通用大模型多为闭源,通过网页、APP应用服务大众用户,或以API标准化调用的方式服务开发者,可定制化调整的空间较小。第二,保障安全可控是底线要求。大模型不仅涉及机构私有数据的调用,还会与机构业务、流程结合,这使得大模型使用越深、越需要重视安全可控。通用大模型通常基于公有云提供服务,会造成机构对私有数据、敏感数据安全的担忧。
通用大模型与行业/机构具体需求间存在差距,行业大模型以其诸多优势(见图1),成为弥合差距的必然产物,有效支持各行各业加速落地大模型应用。
一是高性价比,行业大模型能在较小参数量模型基础上,通过相对低成本地再训练或精调,达到较好性能效果。十亿〜百亿级参数量的行业大模型是目前主流选择,相比通用大模型动辄千亿级以上的参数量能明显节省开发成本。
二是可专业定制,行业大模型可基于开源模型开发,能对模型结构、参数等按需调整,更好地适配个性化应用需要。通过模型即服务(MaaS,Model as a Service,见图2)方式,机构可以从平台对接的多种模型中快速选择合适产品,包括厂商已开发的行业大模型初始版本。
三是数据安全可控,行业大模型可采用私有化部署方式,使机构能更放心地利用私有数据提升应用效果,减少数据安全疑虑。
3. 行业大模型长在通用大模型上
行业大模型是与通用大模型相对的概念。通用大模型侧重发展通识能力,行业大模型则侧重发展专业能力。从行业实践看,行业大模型不仅指开发一个行业专用的模型本身,更多还包括基于通用大模型调整和开发的行业应用。因此,广义上行业大模型可以归纳为:利用大模型技术,针对特定数据和任务进行训练或优化,形成具备专用知识与能力的大模型及应用。此外,国际上更多用垂直模型(Vertical Model)或垂直人工智能(Vertical AI)来表示,国内还有垂类模型、领域模型、专属模型等称谓。
行业大模型大多在通用大模型基础上构建。通用大模型具备丰富的知识和强大的泛化能力,不仅能为行业大模型提供广泛的知识基础并提升交互体验,还能显著节约从头训练模型所需的大量数据和算力资源,大幅提升行业大模型开发及应用的效率和效果。通过对通用大模型进行提示工程、检索增强生成、精调、继续预训练/后训练等方式,模型能够更好地处理特定数据或任务,从而生成行业大模型版本(模型有变)或具备行业大模型的功能(模型不变)。今天市场上的很多行业大模型,如金融、法律、教育、传媒、文旅等,大多是在Llama、SD、GLM、Baichuan等国内外主流开源大模型基础上构建(见图3)。
行业大模型的本质是解决方案,通常需要针对特定数据和任务进行定制开发或调整,面向B端客户,每个客户都有独特的业务、数据、流程等,需要用大模型解决的具体问题也存在个性化需求。因此,厂商提供的行业大模型不仅是产品和工具,更需要有定制服务与支持,甚至需要客户参与共建。可以这样理解,行业大模型中的产品通常是“毛坯房”,客户需要根据自身用途进行“装修”才能满足需要。
大模型行业应用进展与评估
不同行业大模型技术落地进度各异,这种差异主要由大模型技术的成熟度、行业数字化水平、投入产出比、行业对专业性和准确性的要求以及安全可控等因素决定。
1. 行业大模型应用阶段划分
参考埃弗雷特·罗杰斯《创新的扩散》一书对创新阶段的界定,本文从技术发展和市场渗透两个维度构建视图,结合一线调研数据,综合评估、定位各行业在2024年年初的位置,以便对不同行业采纳大模型的进程做比较。结果显示,目前行业在大模型技术的采用上主要集中在两个阶段,即探索孵化期与试验加速期。部分行业已经步入采纳成长期,尚未有行业达到落地成熟期。
阶段一为探索孵化期,以农业和能源等行业为代表。行业中尝试采用大模型的机构数量较少,但仍有一些头部或创新意识强的机构积极探索。机构推进市场应用的关键在于证明技术的可行性和实用性,并能解决行业特有挑战,面临较高风险和不确定性,同时有机会引领市场。
阶段二为试验加速期,以教育、金融、游戏与出行为代表。行业普遍具备相对良好的数据基础,探索应用大模型的机构数量快速增长,开始在特定应用场景产生经济价值。机构关注技术如何解决实际问题,如金融量化策略的胜率、游戏设计的降本增效等。成功案例是此阶段的风向标,实用效益能够吸引更多参与者加入。
阶段三为采纳成长期,以广告与软件行业为代表。行业中的主流机构已普遍采纳并使用大模型。由于与大模型基础能力高度匹配,目前在广告以及软件行业(包括各类互联网应用),文案生成、文生图、代码生成与数据分析等能力,已经在不少机构被大量使用。继续扩大市场的关键在于进一步优化技术应用,提升用户体验和效率,同时降低成本。
阶段四为落地成熟期,目前还没有行业达成。此阶段意味着大模型技术应用基本成熟,绝大多数机构已在主要生产运营场景中使用,并与供应商之间建立了稳定的商业合作关系。目前大模型技术还远未到成熟阶段,行业应用的成熟需要更长时间。大模型的稳定性、可解释性、插件调用的可靠性等,都是行业应用步入成熟期的必要前提。
2. 行业大模型应用场景分析
调研发现,多个行业都已经开始探索大模型技术在各生产环节的应用落地,具体涉及研发/设计、生产/制造、市场/销售、客户服务、经营管理等环节。
各行业横向对比,本文从大模型应用进展快慢的角度进一步阐述具体应用场景。数字原生行业是大模型应用的先行者。互联网、游戏等数字原生行业,由于数字化程度高、数据积累丰富、技术接受能力强,成为大模型落地较快的行业。这些行业的大模型应用场景广泛,覆盖了营销、客服、内容生成等诸多环节,目前已积累了相对丰富和成熟的实践。生产性服务业成为传统行业结合大模型的示范区。金融、广告、软件等生产性服务业,因其产品和业务的非实物属性,在客户服务和数据处理等方面有强需求,比较适配当前大模型技术能力,推进较快。
例如,金融机构利用大模型增强服务的广度和精度,实现营销、风控、投研等环节的赋能提效。这些行业的大模型实践正加速走向成熟,并向场景纵深探索。重资产行业在大模型应用上处于局部探索阶段。能源/电力、建筑、制造业等行业,大模型应用推进相对较慢,主要受限于线下生产流程的复杂性和高度的专业化,这些行业的核心环节在生产运营,需要在通用大模型能力基础上,进一步深度整合行业专业知识,同时避免幻觉问题,确保准确性和安全,还需更长期、渐进的过程。如制造业需要将大模型与工业互联网、数字孪生等基础设施及专业数据深度结合,在工艺优化、质量管控、设备维护等核心领域发挥更大价值。整体而言,影响行业应用大模型速度的两个关键因素是:数据可得性,高质量数据越容易获取、进展越快;需求适配度,行业核心业务与大模型创意生成和交互能力越匹配、进展越快。
深入行业纵向环节看,当前大模型技术渗透呈现出类似产业微笑曲线的特征,即在产业链高附加价值的两端(研发/设计和营销/服务),大模型应用落地较快,而在低附加价值中部(生产、组装等),大模型应用进程较慢。究其原因,大模型技术所带来的智力即服务的范式变化,特别适配微笑曲线两端、知识密集型和服务密集型领域,对人的能力提升乃至部分替代效果显著,可以认为掀起了脑力劳动大规模工业化、自动化的新篇章。
营销/服务环节进展最快,跨行业通用性强是重要原因。在产业链下游的营销与服务环节,基于机构自有知识库的内容生成与智能对话,能使营销和服务活动效率和体验得到显著提升,成为各行业尝试应用大模型的先行领域。营销和服务大多直接面向C端用户,跨行业通用性强,能够充分利用通用大模型的基础能力和通用的营销、服务知识,快速开发和调试出适配机构需要的应用。
研发/设计环节结合最深,高质量专业数据集决定进程。在产业链上游的设计研发环节,大模型对海量知识的高效学习、推理和生成能力,不仅能够大幅提升文案、影像、代码等内容创意的生成效率,还适用于生物、环境、材料等涉及海量科研数据处理的科学计算领域。是否具备高质量的专业数据集,决定了不同行业、领域在这个环节进程的快慢。文案、影像、代码等拥有大量基于互联网的开放、开源数据集,因此这些领域进展最快;有高质量、大规模开放数据集的科研领域进展也较快,如DeepMind开发的AlphaFold,能够仅凭氨基酸预测蛋白质3D结构,大幅提升了蛋白质研究进程,其成功背后有赖于采用了开放数据集进行预训练;工业研发/设计方面,芯片、汽车等领域也已出现用大模型辅助设计生成的应用,但这些领域多涉及强商业竞争,高质量的开放数据集很难获取,需要更多投入,实用进展相对慢。
生产/制造环节进展相对慢,对人的辅助增强是目前主要结合点。处于产业链中间的生产制造环节,往往涉及对机器等各类实体的操作,需要人与设备、工艺、系统的适配,环节多、流程复杂,对安全性、准确性和稳定性要求高。目前大模型的能力主要体现在自然语言和图像处理上,并不直接适用于生产制造环节复杂的数值计算、时序分析和实时决策等场景,往往需要针对性采集专业数据集进行专门的模型训练和开发,因此结合进展相对慢。从目前行业实践看,大模型在生产制造领域的应用侧重在对人的辅助增强,以Copilot(机器人助手)为主要形态,结合工业软件在工业仿真、生产监控、故障排查等环节辅助人提升处理能力。
虽然不同行业与大模型结合的进展和侧重点存在差异,但对大模型的优势和发展方向存在共识与需求,总体有三个方面。
一是内容生成与创意设计。主要运用大模型展现出的生成能力,包括文本生成、图像生成及代码、表格等泛文本生成能力,结合特定行业、场景数据,支持内容生成和创意设计。
二是信息提炼与专业辅助。主要运用大模型的摘要、规划等能力,针对特定行业、场景数据,辅助人进行专业知识的提炼、分析和加工。结合检索增强生成等技术,许多行业通过对话机器人实现此类助手型应用,覆盖研发设计、生产制造、营销服务等多环节。
三是任务调度与智能交互。行业对大模型的需求,更多还体现对其代理能力(Agent)的期待,希望大模型能与其他应用,甚至与现实世界的机器和设备等连通,在更广泛的范围协助进行任务调度和问题解决。这涉及实时数据处理、自动化控制、环境感知和决策支持等,对模型的响应速度、准确度和自适应性提出了更高要求,需要大模型插件生态、大模型与小模型的结合等顺利发展。
3. 行业大模型评估标准
随着大模型的发展及在行业中应用的推进,越来越多行业机构开始关心行业大模型做成什么样才算成功。该问题也是当前业界普遍面临的挑战。大模型整体还处于发展早期阶段,一方面技术快速迭代蕴含了巨大创新价值,另一方面在规模定律驱动下算力等投入还呈现指数级增长态势。许多行业机构几乎不知道从何入手,更不用说有充分的应用经验来衡量成功,然而如果缺乏衡量标准和办法,又很难充分投入技术创新和应用,容易陷入决策困境。
基于对多方的实践调研,结合国际前沿相关探索,本文尝试总结构建出当前衡量行业大模型应用成功的2-3-1原则:避免两个误区,评估三类价值,构建一个模式。
避免两个误区。一是将技术指标当作证明大模型成功的标准。一些机构会将注意力集中在技术性能上,通过呈现指标数值的增长反映大模型的成功,但这些指标无法直接反映大模型价值,我们应该关注业务指标,例如用户数、使用量、收入等,可将技术指标和业务指标建立联系,用业务发展牵引技术开发和优化。
二是过度看重投资收益中的短期产出部分而忽视长期投入。行业关注大模型实用性、强调投入产出比本身没有问题,但如果将大模型与成熟业务类似,要求明确的投入产出,甚至短期内实现正向盈利,并不利于大模型应用的发展。大模型还在快速迭代阶段,有大量不确定性,合理方式是将大模型作为研发或孵化项目,不强求短期财务指标绝对达成,转而关注业务、技术等指标的相对提升。
评估三类价值。一是降本提效。核心在于大模型能够辅助增强人员能力,提升自动化水平进而简化流程。
二是业务创新。核心在于大模型的生成能力能够扩大内容供给,与应用场景的结合还可能创造新功能或业务。三是体验增强。随着向多模态、具身智能方向发展,大模型可为用户提供更加自然、丰富的自然语言交互体验。
构建一个模式。数据是大模型能够运行并创造价值的核心能源。对具体的行业机构而言,通过大模型生成和扩展价值的能力,核心取决于如何充分利用自己特有的数据。在数据问题上往往存在一个误区,即数据量越大越好。
实际上,相比规模,数据质量对于大模型的性能更为重要,尤其是对专业性和准确性要求高的行业大模型。行业大模型的构建,需要一开始就把高质量的数据环境纳入其中,通过体系化的数据治理设计,优先开发数据管道,让大模型能够与应用相关的机构自有数据源建立连接,以支持后续持续不断获得有效数据,形成数据飞轮。高质量的数据环境,不是将企业任意数据拿过来就可以,而是需要应用相关的、能够提供上下文理解的数据,重点投资于持续标记、组织和监控这些数据,比如行业专家的问答内容。数据架构本身还需要涵盖结构化和非结构化的数据源,支持多样化的数据处理。
行业大模型技术多维优化策略
行业大模型的构建和应用中,由于需求和目标不同,技术实现复杂性差异也较大。通过调研总结,目前机构在使用大模型适配行业应用过程中,从易到难主要有提示工程、检索增强生成、精调、预训练四类方式。企业通常不会只用一种方式,而会组合使用,以实现最佳效果。
1. 引导:提示工程
提示工程(Prompt Engineering)指通过针对性地设计提示词(Prompt),引导大模型产生特定应用场景所需的输出。提示工程上手相对简单,不需要批量采集与构建数据集,更不需要调整或训练模型,很多企业刚接触大模型时会采用这种方式探索应用。通用大模型的能力虽然强大,较少输入也可以生成内容,但随意输入可能产生无效或错误输出,通过系统设计提示词,规范模型输入输出方式,企业能够快速得到更准确和实用的结果。
提示工程成为持续优化大模型应用的基本方法。通过构建提示库并不断更新,企业大模型应用开发人员能够在不同场景中重复使用这些提示词,再将用户的开放式输入封装到提示词中传给模型,使模型输出更相关、更准确的内容,避免用户反复试验从而提升体验。任务的复杂度决定了提示工程的技术方式选择。简单任务可以用零样本提示、少样本提示的方式,不提供或少量提供示例给模型,让模型能够快速输出结果。复杂任务则大多需要拆解为若干步骤、提供更多示例,采取思维链提示等方式,让模型能够逐步推理输出更精准的结果。提示工程的效果高度依赖通用大模型本身的能力。如果通用大模型训练时包含了行业应用相关的数据,提示工程就能有效引导模型输出更符合行业需要的结果,但若通用大模型本身内含的行业应用数据较少,提示工程的作用就会比较有限。
2. 外挂:检索增强生成
检索增强生成(RAG,Retrieval-Augmented Generation)指在不改变大模型本身的基础上,通过外挂知识库等方式,为模型提供特定领域的数据信息输入,实现对该领域更准确的信息检索和生成。RAG能有效帮助企业快速利用大模型处理私有数据,已经成为企业部署行业大模型应用的主流选择,特别适用于数据资源基础较好的企业、需要准确引用特定领域知识的场景,如客服问答、内容查询与推荐等。
主要优点有:提高模型应用的专业准确性,让模型能基于特定数据生成内容、降低幻觉;满足企业自有数据所有权保障的需要,模型本身只会查找和调用外挂的数据,不会吸收数据并训练成模型内含的知识;具备较高性价比,底层大模型本身不做调整,不用投入大量算力等资源做精调或预训练,能够更快速开发和部署应用。
RAG的能力核心是有效结合了检索和生成两种方法。基本思路是把私有数据进行切片,向量化后通过向量检索进行召回,再作为上下文输入到通用大模型,模型再进行分析和回答。
具体应用时,当用户提出一个问题或请求,RAG首先检索私有数据,找到与问题相关的信息。这些信息接着被整合到原始问题中,作为额外的上下文信息和原始问题一起输入大模型。大模型接到这个增强的提示后,将其与自己内部知识进行综合,最后生成更准确的内容。向量化成为RAG提升私有数据调用效率的普遍手段。通过将各种数据统一转化成向量,能更高效地处理各类非结构化数据,进行相似性搜索,从而在大规模数据集中快速找到最相似向量,适合大模型检索和调用各种数据的需要。
3. 优化:精调
精调(FT,Fine-Tuning)常称为微调,是在已经预训练好的大模型基础上,基于特定数据集进一步调整部分参数,使模型能更好地适应业务场景,准确高效地完成特定任务,是目前较为常用的行业大模型构建方法。精调适用于特定领域对大模型有更高性能要求的场景。
在行业应用中,当通用大模型不能准确理解或生成专业内容时,可以通过精调的方式,提升大模型在理解行业特定术语和正确应用行业知识的能力,并确保大模型的输出符合特定业务规则或逻辑。精调会将行业知识内化到大模型参数中。精调后的大模型不仅保有通用知识,还能较为准确地理解和使用行业知识,更好地适应行业内多样化场景,提供更加贴合实际需求的解决方案。
精调是对大模型定制优化和成本投入的折中选择。精调往往涉及大模型权重参数或模型结构的调整,并且需要多次迭代才能达到性能要求,因此相对提示工程、RAG等不改变模型本身的方式,会需要较长时间和较多计算资源。
当然,与从头预训练大模型相比,精调还是一种更为经济高效的方法,因为通常只需要对模型做局部调整、所需训练数据相对少。高质量数据集是决定精调后模型性能的关键。数据集需要与业务场景密切相关,并且数据标注要高度精准。高质量数据集既会来自企业内部数据提取也会来自外部数据的采集,均需进行专门数据标注处理。这些数据需要具备代表性、多样性和准确性,并符合数据隐私等法规要求。只有当足够的高质量数据被用于训练时,精调才能真正发挥作用。精调策略也直接影响着大模型最终的性能。
精调分为全量精调和局部精调。局部精调的方法更为高效,在实践中也比全量精调使用更多,常见形式有:有监督精调(SFT,Supervised Fine-Tuning),在特定任务的标注数据上调整模型;低秩调整(LORA,Low-Rank Adaptation),通过低秩矩阵更新减少所需学习参数量;适配器层(Adapter Layers)技术则在模型中加入小型网络层,专注训练特定层以适应新任务。精调策略的选择可根据具体任务需求、数据的可用性以及计算资源的限制综合考虑。
4. 原生:预训练
通过提示词工程、检索增强生成、精调三种方式都无法达到需求标准时,还可以选择预训练(Pre-Training)方式,构建一个专门为特定行业定制的大模型。预训练行业大模型适用于与现有大模型差异较大的场景,要求搜集并标注大量行业特定数据,涵盖文本、图像、交互记录,以及特殊格式数据(如基因序列),在训练过程上,模型通常采用从底层参数开始训练,或者基于已经具备一定能力的通用模型进行后训练(Post-Training),使大模型更好地理解特定领域术语、知识和工作流程,提高大模型在行业应用中的性能和准确性,确保其在该领域的专业性和效率。
例如谷歌的蛋白质生成模型AlphaFold2,是特定于生物信息学的大模型,其预训练涉及了对大量实验室测定的蛋白质结构数据的深入分析和学习,使模型能够捕捉到蛋白质序列与其空间结构之间的复杂关系,从而精准地理解和预测蛋白质的复杂三维结构。
预训练方式投入成本较大,当前较少采用,不仅需要大量计算资源和长期训练过程,还需要行业专家密切协作和深度介入。此外,从头预训练还涉及复杂的数据处理和模型架构设计工作,以及在训练过程中不断调优和验证。因此,只有少数企业和科研机构有能力采用这种高投入、高风险,而潜在回报同样高的方式。
未来,随着技术进步和成本降低,预训练行业大模型可能增加。预训练行业大模型的技术流程与通用大模型相似,但更注重行业特性。在数据集准备上,从一开始就会加入行业特性数据,在模型构建技术与流程上,和通用大模型预训练类似,会涉及模型架构设计、预训练任务挑选、大量数据处理、大规模无监督或自监督学习等。如使用自监督学习(SSL,Self-Supervised Learning)技术,通过从数据本身生成标签学习数据内在结构和特征,无需人工标注数据,以及基于人类反馈的强化学习(RLHF, Reinforcement Learning from Human Feedback)技术,通过引入人类专家的主观反馈引导模型学习过程,产生更高质量输出。
关注「腾讯研究院」公众号
后台回复关键词“ 行业大模型2024 ”
即可下载PDF版报告全文