纵览生成式人工智能(Generative AI或AIGC,两种表述均可,国内更多用AIGC)进化史,从AI诞生之始,人们就试图让机器生成内容,与其对话,并诞生了最早的图灵测试标准。多年来,生成式AI的发展一直不温不火。直到去年Midjourney、Stable Diffusion等文生图应用点燃了大众的热情,再到11月ChatGPT的横空出世,更是引发了现象级热潮,让生成式AI走入了亿万用户的视野。

本文结合国际企业实践经验,从大模型生态构建方式、行业应用的切入路径这两个视角切入,描绘生成式AI的行业应用版图,分享我们初步的观察与思考。

 

大模型的生态

 

模型即服务(MaaS)的新生态加速形成

结合目前行业“基础设施层-模型层(MaaS)-应用层”三层结构,我们预计未来可能形成一个模型即服务(MaaS)的新生态。自下而上,三层结构的构成如下:

 

大模型走向通用性和垂直性并重的纵深布局

在AIGC技术应用布局上,通用性和垂直性并重。

所谓“通用性”指的是横向能力,适用于各个行业,具体而言包括语义多轮对话、知识库构建、智能搜索、企业级RPA、多模态内容生成、代码生成等方面:

1、语义多轮对话:AIGC技术在语义多轮对话中发挥着巨大的优势,尤其是在高客单价销售和私域交流场景下。例如,直播话术中,AIGC能够迅速学习并掌握最佳实践,如各类Chatbot和IQ for sales。

2、知识库构建:AIGC技术从简单的资料概括整理发展到帮助用户阅读理解、生成个性化资料库,以及基于高效资讯归纳的新搜索功能。这使得AIGC既可应用于企业级人工智能,也可成为个人助理(如Mem)。

3、智能搜索:AIGC在智能搜索领域的应用也取得了显著成果,如New Bing、Perplexity等。凡积累了知识库的系统,都可以借助AIGC实现语义搜索功能。

4、企业级RPA(Robotic Process Automation):结合LLM(Large Language Models)技术和RPA,AIGC在企业级应用中发挥着重要作用。典型应用包括微软的Copilot以及CRM领域的Salesforce等,它们紧密结合行业场景,为用户赋能。

5、多模态内容生成:在智能写作助手、广告主视觉创作、智能NPC等领域,AIGC技术带来了创新应用,除了文字,还可以生成图片、视频,甚至3D数字内容。

6、代码生成:代码作为一种更标准化的文本,AIGC在代码生成方面具有巨大潜力,如GitHub Copilo已经有很不错的表现,在这个领域,正在有更多的代码生成工具出出现,有望大幅提升码农的生产力,也为普通的非技术工作者提供了更为便捷的工具,大幅降低了编程门槛。

所谓“垂直性”指的是纵向能力,通过对不同行业Know-how的学习,AIGC技术可以进化为行业专家,从而大幅加速各行业的数字化转型。

结合国外企业的投融资信息,我们列举了医疗、金融、零售和制造几个行业的典型例子:

 

国外科技企业纷纷“卷”出了新高度

在Open AI的直接带动(微软)或刺激(谷歌等)下,大模型已经成为巨头军备竞赛新的杀手锏。不仅加速大炼“大模型”,还在原有的产品中快速加入大模型的能力,以期在新的范式转换和技术浪潮中占得先机。

先是5月初,谷歌I/O大会推出PaLM2大模型,其对话产品Bard未来也能像ChatGPT一样,接入网络,实时搜索网页。同时推出Duet AI,给谷歌的办公套件Workspace全新升级。

近日,微软开发者大会则推出了Windows Copilot,打造每个人的AI助手。Windows Copilot将直接集成到Windows 11中,在所有应用和程序中都可使用,就像我们在Edge、Office程序和GitHub中看到的Copilot侧边栏一样。

 

除了传统科技巨头,创业企业同样表现出极高的市场活力和技术实力,各模态应用快速落地,爆款产品不断推出。随着技术不断演进,尤其是Diffusion、Transformer和Clip等模型的提出,AIGC的商业化在多个领域开始落地,其中代码生成、文本生成、图像生成、音视频/游戏等领域已有不少爆款级产品。

更多头部企业创新产品和解决方案可参见下表:

 

大模型生态合作的5种典型方式

目前,大模型可能的生态合作和商业模式正在渐次展开,我们梳理了主要的5种。其中API调用和插件是大多数公司接入大模型能力的主要方式。

 

1、API调用:大多数公司使用大模型的主要方式

 

在当前的技术环境下,API调用被广泛应用于知识库和客户服务领域。公司通过利用ChatGPT开放的Fine Tuning API,将自有的Knowledge Base(包括产品文档、常见问答、客服历史对话等)上传到ChatGPT,从而建立私有模型。值得注意的是,尽管如此,创业公司仍无法拥有该模型的所有权。

通过这种方式,ChatGPT的用户可以拥有专属的Chat Bot,它不仅具备常规对话功能,还可以利用企业自有、甚至非公开的训练数据来提供高度针对性的服务。

 

以OpenAI的GPT-3/3.5/4为技术基础,一些创新公司如QUANTUM ENGINE(类似Character.ai和Inworld,由创始人Jesse Lyu于2023年创建)旨在基于ChatGPT改善玩家体验并提升生产环节效率。这些公司通过引入开放式对话,重新探索NPC的价值,以提升沉浸感与交互方式。同时,实现了开放式游戏视觉引擎联动的三个步骤:生成对话、行为与蓝图的自动化。一个典型的示例是“当马斯克想把特斯拉卖给比尔盖茨”的Demo,该Demo展示了如何自由选择角色并自动生成对话。

价格方面,尽管不同类型、不同公司的定价方式各有千秋,但整体上大模型日益向生态扩展方向发展。典型如OpenAI开放了GPT-4(纯文本)、ChatGPT API和WhisperAPI(应用程序接口),允许开发者将ChatGPT集成至他们的应用程序和服务中。2023年3月1日,OpenAI基于GPT 3.5 Turbo模型开放了ChatGPT API;API收费模式为0.002美元/1000tokens。相较于前一代开放接口GPT 3.5,性能更强的同时,价格下降90%,进一步加速了ChatGPT相关应用生态的发展。

 

2、插件模式:Plugin让大模型有望成为新的OS

除API调用外,2023年3月24日,OpenAI公布了重磅消息:ChatGPT支持接入第三方插件,并一口气上架了11个插件。通过这些插件,用户可以用ChatGPT购买商品,预定酒店、机票,搜索专业数据等,这大大解放了ChatGPT的生产力,为其发展带来了更多的可能性。这种插件模式为Plugin可能的应用方式和影响提供了丰富的发展前景。

 

总之,不管是作为操作系统还是应用商店,AI的转折点已经到来。

 

3、进一步的探讨:机遇还是陷阱?护城河在哪里?

综合上述API调用方式的分析,我们不禁产生一个灵魂之问:模型是OpenAI的,核心技术不在自己手里,AIGC应用层企业的护城河在哪里?

PitchBook调查数据显示,仅在2022年,生成式AI(即AIGC)赛道就发生了78笔投资,总融资金额超过13.7亿美元,几乎相当于过去5年的融资总和。同期,出现了OpenAI、Stability AI、Jasper等估值超过10亿美元的独角兽。预计2023年,生成式AI赛道的融资次数、额度将会更多。 

然而,“GPT狂飙,AI投资突进,整个创投市场都热得发烫。稀缺的公司分分钟独角兽,做大模型的人才出500万年薪也难招,但与此同时,有的创业公司还没来得及在市场上露出锋芒,就已经被一日千里的OpenAI拍倒在PPT阶段,难以翻身”——AIGC应用层融资过热,是否“虚假繁荣”?

 

换言之,ChatGPT“更强、更快、更便宜”了,现有应用还有市场吗?关于这个问题的回答我们将以Grammarly、Jasper.ai 的使用体验及 Quantum-engine创始人的现身说法为例尝试做出回答。

(1)ChatGPT对Grammarly说:我干掉你,与你无关?

Grammarly为全球每天的3000万用户(包括50000个专业机构)提供语法校对服务。然而,在ChatGPT出现后,这一市场格局可能面临挑战,据悉reddit、twitter 等地充满了正在认真考虑退订 Grammarly 。

 

(2)Jasper“真香”,为什么?

Jasper支持各平台广告/博客图文内容生成,截至2022年12月底,Jasper付费用户达到7万,估值已达15亿美元,旗下有多款产品接入GPT-3进行商业性文字创作。

虽然底层模型是OpenAI的(亲测调整设问方式后可在ChatGPT中得到高度一致的营销文案结果输出,核心功能可替代),且Jasper定价更高,但截至目前Jasper的估值和用户量并未受到影响,这引发了关于其发展和市场竞争力的思考。

 

(3)创始人视角:应用层壁垒在于前端用户体验

QUANTUM ENGINE 创始人表示ChatGPT在游戏行业的应用呈现出巨大潜力,包括游戏角色对话生成、剧情编写、游戏元素创意等方面,为游戏开发者提供强大的支持。作为对话生成应用,低延时性对用户体验至关重要,类似于在弱网条件下云视频会议产品Zoom适当牺牲视频质量以优先保障音频流畅以保证用户通话体验,AIGC应用也需要关注此类需求,为用户精准提供更舒适的前端用户体验。

 

由此观之,行业应用层的独特优势决定了未来百花齐放的生态,深耕行业特性、优化前端体验才能应对大模型飞速迭代带来的潜在危机。

 

行业应用的6类切入路径

 

按用户侧类型划分,生成式人工智能(AIGC)在C端和B端市场呈现出两类路径,其中C端已经达到可用、甚至好用的临界点,B端将从高价值先导领域向MaaS生态扩展。

 

C端市场已经达到可用的临界点

C端应用包括效率工具的下一代产品、游戏未来的新形态和制作新方式,以及为数字人、元宇宙、机器人等交叉领域带来新空间。此外,AIGC还带来了内容创作领域的大爆发。

 

B端市场,从高价值先导领域向MaaS生态扩展。

1、生成式AI从效率角度切入,提升写作和生产力。

例如,会议、招聘、各类办公助手(文档助手、编程助手)等应用场景。

 

2、生成式AI在高价值领域如营销、金融育等领域率先切入

以营销为例,AIGC技术可以大幅降低创意成本、大量生成广告素材和文案。Jasper作为市场上最为火爆的广告、营销图文生成产品,在截至2022年12月底时,付费用户达到7万,2022年年收入7500万美元,估值已达15亿美元。

 

在金融领域中,AIGC应用探索方向集中在智能客服、智能投顾、商户入网、欺诈检测、智能营销等领域。然而,在算法风险、隐私保护、信息安全等方面仍然面临较大的挑战。

 

3、知识密集型领域蕴含着生成式AI应用的巨大潜力

在医疗领域,GPT-4作为一种医学AI聊天机器人,在医学领域的潜在应用方式主要包括医疗记录、医学知识和医疗咨询,可以帮助医护人员提升工作效率和患者问诊体验。但它也存在局限性,并可能带来系列潜在风险。

 

在教育领域的应用已较为成熟。以Duolingo为例,他们利用GPT-4推出了新产品“Duolingo MAX”学习平台,提供了“解释答案”和“角色扮演”两项全新的AI功能。

 

在这些领域中,AIGC技术不断拓展应用场景,为各行各业带来了前所未有的效率提升和创新机遇。但我们也应当关注到其中的挑战与风险,确保技术在发挥潜能的同时,也能保障用户的利益和安全。

除了千行百业的多模态应用,在B端市场,如下图所示的模型层中AIGC技术业在逐渐围绕头部几家大模型形成的MaaS生态发展。

 

进一步的探讨

 

畅想未来,生成式人工智能将进一步与生产、生活深度融合。而大模型带来的变革才刚刚开始。也特别欢迎大家联系我们,一起探讨大模型在行业应用主战场落地的机会和挑战。

 

企业级RPA+大模型的AutoGPT方式可能颠覆现有的软件模式

产业层面,企业级RPA(Robotic Process Automation)结合大模型的方式将在更多行业实现落地(譬如金融、零售、政府、制造、物流、地产、教育等),并财务,HR,客服等应用场景展现极为出色的能力,从而实现更高效的工作流程和业务处理。譬如说AutoGPT已昭示Prompt 工程的下一个前沿,即便是非科班出身的小白,借助 AutoGPT不到 3 分钟就能成功建立一个网站,完成一份详实的市场调研也可以在弹指间轻松实现。

 

组织变革和个人自雇等兴起,将带来应用软件的全新革命

当一个人就能成为一支团队,这将有可能诞生具有To C体验的B端现象级产品。在产业变革的加速驱动下,未来在组织层面业将发生深刻变革,个人和小团队模式可能成为重要形态,引发To B和To C软件的边界进一步模糊……

 

当然这还只是我们的初步的思考,生成式AI技术影响下的未来势必继续颠覆我们的认知、持续突破想象的边界,带来生产力的新革命。无论如何,未来已呼啸而至。

 

本文作者:

白惠天 腾讯研究院研究员
王   强 腾讯研究院资深专家、前沿科技研究中心主任