走向平衡:生成式AI的开源与专有模型之争

葛 凌    牛津大学博士、腾讯公司欧洲首席代表

2023年3月,OpenAI发布了极具开创性的GPT-4模型,这是生成式人工智能历史上的里程碑。然而,这并不是3月唯一一件吸引科技界目光的活动。仅在两周后,在旧金山市区举办了另一个被业内称为“AI届的伍德斯托克”的活动。(注:伍德斯托克音乐节在美国纽约州北部城镇伍德斯托克附近举行,是世界上最著名的系列性摇滚音乐节之一)

这次充满活力的聚会,旨在庆祝开源类生成式AI的快速发展,以及围绕它涌现出来的社群。那之后的几个月,开源生态系统中出现了大量新的参与者、模型和用例。在未来的某一节点,当人们回望AI发展的历史,极有可能会将这个专有模型和开源模型公开竞争的阶段视作决定性的时刻。

在GPT-4发布和“AI 届的伍德斯托克”聚会之后的六个月里,专有与开源二者竞争的往来招式变得更加犀利。为方便读者更好的理解,先赘述一些学术定义:生成式AI被归类为“封闭源代码”,其中专有基础模型通常由大型科技公司拥有,用户每次API调用需付费;相比之下,开源生态系统则推崇免费共享和可调整AI模型参数(参与的公司通过间接方式获得收入,例如,通过分享云服务提供商提供其模型的收入)。

目前,我们正在见证这两种路径之间的较量。开源模型的支持者声称他们的进步是强大且不可阻挡的。近期,OpenAI推出了GPT-Vision,这是另一个强大的专有模型,它旨在将视觉与文本相结合。在新书《即将来临的浪潮》中,DeepMind联合创始人Mustafa Suleyman认为,出于安全考虑,应该禁止在AI模型背景下进行开源。

全球企业和消费者主要是采用封闭源代码的生成式AI,还是主要采用开源生成式 AI,或者两种类型的平衡,将是问题的关键。这个结果至关重要,不仅是从确保AI以有益于人类的方式发展的角度出发,还体现在它将塑造商业和社会中最具变革性的AI应用案例,以及决定谁将收获生成式AI的回报。

但首先我们要弄清楚,这个“AI 届的伍德斯托克”节日到底是什么,参加的是谁?“开源AI聚会”于三月下旬在旧金山的探索馆举行,共有超过5000名与会者。就像它名字来源的摇滚音乐节一样,这个聚会有着强烈的派对氛围,而开源运动的合作精神和创新能量进一步强化了这种氛围。

在人群中,举办了这场聚会的AI公司Hugging Face的首席执行官Clement Delangue身着公司恰如其分的吉祥物装,一个看起来像“拥抱脸”的欢快黄色表情符号。羊驼在会场周围闲逛——这是对Meta的大型语言模型“LLaMA”的幽默致敬。在“释放羊驼”的标语飘扬的空气中,各种AI名人,如Andrew Ng以及大型语言模型(LLM)初创公司Anthropic的领导者在场。大多数的参会者都在时代杂志最近发布的AI领域100位最具影响力人物名单中。

尽管与任何科技会议都不同,但在现场被分享的观念却具有改变游戏规则的潜力,对生成式AI的巨大潜力也充满了清晰而真诚的兴奋——麦肯锡最近估计,在63个应用案例中,这种潜力每年可额外增加2.6万亿至4.4万亿美元的价值。

各地的科技领袖都对此(生成式AI)充满兴奋。例如,腾讯公司创始人兼首席执行官马化腾在2023年5月公司股东大会上发言时表示:“我们最初认为AI是互联网行业十年一遇的机会,但我们越来越意识到,这是一个几百年才出现的、与工业革命和电力利用类似的罕见机会。”

问题在于,在两种生成式AI模型中,哪一种正在引领新的工业革命?

目前,专有类型领先。这有两个明显的原因:专有模型在能力方面处于领先地位,而且目前被认为更安全。

首先是性能。根据领先的基准测试,如大规模多任务语言理解测试,OpenAI的GPT-4目前以显著优势成为最强大、最有能力的大语言模型。尽管开源模型的质量正在迅速提高,但它们仍然落后于领先的封闭源代码替代品。

这背后的原因是培训领先基础模型的严峻商业现实。前期成本巨大,从购买价格约为30,000美元的Nvidia顶级H100 GPU芯片,到庞大的云计算费用都被计算在其中。此外,部署先进的训练技术,如使用人类反馈的强化学习,需要专业知识的加持。像Cohere、Anthropic、Adept、Mistral、Aleph Alpha、AI21 Labs和Imbue这样的初创公司的支出模式——仅芯片支出就占据预算的很大一部分——就说明了这一点。

总的来说,专有模型被投入了最多资源。在OpenAI的例子中,涉及的成本规模之大看起来可以促使其从开放转向封闭。OpenAI由首席执行官Sam Altman与Elon Musk等知名人士于2015年创立,最初是为开源模型而打造。然而,在发布迄今为止最强大的大语言模型时,该组织放弃了最初的开源承诺。这种转变可以部分归因于OpenAI需要保护其巨额投资。

目前,安全性被视为另一个封闭源代码的优势。OpenAI声称,它选择封闭的另一个原因是与大语言模型相关的道德风险。这些模型有被不良行为者滥用的可能性,随着它们变得越来越强大,它们被公开访问的风险也在增加。OpenAI的首席科学家Ilya Sutskever表示:“如果你和我们一样相信,某个时候,AI或AGI将变得非常强大,那么开源它根本没有意义。这是一个糟糕的主意。”

那么,鉴于Sutskever的观点和专有模型在性能上的优势,为什么开源生成式AI运动会引起如此多的关注呢?全球最大的科技公司以及初创公司和大量开发者都在加入其中。

其中的一个原因是,随着时间的推移,开源在科技界慢慢地取得了成功。现代云基础设施主要运行在Linux上,机器学习由诸如Python之类的开源许可下开发的语言驱动,开源渗透到科技领域的许多方面。

“AI届的伍德斯托克”的激动人心之处在于开源创新。开源大语言模型将其权重和参数公开,使全球开发者社区能够对其进行微调和改进,激发出比最新的专有模型更大的创新。

对于希望采用生成式AI的企业来说,轻松微调开源模型的能力也具有极大的吸引力——它使他们能够根据自己公司特定的数据调整这些模型,以实现需要这些知识的特定用例。

“AI届的伍德斯托克”的组织者Hugging Face是开源AI运动的早期先驱之一。该公司成立于2016年,其开源产品之一是Transformers库。该库作为一个开放的大语言模型存储库,客户可以访问以进一步自行调整模型,或者通过API调用典型的大语言模型功能,如句子补全、分类或文本生成。这个“模型即服务”平台使各种规模的企业能够从实验过渡到部署,无需过多的内部资源。用户可以使用托管基础设施将任何模型转换为自己的API,将开源模型民主化AI的精神展现得淋漓尽致。

微软、谷歌、Meta、英特尔和eBay等公司是Hugging Face的1万多名客户中的一部分。它的“模型即服务”概念已经发展到托管超过100万个模型、数据集和应用程序。这个多样化的生态系统强调了其开源工具的广泛适用性,从辉瑞和罗氏等制药巨头的数据安全升级专门的AI应用,如彭博的财经语言模型BloombergGPT,其都有涉及。

随着AI领域的不断发展,主要人物和关键参与者越来越倾向于支持生成式AI成为开源。图灵奖获得者、Meta首席AI科学家Yann LeCun阐述了他认为我们需要开源大语言模型的原因:“由于AI基础模型在未来将成为基本基础设施,人们和行业会要求它是开源的。就像互联网的软件基础设施一样。”

Meta首席执行官马克·扎克伯格在支持开源方面有着不同的理由。“它每天都在变得更加高效,”他评论道。“我只是觉得我们也会从整个学生、黑客、初创公司和不同人群使用这个模型中学到很多。”

为顺应这种精神,Meta在7月发布的LLaMa-2可以说是迄今为止公众可以使用的最强大、最高性能的开源大语言模型,具有预训练和微调版本,拥有70亿、130亿和700亿参数。

除了像LLaMa-2这样的主流举措之外,其他值得关注的项目也在为开源AI生态系统做出贡献。例如,Runway于2018年开始专注于为电影制作人提供AI工具,但现在已转向生成式AI。它的代表性产品Gen-2在根据文本提示创建视频方面具有先锋性,公司还特别推出了Runway Studios和AI电影节以扩大其影响力。

另一方面,作为一个Python库,LangChain旨在增强大语言模型的可用性、可访问性和多功能性,使开发者更容易将这些强大的工具集成到各种应用程序中。这些项目都展示了开源AI模型在不同领域日益多样化和适用性的增长。

开源模型也在挑战一个观念,即在模型参数方面,更大总是更好。较小的模型可以提供成本效益、更大的灵活性,甚至在针对特定应用进行微调时可能优于较大的模型。

在关于如何确保AI安全和负责任的关键问题上,开源模型一方也有很好的论据。专有模型的支持者认为,让所有人都能访问这些模型是危险的。然而,开源AI的支持者反驳说,开源大语言模型既提供了透明度,又吸引了来自多元社区的审查。这有助于识别和减少偏见,使它们更公平。此外,与一些封闭源代码模型不同,开源在用户数据的使用方面提供了透明度。

未来会如何发展,哪种模型会胜出呢?总的来说,每种方法都有其优点。专有模型(如GPT-4)具有独特的优势,包括个性化的定制、专用支持和强大的安全功能。另一方面,诸如效率、透明度和公平性等特点为开源AI提供了有力的论据。

当然,一个理性的策略是让公司提供并利用这两个模型的优点。在这一方面,腾讯公司采取了双重策略。我们推出了专有的基础AI模型“混元”,它可被用于多种应用方向,同时还在腾讯云上提供了“模型即服务”解决方案。该服务旨在实现在多个行业中高效部署开源模型。

我们预计,未来格局将是少数专有基础模型占主导地位,但针对特定行业和企业应用的开源专门模型也将繁荣发展。基于非常小型模型(能够在智能手机和笔记本电脑上的即时通讯软件中运行)的个人AI助手将成为我们的陪伴者。

Meta的LLaMa-2由美国云服务提供商如Microsoft Azure和Amazon AWS托管,这凸显了这些科技公司同样看到了支持开源模型以及专有模型的价值。

我们应该欢迎开源和专有模型之间的良性竞争。幸运的是,目前似乎没有哪种方法会占据主导地位的可能。过去六个月,这两类模型之间的质量差距已经缩小。开源模型激发创新以及促进责任和安全的潜力正变得越来越明显。

牛津大学计算机科学教授、图灵研究所基础AI研究主管迈克尔·伍尔德里奇教授是AI领域的先驱,他将在2023年皇家学会圣诞讲座上演讲“关于AI的真相”。他希望看到这两种方法都能繁荣发展。他认为:“在这个关键的时刻,像ChatGPT这样的大众市场、通用AI工具已经出现。开源和专有模型各有优缺点。在我们继续发展的过程中,保持二者的平衡以确保AI继续成为造福更广泛社会的工具至关重要。”