奇点来临: ChatGPT 时代的著作权法走向何处?

司    晓    腾讯集团副总裁、腾讯研究院院长

当下,以ChatGPT类产品为代表的生成式人工智能技术的兴起与应用,极大改变了版权领域的底层创作逻辑。人工智能已经能够以超乎想象的水平和效率完成过往只能由自然人实施的创作行为——对于思想的独创性表达。而传统的版权法立足于“思想表达二分法”这一底层逻辑之上,即“只保护自然人思想的外在表达,而不保护思想本身”。但在渐行渐近的“生成式人工智能时代”,现有版权制度如若无法对于“最为宝贵的人的创造性思想”,以及“最为普遍的人工智能的独创性表达”加以有效涵摄,那么其适用价值将不可避免的陷入消亡。

生成式人工智能的兴起
引发了版权理论层面的新思考

(一) 理论界关于AIGC版权问题的探讨由来已久

我国理论界对于人工智能生成内容版权问题的关注,大致源起于2018年海淀法院审理的“菲林诉百度”和南山法院审理的“腾讯诉网贷之家”两案判决之后。本文通过中国知网以“人工智能+版权”为关键词进行检索,限定来源为“CSSCI”,共得出289篇文章,其中有260篇文章均为2018年后出版,亦验证了这一基本判断。虽然上述两起案件对于“人工智能生成内容”是否构成作品做出了不同的认定。但不同的判决结果归因于两个案件涉及的人工智能模型(或者说机器模型)在运行机制方面的本质差异。而在法律层面,两个判决的落脚点存在高度共识,即只有证明存在自然人的创作贡献,人工智能生成内容才会被认定为版权法上的作品。

彼时,理论界的讨论重点聚焦于“人工智能生成内容的可版权性”这一基础问题。一部分学者持肯定态度,认为:第一,该阶段人工智能技术自主化程度较低,仅仅是辅助和服务于人类创作的工具;第二,人工智能本质上体现的是模型设计者或训练者的创作意志和行为,只要生成内容满足“独创性”要求即可构成作品;第三,可以借鉴早已存在且运作成熟的法人作品制度,将人工智能的所有者视为版权人。

另一部分学者则持反对态度,认为:第一,人工智能生成内容是应用算法、规则和模板的结果,不能体现创作者独特的个性;第二,人工智能的创作机理并非版权意义上的“创作”,生成的内容不能被认定为作品;第三,在判定客体是否具有独创性时,不仅要在客观上满足表达的形式要件,还要通过整体的主观感受判断是否贡献了“智力上的创新”。

 (二) 技术的迭变赋予AIGC版权探讨新的时代意义

2022年11月30日,美国人工智能研究公司Open AI发布了ChatGPT,在短短2个月的时间,月度活跃用户已达1亿,成为全球互联网历史上增长最快的应用。自2023年3月16日,国内百度发布“文心一言”之后,阿里、科大讯飞、商汤等企业也相继发布对标ChatGPT的生成式人工智能产品。目前,国内用户和企业无法注册ChatGPT账号或接入其应用程序编程接口,且国产ChatGPT类产品仍基本处于内测和研发阶段。但鉴于生成式人工智能技术对于内容创作和版权制度带来的重大影响,相关理论探讨也便被赋予了新的时代意义。

值得注意的是,新一轮生成式人工智能的发展之所以备受关注,就在于其一定程度上已经具备系统科学领域所称的“涌现能力”。所谓涌现能力,就是当人工智能模型参数达到一定量级之后,会突然拥有包括常识推理、问答、翻译、摘要等一系列类似人类的“智慧能力”。这朝着通用人工智能(Artificial general intelligence)迈进了一大步,生成式人工智能涌现能力的发现,也解释了“为什么ChatGPT类产品在内容表达能力上看起来已经和人类无异。” 

就此,有学者观点表示,ChatGPT本质上是一个大型语言模型,是“智能搜索引擎+智能文本分析器+洗稿器”的结合,不属于法律意义上的“人”,生成的内容也不应受到版权法的保护。也有学者观点表示,ChatGPT与此前传统人工智能的重要区别,在于存在基于人类反馈强化学习的训练,使得生成的内容融入了人类的主观偏好。因此,以ChatGPT生成的作品就是人的智力成果。另有学者观点表示,ChatGPT生成内容的可版权性认定应当分情形讨论,如果人类输入的指令足够具体,则生成内容蕴含着人类足够具体的表达,可受版权保护。 

由此来看,理论界目前对于新一轮人工智能生成内容版权问题的探讨,虽然在观点上仍存在明显差异,但依旧立足于既有版权制度下“主体规则—仅限于自然人创作”和“客体规则—仅保护独创性的外在表达”的基本框架。然而,在人工智能技术发展的“奇点时刻”(Singularity Moment)加速来临之际,ChatGPT类产品已经超越了既往的人工智能模型应用,一定程度上可以说具有了“通用人工智能”属性或者说“类人性”。我们需要审视思考:颠覆和变革既有版权制度整套逻辑的“奇点时刻”,是否也已经加速到来。

生成式人工智能的兴起
打破了版权制度的底层逻辑

从版权制度的底层逻辑来看,以ChatGPT类产品为代表的新一轮生成式人工智能技术,一方面改变了内容创作的基本逻辑,虽然人类目前仍然可以垄断独创性的思想,但在思想的具体表达层面正逐渐被人工智能所赶超;另一方面,推翻了“思想表达二分”创设时的合理性前提,ChatGPT类产品通过对思想层面作品风格、感觉、灵感等的学习,便可以输出海量的、区别于原作品的新表达,虽然难以构成版权侵权,但却对在先创作者产生了现实的市场替代效应。

(一) 版权创作层面:打破了人类对于“独创性表达的垄断”

• 自然人创作和人工智能“创作的内在机制存在本质差异

目前,各类生成式人工智能利用海量数据进行模型训练、生成最终内容的方法大体相同。首先,自监督学习。机器自己学习大数据,包括购买的数据库,公开的网站文章、电子书,电子版的报纸、杂志,以及开源社区的计算机代码等。其次,监督学习。把人类写的问题和答案交给机器学习,让机器学会人类说话的方式和风格等。最后,人类反馈强化学习。在这个阶段会先训练一个奖励模型,它包括了对于多个答案优劣的评价,然后再用这个模型去训练和评价机器生成的结果,让机器的回答越来越接近人类认可的方式。以 ChatGPT 为例,其内容生成机制被形象的称为“文字接龙”,实际上是统计学“自回归”原理的具体展示:先通过模型预测下一个字,然后把预测出来的字带入模型,再去预测下一个字,不断迭代输出。

而此前,传统的自然人创作是建立在自身所独有的语言理解能力之上。特定的语言与特定的文字对应以后,文字表达便通过内含的语义来传递人类的思想。当语义通过文字方式不断组合,便形成了不同的词汇、短语,进而持续扩张表达的丰富程度。久而久之,文字之间形成了特定的结构,使人们能够理解交流对象所要表达的意思,这就形成了人类的语法和语句。语句的进一步叠加出现了语段、语篇,直至成为版权法认可的作品。由此可见,ChatGPT“自回归式”的单字内容生成机制,和人类传统意义上基于语言理解能力的创作逻辑存在本质差异。

• 自然人创作正日益被人工智能“创作”所赶超和替代

目前,虽然ChatGPT似乎仍无法像人一样理解其输出内容所表达的具体蕴涵。但要从为何ChatGPT可以判断出“下一个最可能的字是什么”,并且把这些字组成完整的内容后,看起来高度契合人类的“表达逻辑”和“语义语法”?便需要我们反思,是否应当从更宏大的视角去审视版权法上的创作行为。毕竟生成式人工智能凭借“涌现能力”重塑了版权创作逻辑,走出了一条不同于自然人创作的新路径。

此外,ChatGPT等生成式人工智能产品的表达能力近乎是无限的。经过海量数据训练的大模型可以在远超人类创作效率和艺术水平的基础上,全天候24小时持续输出高质量的内容表达。从目前ChatGPT类产品的商业模式来看,用户几乎可以通过“零成本”的方式,让其随时随地的协助生成内容。由此,生成式人工智能的发展应用极大地改变了人们对于版权法上“创作”的认知。与“创作”一词直接对应的“独创性表达行为”不再是一个被专业群体垄断的高门槛领域。普通大众被艺术创作拒之于门外的境遇,也得以显著改变。在生成式人工智能的辅助下,只要人们拥有有价值的想法和观点,具体的表达完全可以交由机器来完成。

 (二) 制度逻辑层面:推翻了“思想表达二分法”的适用价值

• 维系“思想表达二分法”存在正当性的基础被瓦解

“思想表达二分法”作为版权制度的底层逻辑,强调版权法只保护自然人思想的“外在表达”,而不保护“思想本身”。“思想表达二分法”的创设前提是,过去人们学习既有作品思想层面风格、灵感等,进而创作出新作品表达的能力十分有限。即便可以学习他人独创性的思想,但将其付诸具体的内容创作仍存在很高的“准入门槛”,需要具备足够的专业技能。

加之,个体学习和创作的效率、精力往往有限。因此,在过去即使不保护在先作品中的思想,也并不会导致不同主体之间的利益显著失衡。于是有观点直言,即使一个人每天看一本书,穷其一生也顶多只能阅读三万本书,并且极大的可能是一生也写不出一本书。而生成式人工智能的发展,则使得原本专属于人类的独创性表达,可以通过近乎零成本、无门槛的“机器生产方式”完成:ChatGPT类产品可以在短时间内快速“学完”人类社会海量思想、知识和风格的基础上,进行无限的、全新的内容生成。

• 引发版权领域“智力劳动合理回报机制”的失效

从内容生成机制来看,人工智能模型并不会侵犯在先作品中受版权法保护的“外在表达”。以ChatGPT为例,实际是在“自回归原理”下,不断学习海量在先作品中不同文字之间排列组合的概率和规律,然后内化为自身的模型参数的过程。ChatGPT对于训练数据库中作品内容的学习利用,可以形象的理解为“细化到分散的、海量的作品中的每一个字的引用”,而不会复现特定作品,甚至都不会复现特定作品中的段落和语句。所以,ChatGPT实际上不存在对在先训练作品实质性的引用,也即不会侵犯在先作品中受版权法保护的“外在表达”。

但是与在先作品风格和思想相似的人工智能生成内容,会对版权人既有授权市场产生现实的挤出效应。加之,生成式人工智能进行内容生产的效率和规模远非传统的自然人个体创作能力可比,由此便会进一步放大上述市场替代影响。目前发生的代表性事件,是全球各地的艺术家起诉Midjourney等人工智能绘画平台利用在先美术作品投喂机器、进行模型训练,并大规模生成和特定艺术家风格相一致的画作在市场上抛售。

版权制度的目标定位于,“对人类智力劳动合理回报机制的设计”。然而生成式人工智能的模型研发、商业应用主体,通过“利用既有作品风格思想,进而输出全新表达”的内容生成机制,借由提供商业服务和技术接口等方式盈利,但没有把这些利益分配给被训练作品的权利人。版权制度本应体现的合理回报机制在此出现了“缺位”,从而在事实上导致了内容上下游之间的利益失衡。

生成式人工智能的兴起
颠覆了版权制度的基础规则

从版权制度的基础规则来看,鉴于ChatGPT类产品模型生成内容的效率远高于人类创作,未来或将逐渐占据全社会知识内容的主体,而版权法仅对“源于自然人创作的内容”加以保护,由此其适用价值存在与否便值得怀疑。同时,生成式人工智能对于他人作品训练利用的行为难以归入现有版权专有权利的规制范畴,“既无权利,何来授权?”版权领域传统的“授权许可模式”也面临难以落地的现实困境。

 (一) 权利主体层面:瓦解了“只保护自然人创作”的制度基础

• AIGC或将成为全社会信息内容的构成主体

以ChatGPT类产品为代表的新一轮生成式人工智能的兴起,打破了自版权制度诞生以来长久的共识—―内容生产特别是作品创作,是自然人的专属和智慧的体现。当下,生成式人工智能的迅猛发展,正在使得“创作”与“人类的表达”快速解耦。内容创作从依赖“大脑构思+手工表达”转变为“人脑思考+机器表达”。由此,人们希冀的内容创作领域大规模工业化场景也将加速来临。

有研究发现,ChatGPT在2023年1月的内容输出能力为3.1亿单词每分钟。谷歌公司此前统计,自1440年古登堡印刷机发明以来,全社会出版约1.298亿本书。每本书估算有5万个单词,总共便约有6.5万亿单词。由此,按照ChatGPT目前的内容生产能力,几乎每14天便可以输出相当于人类全部印刷作品的内容量。虽然笔者没有找到这一研究之外类似的相关数据,但即便放大到14个月甚至更长的时间维度,这依旧是一个令人兴奋且可以预期的发展趋势。由此,我们可以预想,未来生成式人工智能输出的内容或将会成为全社会信息内容的主体。

• 难以规制AIGC将导致版权法适用价值的消弭

长久以来,各国版权法均坚持“只保护自然人创作”的基本理念,即内容生成过程中只有存在自然人的创作性贡献,才会被认定为作品、受版权保护。但从目前ChatGPT类产品的内容生成机制来看,实际存在难以证明具备自然人创作贡献的事实困境。版权法保护的是自然人的独创性表达,也即“对创作元素最终和具体的选择安排”。但是当人们向生成式人工智能输入“prompts”,进而直接输出内容的过程中,对于创作元素最终和具体的选择安排,恰恰是由人工智能“模型黑箱”而非使用人工智能的用户所实际完成。

2023年3月16日,美国版权局发布了专门的指南,表示“ChatGPT类产品生成的内容,因为难以证明存在自然人的创作性贡献,所以不构成作品,不受到版权法保护”。长期以来,完全由自然界、动物产生的内容素材都不会被认定为版权法上的作品。比如黑猩猩拍照,又如风力侵蚀形成的石像。在我国,现行《著作权法》对于作品和作者规定,“作品是指文学、艺术和科学领域内具有独创性并能以一定形式表现的智力成果”“创作作品的自然人是作者”。自然人以外的动物以及作为机器模型的生成式人工智能均不能成为创作主体,生成内容也无法构成作品。

当下,虽然说在“人机协作模式”之下,创作者可以通过对人工智能自动生成的内容“改编”(增加包含人类独创性贡献的内容)或汇编(内容的选择或者编排上体现独创性)等方式间接获得保护。伴随ChatGPT类产品内容生成能力的不断提升,未来社会绝大多数、有价值且被广泛利用的信息内容可能都将由人工智能所生成。囿于版权法“只保护自然人创作”的底层逻辑,上述内容却难以享有版权。但与此同时,受版权保护的人类作品却存在内容体量小、使用占比低、市场价值弱等现实问题。由此,不禁发人深思:在生成式人工智能时代,版权法的适用价值何在?

 (二) 客体权利层面:颠覆了“先授权、再利用”的传统范式

• “授权许可”难以实行:既无权利,何来授权?

版权作为一种法定权利,不同于物权等自然权利,是在法律上人为创设的一项权利,是为了激励内容创作和知识传播,从社会公有领域中为版权人划出的一块保护区。为了平衡权利人和社会公众间的利益,版权法仅赋予创作者授权和规制落入法定权利范畴的作品利用行为,比如复制、发行、信息网络传播等。但生成式人工智能模型对于他人作品思想、风格层面的“学习训练行为”实际难以落入既有版权法专有权利的规制范畴。

“既无权利,何来授权?”表面来看,生成式人工智能模型的“学习训练行为”类似于自然人阅读文字作品、欣赏美术作品后的“思考、吸收、再创作行为”,和既有的版权专有权利无法对应。若版权法对于“生成式人工智能时代”最为普遍和重要的作品利用行为—―“机器学习或者说模型训练”难以规制,那么“授权许可模式”在实操层面也便丧失了现实意义。深层思考,生成式人工智能模型的“学习训练行为”,作用的对象是在先作品中的“思想”而非版权保护的“表达”。在“思想表达二分法”规则之下,模型“学习训练行为”存在纳入版权权利框架的根本障碍。

即便打破“思想表达二分法”的制度屏障,将模型“学习训练行为”纳入版权专有权利范畴。亦仍将面临权利价值缺位的现实问题,即版权人难以对ChatGPT类产品未经授权的作品“学习训练行为”加以有效规制。原因在于版权人存在发现模型侵权、举证模型侵权以及侵权内容比对等方面的判定困境,后文将具体阐释。由此来看,或许需要从根本上反思版权法既有赋权和授权规则的正当性,以适应生成式人工智能时代的到来。

• “合理使用”亦无空间:既无侵权,何谈免责?

对于人工智能模型训练阶段未经授权的作品“学习训练行为”而言,从现有版权法“合理使用制度”角度,进行责任豁免的探讨似乎也缺乏实际意义。合理使用的制度设计在于,对本身构成版权侵权的行为,基于特定公共利益的考量,在符合一定要求后予以侵权责任豁免。但生成式人工智能模型的作品“学习训练行为”是对于作品思想风格的学习利用,难以落入版权专有权规制的范畴。既然目前上述作品利用行为本身不受版权法规制、不构成版权侵权,合理使用的责任豁免便无从谈起。
论及机器学习领域合理使用问题,则不得不提及“谷歌图书馆案”。早在2004年,谷歌公司便将数字化后的图书存放于服务器中,供用户以“检索有限文字片段的方式”发现所需图书。谷歌上述提供作品片段的行为虽落入“复制权”范畴,但美国法院最终认定上述利用行为不构成原有图书购买市场的替代,满足合理使用的标准。对于ChatGPT类产品而言,前文论述其内容生成机制实际是“学习在先作品中不同文字之间排列组合的概率,并细化到分散、海量作品中单字的引用”。因此,生成式人工智能输出的内容基本不涉及作品(甚至作品片段)的复制利用,相较“谷歌图书馆”而言,“侵权传播”概率更低、“市场替代”影响更小、“转换使用”程度更高。

生成式人工智能的兴起
否定了版权制度的救济机制

从版权制度的救济机制来看,生成式人工智能模型训练阶段的作品利用行为,本质上是一种机器内部的非外显性利用,版权人往往陷入事实上的维权举证不能和侵权判定困境。而平台责任领域立基于“内容传播环节”的“避风港制度”,面对“内容生成环节”的ChatGPT类产品的模型研发和商业应用平台,其适用价值便也难以为继。

 (一) 侵权标准层面:否定了“接触+实质性相似”的判定规则

• 版权人难以证明存在对自身作品的“实际接触”

在先创作者对于ChatGPT等生成式人工智能模型训练中未经授权的作品利用行为,存在现实层面的维权困境。虽然版权人难以发现侵权行为这一现实问题早已有之,但带来的维权挑战从未如此之大。例如伴随内容分法领域算法推荐技术的应用,版权人疲于应对海量的UGC(User Generated Content,也就是用户生成内容)侵权,陷入维权保护的“打地鼠”泥淖。但现实中,版权人至少可以从外在呈现发现作品是否被他人所侵权利用。生成式人工智能模型训练中的作品利用,事实上是一种模型内部、非外显的作品利用。这就导致了即使自身作品被人工智能模型未经授权的侵权训练,版权人实际上也无从发现。

既有的版权法遵循“接触+实质性相似”的侵权判定规则。在权利人主张生成式人工智能模型训练阶段存在侵权利用自身作品的场景下,首先便需要举证平台存在对自身作品的“现实接触”。但前述非外显的作品训练利用行为,导致版权人难以提供相应的证据,来主张模型训练平台“实际接触”到自身作品。如此一来,在先创作者的维权行为便难以为继。

• 版权人难以进行“实质性相似”标准的侵权比对

理论上,在先创作者也可以从ChatGPT类产品生成和传播的内容和自身作品存在实质性相似,进而倒推人工智能模型训练阶段存在未经授权的作品利用行为。然而实践中,从侵权比对环节下的“实质性相似”标准来看,权利人也会遭遇现实困境。因为生成式人工智能对于内容创作的颠覆性影响在于:通过对在先作品思想、风格的吸收学习,以一种难以预判的方式,输出和既有作品相区分的、全新的内容表达。由此,版权人在“实质性相似”侵权比对过程中,便会陷入ChatGPT类产品输出内容与自身作品“似曾相识”但又“似是而非”的困顿。

(二) 平台责任层面:遭遇了“避风港制度”的适用错位

• “避风港制度”立足“侵权传播环节”平台责任的规制

“避风港制度”诞生于1998年美国颁布的《数字千年版权法》,并逐渐发展成为全球平台责任的基础规则。“避风港制度”适用于目前互联网绝大多数的版权侵权情形:侵权内容是由用户生成和上传的,由用户承担直接侵权责任;对于网络平台而言,只有在知道用户利用其网络服务传播侵权内容,但未采取必要制止措施时,才需要就自身帮助侵权内容传播的行为承担间接侵权责任。伴随“小程序”“云存储”“算法推荐”等内容传播技术的普及应用,“避风港制度”也在不断遭受挑战,但规制“内容传播环节”平台责任的规则定位,始终未被突破。

• AIGC领域则需要关注“内容生成环节”的平台责任

相较于此前“避风港制度”下,网络服务提供者版权侵权责任的归责基础,在于是否促进了“用户侵权内容的传播”;生成式人工智能的模型研发平台和商业应用平台,作为新兴网络服务提供者,涉及的则是“用户侵权内容的生成”。在生成式人工智能技术的出现之前,平台侵权责任判定侧重于:“用户上传侵权内容(直接侵权责任规制的范畴)→‘传统的网络服务’扩大侵权内容传播(既有‘避风港制度’规制的范畴)”两个环节。在生成式人工智能技术的出现之后,平台侵权责任则需要关注:“用户利用‘生成式人工智能’产生侵权内容(新‘避风港制度’规制的范畴)→用户上传侵权内容→‘传统的网络服务’扩大侵权内容传播”三个环节。

生成式人工智能技术的发展,已经将平台版权侵权规则推向了新的发展阶段,即从单纯关注“内容传播领域”的平台责任向关注“内容生成和内容传播两个并行领域”的平台责任转变。或许,我们已经再次站到了《数字千年版权法》诞生时的制度十字路口,需要从技术发展、版权保护和内容传播等视角综合思考,如何创设属于生成式人工智能时代的新“避风港制度”。

结论与展望

面对ChatGPT类产品的快速发展,我们不禁感叹生成式人工智能的“创作时代”,或许真的是“将至已至、未来已来”。在改写内容领域创作逻辑的同时,也对版权法的底层制度带来一系列颠覆性影响。如若说既有的版权制度从创作行为、规制主体、保护客体、权利范畴、侵权判定以及平台治理等层面都难以应对这一冲击挑战。那么本文所论证的核心观点“生成式人工智能的兴起引发版权制度的消亡”,应当说并非危言耸听,而是揭开了这一难掩趋势的帷幕。

人工智能领域技术的迭代速度惊人,从GPT3.5到GPT4只用了不到4个月,但各类性能都实现了质的提升:OpenAI官方数据显示,在美国律师执照模考中,GPT-4得分为前10%而GPT3.5为倒数10%;在生物奥赛排名中,GPT-4可达前1%而GPT3.5则是后31%。由此,出现全面超越既有ChatGPT类产品逻辑推理和内容生成能力的新一代AI技术应用,很可能并非仅是一种长期假想而是可预见的短期必然,并在既有版权制度无力回应时加速其消亡。

鉴于我国在生成式人工智能技术研发和应用领域尚处于起步阶段,且与域外相比仍存在较为明显的差距,本文在“破题”之后并不试图急于提出新的“立题”之道。因为笔者相信过早提出规制建议,稍有不慎便可能束缚技术的进步和产业的发展。新一轮生成式人工智能方兴未艾,制度层面科学、可行的版权应对路径,仍有待理论和实践层面进一步的观察和论证,相信这将会是一个价值平衡、利益博弈以及最终立法回应的长期过程,难以也不宜一蹴而就。

(本文原载于2023年第5期《探索与争鸣》,本文仅作为学术探讨,不代表作者所在机构立场。)