直面AI价值对齐挑战

本文首发于《瞭望》新闻周刊，原标题《直面“价值对齐”挑战》。

过去一年多，以ChatGPT为代表的大语言模型（LLM）集中爆发，并衍生出文生图、文生视频、文生音乐等多模态应用，让人们感受到了人工智能蕴含的无限潜力与可能性。

有预测认为，2032年，生成式人工智能市场规模有望增长至1.3万亿美元，年复合增速将达到43%。

但是，随着大模型应用在各个领域不断深化，“AI威胁论”的声量不断扩大。面对AI展现出来的强大实力，人工智能的“价值对齐”成为热门领域。

简单来说，“价值对齐”，就是让人工智能的“价值观”与人类的价值观保持一致，以确保人工智能以对人类和社会无害的方式行事，避免对人类的权利造成干扰和伤害。随着以OpenAI、谷歌为代表的众多科技企业入局，价值对齐也逐渐从一个学术概念，成为备受人工智能产业关注的发展理念。

与人类价值观对齐

2023年7月，在此次生成式人工智能浪潮中扮演关键角色的企业OpenAI宣布成立一个名为“超级对齐”（Superalignment）的新部门，该部门的目标旨在4年内找到让超级智能的AI系统实现价值对齐和安全的路径。OpenAI还承诺，将投入20%的计算资源专门用于对齐超级智能。不仅是OpenAI，谷歌、微软等知名科技公司也纷纷成立了类似的价值对齐部门或团队。

随着深度学习开启新的阶段，人工智能越发强大复杂，加之其运行逻辑存在“算法黑箱”，使人类从技术层面理解AI的决策过程越发具有挑战性。为规避风险，人类尝试从人工智能创建之初，以技术性手段干预确保人工智能系统与人类价值观保持一致，即让AI与人类“价值对齐”。

以当前人工智能发展进度来看，价值对齐并非杞人忧天之举。随着生成式人工智能参与人类工作和生活领域的广度和深度逐渐扩大，其潜在风险的波及范围就越大。特别是当AI被应用到司法体系、医疗系统、社会福利以及教育等公共领域时，AI的安全问题可能进一步演变为社会问题。尽可能防止AI的有害输出或滥用行为，即当前价值对齐工作的一项核心任务。

价值对齐的基本目标，是要确保即便人工智能发展为通用人工智能（AGI）甚至是超人工智能，拥有了媲美或超越人类能力、能够执行任何任务，其道德原则、伦理规范和价值观，也必须与人类保持一致。

价值对齐之难

AI价值对齐的前提是人类具有一套相对恒定且统一的价值标准。从安全角度考虑，在推动对AI的价值对齐之前，应先就对齐的价值观进行协调统一。但是，大到生死观，小到对美丑的认知，全球的多元文化背景和价值体系使得价值对齐的标准统一进程难以推进。

而即使人类准备好一套通行的“人类价值观”，把价值观“对齐”给AI是否能够实现？换言之，AI是否能真正理解人类价值观并纳入自己的运行机制中？

在技术层面上，现在通行的价值对齐方法主要从技术性和规范性入手。规范性的调整，即设立人工智能应遵循的伦理和道德原则，诸如透明性、安全性、可追溯性与可解释性，以指导对应系统的开发。技术性手段主要通过包括“人类反馈强化学习（RLHF）”“合作逆强化学习（CIRL）”“监督精调（Supervised Fine-Tuning）”等在内的方式，将通用的伦理原则转化成现实可操作的技术路径，避免AI的执行路线发生扭曲。

不过，人类复杂的伦理原则和价值基础，哪怕是较为基础的“有益”“诚实”“公平”等概念，也很难仅仅通过技术路径进行抽象、简化并实现对齐。此外，我们也无法预料，现行的价值观在未来是否适用，如果不适用，技术又该如何调整。

牛津大学人类未来研究院院长尼克·波斯特洛姆认为，创造能够理解人类价值观的人工智能至关重要。然而，人类情感的复杂性和文化的多样性，使得通过输入几行代码来教导超级智能机器人人类到底关心什么，几乎是个不可能完成的任务。

随着人工智能开始承担更复杂的任务，人类开展对齐工作甚至是简单评估，都将变得难以想象的复杂。业内将人工智能系统对齐的额外成本称为“对齐税”，底座模型能力为了实现对齐可能会增加额外的开发时间、产生额外的计算或性能下降等。

这些成本问题也是推行价值对齐的阻碍之一。即便不考虑训练过程中的碳排放带来的环境问题，价值对齐涉及的人工智能再训练也需耗费巨额成本。数据显示，GPT-4的原始训练成本就已经达到1亿多美元，再训练成本更不可估量。

目前，OpenAI尝试通过“AI自动对齐研究员”来控制成本，即训练一个大致达到人类水平的AI研究员，再投入算力快速迭代并实现自动对齐。尽管这种思路可在一定程度上兼顾发展与安全，但也可能引发新一轮的信任与监督问题：如果人类让系统接管部分甚至全部的对齐研究，系统是否会试图欺骗人类？系统的价值安全又该如何保障？

而当AI发展的速度超过人类价值观对齐速度时，价值对齐的过程可能将演变为，谁掌握了最先进的AI技术，谁就拥有了对齐价值观的决定权，进而拥有了定义AI甚至人类价值观的权利。

何解“价值对齐”

价值对齐，是人工智能伦理领域最根本也是最具挑战性的概念之一。它是推动人工智能向着符合人类利益的方向发展的必要机制保障，也关乎未来更强大的人工智能的安全控制。

如同人类尚无法清晰剖解AI的意识生成问题一样，价值对齐的实现也具有较高的复杂性。它需要广泛的学科和社会参与，更需要持续而长期的讨论，在有关“价值”的概念以及在实现“对齐”的方法等层面达成共识。同时，价值对齐的工作事关人类未来的整体利益，更广泛紧密的国际合作有助于对齐工作的推进。

另一种思路是，与其花大力气拓展价值对齐，不如先专注于AI能力的发展，探索更多应用的可能性。毕竟，在人工智能的发展水平一定程度上决定着未来人类价值“定义权”的背景下，一个能力落后但对齐程度高的AI也难以满足国家竞争力培育的需要，释放出足够的潜力。

因此，以发展的眼光看待价值对齐问题，聚焦实际问题和具体困难，或许也是一种解法。