大模型价值对齐：多维视角与前景

核心提要：

1）价值对齐的复杂性：人工智能中的价值对齐概念本质上是模糊和多方面的，涉及到伦理标准、文化规范和主观人类价值的问题。

2）技术与非技术层面：解决AI价值对齐需要采取双重视角，包括技术解决方案，如基于样本的学习，以及非技术框架，如治理和监管措施。

3）安全与治理：在人工智能中需要健全的安全与治理机制，来管理隐私、知识产权以及生成模型的潜在误用问题。

4）跨学科方法：人工智能价值对齐问题超越了学科界限，需要技术、治理、法律、伦理和社会视角的协作方法。

5）人工智能作为社会实体：价值对齐应通过社会接受度的镜头来看待，将人工智能从一个简单的工具转变为能够进行自然语言对话和学习社会规范的实体。

6）技术可靠性：除了性能之外，人工智能模型的可靠性和可解释性对于信任和与人类价值的对齐至关重要。

分享人：肖仰华、张拳石、许可、方亮、王炳浩、李珂

整理人：曹建峰、要苏慧

2023年10月26日，由腾讯研究院华东基地、腾讯优图实验室主办的第一期“智创沪联”活动在上海诺布中心正式举办。来自上海复旦大学计算机系的肖仰华教授、上海交通大学的张拳石副教授、对外经济贸易大学法学院的许可副教授、安远AI资深研究经理方亮、蚂蚁集团全面风险管理部专家王炳浩，以及腾讯优图实验室的高级研究员李珂围绕AI对齐的方法论、监管实施、治理、问题挑战等话题深入交换了观点见解，从不同角度出发，剖析并肯定了“AI价值对齐”对人工智能行业发展的重要意义。作为本场圆桌论坛的主持人，腾讯研究院高级研究员曹建峰表示“价值对齐”这一话题涉及诸多学科，需要从技术、治理、法律、伦理、社会等多个层面进行讨论，以便推动价值对齐从共识性原则转向工程实践，确保打造安全可信的未来AI。以下为圆桌研讨的内容整理。

肖仰华：
价值对齐的内涵与争鸣

第一，是什么的问题。我们要承认价值对齐这个概念本身存在一定的模糊性、不确定性。价值对齐是两个词，第一个是价值，第二个是对齐，两个组合之后还会衍生出新的内涵。人类对什么是价值的定义本身已经相对模糊，我们其实在很多不同的层次或不同的视角下使用价值；对齐更是一个很复杂的问题，跟谁对齐？跟个人对齐还是跟某个群体对齐？跟哪个文化对齐？跟东方的文明、文化、价值观对齐，伦理观、道德观对齐，还是跟西方的主流价值观对齐？因此本身跟谁对齐是很复杂的事情。此外，对齐与否的评价又是一个很难的问题。所以我们要承认价值对齐的艰巨性、复杂性、模糊性。

第二，怎么做的问题。我们人相对于机器而言的超越性体现在人可以跳出给定问题的层次去思考问题，如果要回答这个问题，首先要界定为什么价值对齐这么困难，弄明白价值对齐的难点、痛点，才有可能真正回答怎么做的问题。分两个层次，技术层面和非技术的层面：非技术包括治理和监管层面。技术层面难在第一样本少，关于价值的样本很少，因此价值调教很困难；第二存在很多模糊，边界说不清，这一点在前面已经讲述过；第三具有主观性，不同人群存在着冲突的难以调和的价值观。意识到这些难点，其实很多方案自然而然就出来了。

第三，价值对齐以后还有哪些安全治理可以做的事？价值对齐知识大模型安全应用的前提之一。大模型的安全治理还涉及众多内容，例如隐私、版权、幻觉问题。其实大模型的安全问题已经在整个社会引起非常广泛的讨论，包括社会安全、数据安全等问题。需要强调的是大模型的安全治理绝不简单是个技术问题，其社会治理的成分更重。很多时候大模型发展所引发的社会影响是我们首要关心的问题，技术更多地是服务于社会治理的目的。

第四，争鸣问题。现在有很多危言耸听的说法，人工智能要毁灭人类了，首先我们要重视这个观点，人工智能的确对整个社会的影响冲击是非常巨大的，但是这种毁灭方式不是某些艺术作品里展示的从肉身上消灭人类，这是想象、科幻，但真实的毁灭性影响可能是温水煮青蛙的方式，不知不觉间带来长期影响或者社会振荡。这种影响一开始是非常缓慢的而细微的，但是随着AGI的大规模应用，渗透进了人类社会的每一根毛细血管之后，其对人类社会的影响可能就是极为显著的，甚至危害到人类种群的倒退与灭亡。如果我们不做好审慎评估、积极准备，从时间尺度上来看，十年之后、二十年之后，我们就可能要面对AGI滥用所导致的排山倒海般的负面影响。

随着AI大模型的快速发展，如果我们在使用场景上不对大模型的使用做出一定限制的话，可能导致大模型的滥用，从而带来人类智力的倒退，例如AGI如果被基础教育阶段的学生滥用，则可能剥夺了孩子们训练思维的机会，导致智力的用进废退。任何一次先进技术革命都代表了一种先进生产力。任何一种先进生产力的都需要人类社会的生产关系以及相应的社会结构进行相应调整。生产关系适应生产力的过程，往往伴随着社会转型的阵痛。历次技术革命（比如蒸汽与电力）本质上是在替代我们的体力，其过程是缓慢的，其影响仅限于我们的身体（比如将我们的四肢从繁重的体力劳动中解放出来），给我们留下了充足的缓冲期，人类社会有足够时间去接受、适应并调整社会结构。但通用人工智能技术发展速度太快，其替代的对象又是人类的智力活动，其影响是人类智力本身的倒退，所关系的是人之为人的本质，所影响涉及社会结构、就业结构的稳定。因此，如何将其发展速度控制在人类社会能够适应的范围内是当下我们需要密切关注并回应的问题，回答这个问题才是讨论AI所带来的人类生存风险这个话题的有效方式。

张拳石：
基于可解释性的大模型可信评估和价值对齐

从技术的角度来看，大模型的价值对齐背后有一个根本的问题，即大模型到底能否被解释清楚？目前大部分涉及大模型价值对齐的讨论往往关注它的答案跟人类的价值是否一样，但这不是根本的问题。重要的是在一些重大任务上，我们能否信任它？

对于神经网络，我们不是从表象去解释，是从机理上验证它有多少信号是可信的，有多少信号不可信的？能不能彻底解析出来？神经网络的输出信号可以被严格解释成一些符号化的概念，比如在一般模型上可以被解释成100个以内不同数据单元之间的交互，对大模型来说这个数值可能是300个，考虑到任意遮挡方式，如果在各种不同状态下这些节点的图模型与神经网络的输出保持一致，我们就能保证解释的正确性。即使结构不同的大模型，其解释方式可能是殊途同归的。

所以我一直在想，我们到底能否将大模型解释予以落地，落地的标准是什么？前段时间这个问题一直集中在一些局部的损失函数或结构，但我认为这不是一个很好的解释，我们应该绕开大模型复杂的结构参数，直接从输入输出上看等效建模了哪些概念，哪怕每个大脑中神经元连接方式可能不一样，但我们的认知是殊途同归的。今年5月份我们得到了理论验证，而且在这方面我们还可以精确的解释大模型的泛化性、鲁棒性。我们绕开了传统的方法，量化出所建模的概念数量，从概念上重新定义鲁棒性、泛化性。

目前这套技术在大模型训练中一个最重要的问题，即大模型训练时候是黑盒，部分数据在训练一段时间后可能已经破坏了大模型的表征，我们能否跳出端对端的概念表征层面判断哪些概念是过度拟合（Overfitting）的？如果一年后、两年后再去评测黑盒的质量并非有效的办法，所以我们可以提前在大模型表征上终止过度拟合的样本，提升效率。在性能方面，中国大模型和美国大模型可能差不多，性能可能有天花板，但更重要的是大模型是否可靠，这是很好的切入点。我们希望通过与各方交流合作，共同探讨当前技术进展，优化算法，提升效率，缩短训练时间。

许可：
价值对齐就是AI的社会化

首先要问：AI为什么需要对齐？AI对齐不是源于风险，而在于AI不可解释。实际上如果可以解释，那么内在逻辑很简单，即要求设计和操作技术的人承担相应的对齐义务，不是机器对齐，而是人人对齐。就如人持枪杀人，是人杀人而非枪杀人，因此不需要枪和人的价值观对齐，枪是服务于人的设定，回到人的对齐就好了。正是因为AI黑箱，所以现在无法清楚划定各方责任，在无法明确到特定主体的特定责任时，就要求AI系统承担抽象的道德责任和伦理责任，这就是“对齐”。

问题来了，到底跟谁对齐呢？人们的价值观能对齐吗？事实上，社会纷争绝大多数就是人和人不对齐造成的，如果我们讲对齐指的是价值观的对齐的话，我认为很难实现。事实上我们看欧盟、美国、中国以生成式人工智能为对象的治理都在谈遵循各自价值观。中美欧三方的价值观如此不同，要对齐从某种意义上来说是不可能实现的任务。

不过如果我们从特定长远价值观来看，期望建立全球底层共识则有可能会成功。但是最大公约数的价值往往是最空洞的价值，也并不能保证每个人对每个价值的理解是一样的。

既然如此，我们讨论对齐到底是在讨论什么？或许可以跳出哲学和道德无穷的争论，而是转向社会学的维度。就此而言，谈论对齐的真正意义是让AI做一个被社会接受的人。生成式AI的突破性就是从工具转变为要与人类进行自然语言对话了。从社科学上看，自然语言的习得代表了社会化的第一步。所以实际上的“对齐”，既不是法律上的，也不是伦理学意义上的，而是一种社会化的过程。我们可以把AI想象成一个儿童，它要学习社会价值规范，然后成为社会中的一员。尽管经过社会化的人同样可能秉持不同的价值观，但仍需要遵守社会最基础的原则和要求，并成为一个负责的主题。

社会化有两种路径。第一种社会化是“养不教父之过”，由一个权威定规立则，人工智能的符号学派就是如此。第二种社会化被称为“镜中的自我”的习得，即通过他人的评估校正自己的行为，这种观察、模仿、反馈的过程就是社会化的过程，这是最有效的对齐，这也是联结主义的价值和当前生成式AI的成功路径。

问题又来了，什么样的方法能够去实现这种镜中的自我呢？社会化需要让人工智能能够去观察、去模仿，有反馈，从而形成一个闭环。能够通过别人观察自己，否则无法做到真正的对齐。因此，基于人类反馈的强化学习（RLHF）就是非常重要的方法。除此之外，机器和机器之间能否相互观察和学习并得到反馈？如果真正做到对齐，核心不在于一种特定的价值观，而在于能够形成技术上的闭环，并以一定的方法灌输下去，达到一种可对话、可调整、可控的状态就可以，不需要更往前走一步，因为那一步永远达不到。

方亮：
需打通AI安全技术与治理，
模型评测或可作为关键的基础设施

当我们谈到“价值对齐”（人机对齐）时，我们可能在谈论的是三种不相互排斥的概念：

第一种概念指的是“整个AGI安全领域”，旨在通过系统化方法控制高级AI。比如OpenAI的“超级对齐”团队和DeepMind AGI安全团队的工作都围绕这个目标展开。在2021年，高文教授和黄铁军教授也共同撰写过关于AGI安全的论文《针对强人工智能安全风险的技术应对策略》。

第二种概念指的是“AI安全的一个子领域”，即如何引导AI系统朝着人类的预期目标、偏好或伦理原则改进？这里比较有名的分解是人工智能安全研究中心（CAIS），也是发AI生存性风险声明的机构，把人工智能安全问题分为四个层面：1）系统性风险，降低整个部署的系统性危害；2）监测，通过标识识别危害，检测恶意应用，监控模型的预测能力及意外能力；3）鲁棒性，强调对抗攻击或小概率黑天鹅的实践影响。4）对齐问题，更多指模型的内在危害，使模型能够表征并且安全优化难以设定的目标，使其符合人类的价值观。

第三种概念指的是“确保LLM回复安全内容的对齐技术”。例如RLHF和Constitutional AI。

前两个概念，目标在于降低AI带来的极端风险，这也和这个领域的缘起有关。但国内目前谈的更多的是第三种。其实，对于AI对齐/价值对齐/意图对齐等，还有很细微的差别。

这里，值得思考的关键点，是安全与能力的平衡(Safety-Capabilities Balance)：我们把对齐看作一种提升能力的技术，还是提升安全的技术？我们在提供新的能力以提升对齐的时候，会不会带来新的风险？

具体怎么做？从治理的角度我认为比较好的结合点有以下三方面：

第一，提出更好更具体的风险模型以针对性应对。高阶的AI会有操纵、欺骗、态势感知等能力，但好的风险模型应有助于大家理解和应对。目前AI安全研究人员核心的担忧是未对齐的权力寻求（misaligned power seeking）及工具策略（instrumental strategies），比如自我保护、自我复制以及获取资源（如金钱和算力），这些策略本身能够帮助AI更好地完成其他目标，因此可能在高级AI系统中出现，然而这些策略有可能与人类产生对抗。

相应总结出两类技术原因：一种是规范博弈，也被称为外部不对齐(Outer Alignment)。AI系统为了获得高奖励而在人类指定的目标函数中利用漏洞，而实际上并没有实现人类预期的目标；另一种是目标错误泛化，也被称为内部不对齐（Inner Alignment），使我们指定了一个“正确”的奖励函数，训练过程中使用的奖励也不允许我们可靠地控制模型行为泛化到新的情境。

第二，评测能够较好地衔接安全和治理问题。DeepMind做了关于极端风险的模型评测（Model evaluation for extreme risks），危险能力评测，关注模型在多大程度上有能力造成极端伤害；而模型对齐评测，关注模型在多大程度上有倾向造成极端伤害。将评测嵌入到治理流程，比如嵌入内部研发员的评测环节、外部的访问环节、或通过外部独立第三方的模型审核，也能够更好帮助公司或监管机构更好地识别风险。

上个月对齐研究中心的评测团队提出了负责任的拓展策略（Responsible Scaling Policy，RSP），其基本思想即根据潜在风险可能造成的伤害制定相应等级的安保措施。这一方案的好处体现在如下三方面：第一，是比较务实的立场，因为基于评测而非基于猜测；第二，从以谨慎为导向的原则转向为继续安全研发所需的具体承诺，如信息安全、拒绝有害请求、对齐研究等；第三，基于评测能更好制定标准和规范，可能包括标准、第三方审核和监管，自愿的RSP可为流程和技术提供测试平台，有助于未来基于评估的监管。

第三，应对风险定级挑战，从预测风险到监测风险。不论是欧盟还是国内生成式人工智能都会提到基于风险的监管框架，但AI横向治理路径中绕不过的挑战，某种程度上评测其实可以换一个思路，即从风险定级转为动态监测。这可能有助于治理路径迭代，注重动态的风险监测机制，同时重视应用技术手段治理技术风险。

总之，我建议我们应认真对待安全问题：

第一是预测预判：认真对待这样一种可能性，做更好的基于技术的风险模型、概率判断。“未雨绸缪”的好处大于“虚惊一场”的坏处。

第二是技术角度：分配更多研发资金用于人工智能安全和价值对齐研究，建议与发展人工智能能力的投入相当。

第三是治理角度：通过模型评测等工作打通AI安全技术与治理，前沿AI的风险，需政府有效监管。

王炳浩：
价值对齐实践的关键挑战是建立共识

非常感谢有这么一个机会参与到和大家的学习交流过程中。我专注的领域是大模型的风险和AI伦理，因为偏实操层面，所以对大模型的评测、防控的难点感触比较深。

第一，我认为价值对齐的核心还是要定义价值是什么？我们列举了非常多的技术手段从技术采集到训练、到推理去解决对齐问题，但这个最原始的价值观或知识体系本身是怎么来的，应该怎么注入一直有疑问，这个问题可能是技术可以解决的。人无完人，谈论到价值观，比如公序良俗和遵守法律法规、道德伦理，每个人都有不同的解释，这对于大模型来说一定是模糊的，我们怎么把它细化？我比较认同几位老师说的一个是共识，一个是建设信任，所以我们其实也在尝试同各个利益相关方、监管、专家以及用户和我们内部人员达成共识。

第二，有了知识体系之后，我们在应用过程中如何校验它是否对齐？即怎么去做评估？评估目前还有非常多的难点，比如说我们把任务简化，例如从一个开放式的问答简化成一个选择或者是判断，让模型自动判断，但这样最终还是会将我们对于价值观的理解或解释出现变化，我们更加无法确保模型是否学到我们所提倡的价值。

因此，在我看来，价值对齐在实践中是非常复杂的系统工程，整个过程凸现的两个关键词，即建立共识和建立信任。

李珂：
从人类教育的角度思考模型价值对齐

在大模型落地方向中，我认为大模型价值对齐问题与人类教育有着相似之处。因此，我将从人类教育的角度探讨这一问题。

价值对齐在做什么？我认同许可老师的说法，让模型做一个“人”。在人的教育上，我们希望每一位受教育的人都能遵守基本的法律法规、符合道德标准甚至更进一步地做一个好人，模型的价值对齐也是如此，只是转化为了对模型的要求。教育本身是没有标准化的准则的，每个人都有自己心中的完美人设，所以我们在模型价值对齐上也很难找到大家都认可的黄金标注，生产出一个让所有人都满意的黄金模型，只能尽可能去逼近。

价值对齐的方法可以从教育学中找灵感。基于人类教育和模型价值对齐两个问题的对偶性，我们可以借鉴教育上的手段来思考如何设计更好的模型价值对齐方法。作为模型价值对齐的主要手段之一，人类反馈的强化学习（RLHF）的核心是如何高效地解决监督信号来源的问题，通过设计奖励模型或者是代理模型的方式来使流程更加高效化，这一点就像人类在学习过程中会使用工具或者寻找助手一样。再比如，人类在上学时除了老师单方面地教也会相互之间进行学习，所以我们在模型训练过程中也会使用一些相互学习（Mutual Learning）之类的方式来辅助训练，从教育学中借鉴灵感。

如同对人的要求会分层次，对模型的价值观要求也应当是分层次的。第一先让大模型守法，不能出现有害或教唆犯罪的问题，下一步希望他在满足法律法规基础上还能符合道德要求，最后一步再希望模型做一个“好人”。这个层次区别是生成式大模型的法律法规在制定时可以参考的思路。

大模型促进教育公平。新技术出现总会有人担心对人类自身产生威胁。但回顾人类的历史，没有哪个技术的出现真正对人类造成了威胁，毁灭了人类，人类最终能够找到方法使其在可控的区间内发挥价值。我认为当下不必对大模型的出现产生过度的担忧，相反地，我认为大模型的出现将打破教育资源的垄断，增强教育的普惠性。在过去，知识只被少部分的人掌握，教育的普及让每一位孩子都获得了相同的受教育的权利。而大模型的出现则进一步地让每一个人都有机会获得某个领域最前沿的专家知识或专家建议，长期来看对于人类文明的帮助远远高于它在过程当中可能存在一些风险。

共同展望

从技术角度看，安全和对齐的投资至少应与人工智能能力发展的投资相当。由于大模型的理解和人的理解不是一一对应的，但我们的研究从实验上可以将其内部决策变成两套可分析的离散化信号，去判断失误或认定问题，探索能够落地的技术路径。

从治理角度看，应打通技术和治理，评测是一方面，AI的风险还需要政府的协调和国际的监管。大模型对于数据、算力、算法三个维度的要求都非常高，希望未来能够看到以政府牵头，拉通高校、企业三方角色，助推大模型迈出质的飞跃。我们相信未来会涌现更多跨学科或跨领域的合作融合，共同塑造共识，共建可信价值观体系。

从发展角度看，当前大模型是百模大战甚至是千模大战的状态，但很多竞争是低水平的，如何向高水平竞争去发展？上海可以从以下两方面入手：第一是建立高质量公共数据库的问题，其一，来自公共数据；其二，鼓励共享私人数据、企业数据。第二是算力共享的问题，从发展角度看，训练大量的算力能否有算力系统性支持。

从健康角度看，要追求符合人类价值观的东西，降低目标，即应划定清晰、明确、可操作的基础底线，确保模型不作恶，最终促进大模型的健康可持续发展。

从预判角度来看，我们需要认真对待未来5-10年可能出现强人工智能，甚至带来较大风险的可能性，要提出更具体的风险模型和概率预判，未雨绸缪的好处总大于虚惊一场的坏处。我们今天讨论价值对齐的问题有一个暗含的前提，即我们似乎是想让大模型或人工智能代替我们去一些价值判断、价值决策，但这个倾向本身就存在风险，我们要审慎评估它的安全边界，设立好人工智能安全应用的基本原则，让大模型只做生成不做判断，只做参谋不做决策，多干活不拍板。人的伦理价值太过复杂，人类不应向机器（即便是极为智能的机器）推卸自身事务的判断与决策责任与义务。价值判断是人类作为主体性存在不可推卸的责任。

智创沪联是腾讯研究院华东基地为业界打造的城市品牌系列活动，以“产业机遇、场景实践、未来引擎”为脉络，第一时间追踪和分享前沿科技带来的新机遇、新场景，全方位的解析新技术、新政策给行业带来的变化、发展与影响，链接政、产、学、研及生态伙伴，交流分享数字赋能、转型实践，发挥数字经济引领作用。

核心提要：

肖仰华： 价值对齐的内涵与争鸣

张拳石： 基于可解释性的大模型可信评估和价值对齐

许可： 价值对齐就是AI的社会化

方亮： 需打通AI安全技术与治理， 模型评测或可作为关键的基础设施

王炳浩： 价值对齐实践的关键挑战是建立共识