作者
曹建峰 腾讯研究院高级研究员
胡锦浩 腾讯研究院助理研究员
科技伦理成为“必选项”和“必答题”
以伦理即服务的方式消除伦理要求与技术实践之间的隔阂
在此背景下,AI伦理行业继续方兴未艾,AI研发者和使用者对伦理领域的重视程度也愈发浓厚,一种新生的实践理论呼之欲出: 伦理即服务 (Ethics as Service) 。 2021年初,Jessica Morley等国外学者在论文“Ethics as a Service: a pragmatic operationalisation of AI Ethics”中提出了“伦理即服务”这一概念。 简言之,“伦理即服务”旨在运用科技工具或其他方式将抽象的伦理原则转译为具体的服务措施,以数字化服务工具的方式将伦理要求嵌入AI产品与服务的全生命周期,从而推动AI伦理的实践和落地。
尽管该理念的愿景非常美好,希望切实推动AI伦理的实践和落地,但距离真正实现将科技伦理嵌入技术服务还存在一些不足。 其中,伦理标准的抽象性、不确定性以及多样性,是制约将伦理转化为服务工具的首要因素。 在众多关于伦理框架的文件的描述中,这些伦理原则涉足领域广泛,其标准涵盖了透明、公平、责任、隐私、信任、安全等内容。 但在实践中,这些标准可能会随着不同国家的文化、风俗、习惯而不相一致,也导致AI伦理从概念转化为实践存在着较大的理论难题,需要通过国家立法和行业标准的“软硬治理”,消除由概念带来的模糊性和不可执行性,在抽象原则和技术工具之间建立起沟通桥梁。
同时,作者在论文中认为,除了伦理定义上的模糊,在实现AI伦理与技术耦合过程中,还存在着一些技术限制:
首先,伦理转译的工具和方法大多不具有强检验性 (extra-empirical) 。 其主要体现在伦理标准的选择上,AI实践者会倾向于选择与自身价值观和理解认识相一致的伦理工具,而不是与社会的主流偏好相一致的伦理工具,这意味着开发者可以自主制定算法实践的评估标准,但自身却不受社会普世价值的约束,导致这些转译工具可能面临人为操纵的风险。
其次,许多既存的转译工具和方法都属于分析和判断型 (diagnostic) ,而非规范和确定型 (prescriptive) ,使得大部分的伦理工具欠缺实效性。 例如,在算法偏见的场景中,伦理工具虽然能够提示是否存在偏见问题,但却无法提供解决偏见的路径。
最后,伦理转译工具通常会被开发者用于完成某些程序的一次性测试 (one-off test) ,只能在系统设计之初对其合乎伦理性进行检测,而无法在之后对其进行贯穿生命周期的重复审查。
因此,作者认为,有必要定期检查算法系统的伦理影响,至少经过三个阶段的检验程序: 确认、验证、评估。 确认程序旨在检验算法系统的性能是否良好; 验证程序旨在检验算法系统是否遵循了正确的开发流程; 评估程序旨在检验算法系统在部署期间是否能保持正确的运行状态 (Floridi, 2019) 。 有学者 (Arnold & Scheutz, 2018) 认为,除非伦理评估成为算法系统的必备选项,否则难以使伦理转译工具 (pro-ethical translational tools) 对AI系统的伦理影响 (ethical implication) 产生积极作用。
此外,上述对伦理工具的批判也引发了人们对伦理工具的质疑,认为伦理难以甚至不可能嵌入算法的设计、升级、部署以及使用等算法流程。 然而,诸如医疗伦理、搜索伦理等算法应用领域的经验表明,将伦理原则付诸AI实践并非不切实际,而且有利于保护个人、团体、社会以及环境免受算法伤害,激励AI产出最优的算法结果。
作者在文中认为,“伦理即服务”是可实现、可操作的,但在研发思路上要满足以下两种标准: 一是在抽象的伦理概念和具象的技术措施中达成妥协,也即,伦理原则不必过于抽象,也不必过于具体,伦理转译工具不能过于严格,也不能过于宽松; 二是摒弃一次性、一揽子测试的伦理审查机制。
AI伦理服务是一项长期性、持续性的活动,不应以暂时性的审查结果为目标。 同时,AI的开发机制应当是可回溯、可反思的 (reflective) ,因为这种开发理念能够助益AI从业人员 (practitioner) 理解自身在特定环境下的主观目的 (subjectivity) 以及潜在偏见,从而揭示有悖于伦理的算法结果为何出现,也有利于对此类结果制定合适的解决方案。 上述思路对于伦理服务工具的设计、开发以及应用而言,也极具启发意义。
AI伦理服务产业方兴未艾,为AI产业补上缺失的一环,助力可信AI发展
开发伦理工具是提供伦理服务的基础,也是让抽象的伦理原则操作化的重要方式。 为此,在国内,谷歌、微软、IBM等头部科技公司开始积极研发伦理工具,越来越多的初创公司也开始投身于AI伦理市场,AI伦理开启了由框架到工具、由工具到服务的产业化道路。 谷歌、微软、IBM等科技公司不仅主动研发伦理工具,而且通过将伦理工具开源化,或者在云服务上集成化来促进行业践行AI伦理。
例如,在算法模型安全领域,微软公司发布了一项名为Counterfit的对抗性技术开源化项目,旨在帮助开发人员测试AI系统和机器学习的安全性问题,在不同环境中针对合作伙伴机器学习模型展开测试,继而为AI企业的算法安全提供合适的风险评估工具,以确保AI业务的稳健性、安全性以及可靠性。
IBM公司依托其Watson OpenScale平台,通过IBM云和IBM云私人服务提供伦理服务,帮助企业在达到充分透明度、实现可解释性与公平性的情况下大规模运行和操作自动化AI系统,确保在AI模型在设计、研发、部署期间始终保持公平性、可解释性以及合规性,并且可以检测和纠正人工智能模型在生产中的数据漂移问题,以便对其进行故障诊断,从而提升模型性能。
谷歌公司则在谷歌云上规划AI伦理服务化的计划,以帮助其客户发现和修复其人工智能系统中的道德问题,相关服务可能包括检测算法歧视、制定AI项目的伦理指南、对客户的AI系统进行审计等等。
图二: 国外科技公司开发的伦理工具及服务
在现阶段,除了头部科技公司开发AI伦理工具、提供相关AI伦理服务外,国外AI产业开始出现以专门提供伦理服务为主要业务的初创公司。 该类初创公司并不关注于人工智能技术研发,而是为了帮助从事AI技术研发应用的AI企业应对其AI系统中的潜在伦理问题。 AI伦理创业公司的出现,可以弥补AI产业化中缺失的伦理一环,助力可信、负责任AI的发展。 类似于Parity AI、Fiddler、Arthur等小有名气的初创公司纷纷专注于不同伦理领域的技术支持和服务,旨在为其他科技公司提供更具专业和效益的伦理服务。 AI伦理服务不仅可以帮助AI企业建立负责任的人工智能系统,还可以为该类企业现有的人工智能业务提供道德指导,从而促进整个AI产业更好思考、应对伦理问题,确保科技向善。
AI伦理创业市场的兴起并非毫无逻辑,其原因主要在于:
第一,科技企业在日常的AI技术研发上已经投入或占用了企业研发人员大量的时间与精力,在技术研发之外再要求其关注AI伦理问题则会导致分身乏术,并非所有AI企业或团队都愿意投入时间研发AI伦理工具。
第二,人工智能技术本身的研发成本始终高昂,并非所有AI研发企业都能够有充足的资金协调人工智能技术自身的研发成本以及嵌入AI伦理的成本,在技术研发以外再在AI伦理上进行额外的投入将会对技术研发造成一定负面影响。 头部公司具有雄厚的研发资金以支持其伦理工具的研发,但对于其他的中小微企业而言,如果苛求其成立专门的审查机构、投入大量的研发成本,可能会成为压死骆驼的最后一根稻草,得不偿失,既不现实,也无必要。
第三,AI伦理问题的专业性极高,对从事与AI伦理相关范畴工作的专家要求极高,技术研发人员并不能直接转化为AI伦理研究人员,技术人员在没有AI伦理研究人员指导下所开发的伦理工具也将具有局限性。 为了破解AI产业中AI伦理的供需不对称,AI产业中开始出现专门提供AI伦理服务的第三方企业,该类企业专门研发帮助落实AI伦理原则的技术服务,供缺少AI伦理相关内置产品的人工智能技术企业使用。 AI伦理产业化发展需要积聚众多科技企业的智慧和力量,鼓励、引导AI伦理服务企业的创新和发展,是推动AI伦理落地的长久之策。
AI伦理创业公司抢占细分领域赛道,伦理服务趋向精细化和专业化
图三: MPM工具的运作机制
在定位上,MPM工具并不会替代现有的机器学习训练、部署以及服务系统,而是在机器学习流程中扮演守夜人的角色,旨在对模型运作的全程进行监控和解释说明。 具体而言,MPM具有两方面的作用: 一是偏离度监测 (Detect Train/Serving Skew) 。 当机器学习的数据发生偏离时,训练模型会出现异常并需要纠正,MPM工具能够将训练数据和预测日志保存在同一个地方,使得开发者可以及时发现偏离。 二是时间回溯 (Time Travel) 。 MPM工具能够为用户提供程序倒查的功能。 Fiddler官方为此举了一个形象的例子,当银行使用机器学习算法来驳回客户的特定贷款申请,而招致客户的投诉和抱怨时,使用者就可以登录MPM系统,就其保存的数据为客户还原模型的预测和决策过程,从而达到AI可解释的效果。
Arthur公司与Weights & Biases公司同样强调可解释性和缓解偏见、实现公平性。 Arthur公司努力解决人工智能系统中的黑盒问题,并且承认解决人工智能可解释性问题有较高难度,目前并未形成最优解决方案。 Weights & Biases公司旨在帮助机器学习工程师分析其网络的潜在问题,日本丰田公司已经在使用Weights & Biases公司所创建的工具来监测其企业内机器学习设备的训练情况。
第三,立足决策公平,提供算法修复服务。 针对AI决策层出不穷的算法歧视问题,埃森哲公司致力于开发出一款能够快速评估数据是否创造公平结果的伦理工具 (fairness tool) 。 该工具运用一种能够定义公平性的统计算法来识别人们是否受到了算法的不公正对待,同时还会挖掘、分析、定义公平性相关的敏感变量。 例如,算法在做决策时通常不会考虑性别问题,但如果加入收入因素的考量,就会容易在男女性别间产生不同的决策结果。 该工具会将此类相关信息纳入公平性的评估范畴,同时还要关注每个决策变量的错误率,通过比较不同变量之间的错误率,分析出影响决策公平性的变量因素。 同时,此前的研究表明,AI伦理对于公平性的界定存在多达21种类型的解释方法,因此,很难对不同场景下的公平性作出统一定义。 尽管埃森哲的伦理工具能够减少影响公平性评估的错误因素,但考虑到修复程序可能会降低算法评估的准确性,因此该工具将是否调整参数的决定权交还给用户,也即只提供修复结果的权衡选择 (trade-off) ,但最终交由用户来决定错误因素的调整范围。
虽然目前AI仍无法做到对算法公平进行精确定义,但埃森哲负责任AI的前团队负责人、现任Twitter公司机器学习伦理团队负责人的乔杜里表示,该公平性工具能够用于解决某些实际问题。 2020年,埃森哲与爱尔兰联合银行 (AIB) 达成合作,正式将算法公平工具应用于传统银行业。 AIB希望借助该工具减少算法模型的偏离度和歧视性,增进银行AI业务的公平性和可信任度。 在应用路径上,二者采用传统业务和算法决策相配合的协作机制,共同评估银行算法模型的公平性,包括将该工具用于检测、评估银行业务中的潜在风险以及预期效果,最终取得了显著成效。 实践证明,算法公平工具能够基于公平的维度帮助AIB更深入地理解其数据模型结果,也使得AIB的大数据科学团队可以借助公平性分析减少算法偏见和决策风险,从而增强银行使用AI的信心和能力。
科技伦理治理需要多管齐下,以“伦理嵌入设计”的理念与实践实现技术与伦理之间的有效互动
《关于加强科技伦理治理的指导意见 (征求意见稿) 》提出了“伦理先行,敏捷治理”的基本要求。 伦理如何先行? 需要伦理委员会、技术工具、伦理培训等多管齐下,也需要创新治理方式。 在这方面,我们可以借鉴互联网领域的一个成熟概念: 隐私嵌入设计 (privacy by design,PbD) 。 PbD已具有很好的实践基础,可以为人工智能的伦理治理提供有益经验。 在PbD理念与实践的基础上,人工智能产业需要拥抱“伦理嵌入设计” (ethics by design,EbD) 这一全新的理念,并推动这一理念在人工智能实践中的落地。 各界可以一起探索“伦理嵌入设计”的最佳实践做法、行业标准、技术指南等。
而近年来伦理工具和AI伦理即服务的勃兴丰富了“伦理嵌入设计”的理念和实践路径,在某种程度上,这也是产业界开始推动负责任创新,以技术的方式解决技术带来的问题。 如前所述,随着提供AI伦理服务的初创公司不断涌现,AI产业中的伦理供需失衡促使AI伦理服务公司开始走向成熟化、精细化、规模化,该类服务公司能够在细分领域中提供适应AI产业变化的伦理服务,加速AI伦理由原则到框架再到实践的进程,帮助AI伦理在更多使用场景和产业范围内顺利落地,弥补AI产业中缺失的伦理一环。 同时,从长远来看,伦理服务已成为未来AI产业的应有之义,尽管AI伦理服务有着广阔的发展前景,但目前仍处于起步和探索阶段,需要各界一起凝聚更多共识与实现机制、模式等。
最后,在人工智能、区块链、虚拟现实、metaverse等新兴技术与模式加速演进变革的今天,科技伦理固然显得愈发重要,但一方面需要注意不要把科技伦理当作一种华而不实的雕饰与粉饰,而需要通过真正有效的机制让科技伦理对科技创新形成正向引导; 另一方面科技创新本就是一种不确定性的探索,无法免疫所有的风险,因此也需要立法与伦理规范的精细平衡,平衡好安全与创新发展。