“算法到底有没有价值观?”是近年来互联网相关的产业界、学术界均关心的问题。无论是一线的算法研发人员,还是从事法律研究、产品策划、媒体报道等等方面工作的人,甚至是企业领导者,都会或多或少的触及这个问题。

作为解决特定问题的一种方法或工具,算法本身是中性的,并不存在价值观的偏好问题。但是,当涉及到算法的编创者、给算法提供基础数据养料的用户以及算法的使用者时,这些鲜活的个体都持有各自价值观,因而作为技术工具的算法也很难不加沾染。如今,算法广泛应用和影响日益深化,促使许多相关问题上升到社会问题的层面,“算法价值观”话题的讨论变得迫切且极具现实意义。

本文整理于“腾研识者第一期workshop”算法组的讨论,一群对算法和算法治理感兴趣的识者们针对相关问题各抒己见。在讨论中,小组成员们首先尽可能客观地谈了对算法的认识、对算法生命力来源的思考,以及算法引发社会问题这一趋势的必然性;然后,针对算法价值观问题,成员围绕算法的可解释性与实用性的权衡以及算法的自我强化困境问题等提出了一些务实的解决思路。

算法组成员在热烈讨论

 

算法——生命力强大的“生命体”

算法拥有漫长的历史,当计算机的概念还完全没影的时候,算法就已经被人们发明出来用以解决实际遇到的问题。例如,在公元前300多年的《几何原本》中,古希腊数学家欧几里得便记载了著名的“辗转相除法”(又称“欧几里得”算法),用于求出两个数的最大公约数。随后在相当长的时间里,算法一直是解决特定场景中特定问题的技术手段和工具。

随着计算工具的出现,尤其是可编程运行机器的迭代发展,以编码形式存在的计算程序开始在各种IT产品设备中运行,以自动化或半自动化的方式从人类手中承包了一些流程化、机械化的工作。由此,人们的工作方式发生改变、生产效率也大大提升;同时,一些高可替代、简单重复的工种被取代,导致一部分人群的就业危机。

伴随着互联网和移动设备的普及,如今基于算法的服务也在潜移默化中渗透到工作生活的方方面面。以至于,当你在思考“附近有什么好吃的?”、“到xxx怎么走,是否堵车?”或者随便刷刷新闻话题,刷脸刷指纹购物时……背后都有或简单或复杂的算法在运行着并提供着服务。不同于人有限的精力和人脑储量,手机app等应用工具可以同时采集所有用户的数据并对全部用户服务,可以对不同的用户提供有区别的个性服务。经过长期的数据沉淀、算法和服务的革新优化,你的手机、你的app在某些方面确实会比你的好朋友、甚至你本人更了解你。而对不同人提供差异化的服务,也带来了公平、隐私等隐藏危机。

进一步的,如果我们把算法看作一种生命形式,那这种生命体具备异常强大的生命力[1]。

首先,算法的核心思想具有普遍适用性,这保证算法可以有效解决实际问题,具备很强的实用价值和商业价值。例如对一堆节点进行打分排序的思想,就涉及到对网页搜索结果、购买商品、歌曲、潜在优质股票、导航路线、住宿餐饮等多方面排序。虽然各领域具体打分评价的方法可能截然不同,但是它们在思想上却有共通之处,甚至在解决的大框架上存在明显的交叉借鉴和举一反三。

而今,这种打分排序的思想也很自然的运用到对个体或者人群的评价中,例如各种形形色色的个人信用分,就跟免押金特权以及其他诸多优质权益挂钩。这项工作涉及到规则算法、人工参与的算法、预测算法、用户建模以及多种方法的融合等等。

即便抵制算法应用对人的分层级评价,也并不会阻止传统人工方式或者其他替代方式对人进行打分评级。因为对人的评价这一想法和需求植根于人们的日常生活交往中,而且将算法应用于人的评估和提供个性化服务已经存在了相当长的时间,这一趋势注定不可阻挡。

算法在具体场景下可以被针对性的迭代改进,进一步增强了其作用能力。不同算法之间还可以组合优化,产生出的新算法可以处理单一算法无法解决或者解决效果不佳的问题。比如,在人机围棋大战中一战成名的AlphaGo就综合使用了线性模型、深度学习、强化学习、蒙特卡洛搜索等算法,这些算法已经存在并发展了数十年,但在组合优化之后成功超越了人类的围棋水平,将原先预计短期内不可能完成的任务变成了可能。而后续升级版本的AlphaGo Zero,则抛弃人类对弈历史经验,并采用新强化学习算法,从而进化到以100:0的战绩击败它的前辈。算法在特定场景特定问题上演化的最终结果,即是完全可以抛弃人类已有的经验、跳出人类探索决策的局限,能够在更广阔的甚至全局范围内给出更优的解决方案。

算法在计算机和IT技术发展的历程中处于核心位置。1976年,图灵奖得主、Pascal语言的发明人尼古拉斯·沃斯为他的书取名为《算法+数据结构=程序》,诚然,抛开各种应用场景下的数据结构,算法无疑是程序的核心。在现代计算机科学与技术的发展历程中,几乎每个领域厚重的教科书中都包含几个核心算法,这也是这些领域的立身之本。某个革命性算法的提出,可能就代表着这个领域的不同发展阶段、发展成果,甚至可能是奠定一个新领域、新学科的基石。在计算机和IT技术飞速发展的同时,算法也在各个领域中开疆拓土、扎根生长,发挥着核心作用。

 

算法的中立性与问题产生的必然性

由于以上种种原因,算法的能力愈发强大,其作用范围也逐渐突破基本的工程应用功能或者与人无关的客观问题,并不可避免地延伸到与人相关的非客观问题和社会问题中。可以说,算法引发社会性问题的是算法发展过程中必然会经历的。

于是,我们可以看到:算法给用户推荐的信息内容,例如新闻的标题、内容、图片、评论、点赞数等等会左右用户的情绪思想,甚至改变用户的观点;算法给用户推荐的商品,尤其是商品的图片、标价、广告语、排列顺序等等,会影响用户的购买习惯和消费行为,甚至购买的形式,或者从什么渠道获取到购买信息都会影响用户的行为决策。

在这些场景中,算法可能仅仅是从优化业务的角度出发,但带来的客观结果是在概率上大幅影响了用户的观点和行为。在理性状态和警觉状态下,个体或许会辩证看待外界信息,尽量做出独立决策;但当生活的方方面面都有算法在运行,不受算法影响成为一件困难的事情。进一步而言,在日常使用的手机APP中,可能存在多种算法的应用场景,这些算法长期高频率的使用对大规模使用者造成的影响,本身已经深刻作用到相关群体组织的运作方式、管理规定、伦理道德等诸多方面。

近年来,我们能够看到一些看似中立的算法实际上在务实作恶,它们出发点可能显得人畜无害,却在客观上造成了社会的不公、对人群的歧视。比如,使用先进图像识别技术的某公司曾经陷入种族歧视的指责,因为搜索引擎会将黑种人打上“猩猩”的标签。再如,当公司收到大量招聘简历以至于来不及进行人工审核时,采用算法对应聘者的简历进行初步筛选,这会让一批人仅仅因为算法判定为不合适就直接失去应聘资格。在这些例子中,算法在行使筛选的权力,这跟以往的筛选方式有了本质区别。

归结起来,这类事件的责任一方面是算法识别性能有局限,无法覆盖所有数据样本;另一方面,公司的道德监管部门无法对每个产品的细节效果都做到伦理道德的全面覆盖。通过以上的简单回顾和总结,我们深刻意识到算法和工具本身在演化发展时,一直是中性的,无所谓正向或负向的价值观。但是当算法跟商业利益挂钩,或者被用于与人相关的应用场景时,算法的社会问题就会凸显出来,并且不可回避。

《人工智能与算法治理研究》[2]一文指出,算法治理的风险与挑战相关的议题集中表现为不可解释隐忧、自我强化困境与主体性难题三个方面。其中,不可解释隐忧涉及到算法黑箱、不可监督、难以追责等议题;自我强化困境聚焦算法因依赖大数据学习过程而可能出现的固化、偏差、歧视等治理议题;主体性难题则涉及算法作为人类社会运行规则而在一定应用场景下替代人类行为所引发的治理议题。由此可见,算法治理的相关议题,本质上是算法与人类价值观之间的问题。由于第三个议题是技术普遍涉及的议题,本文的讨论更关注前两个侧重算法的问题,并从算法研发人员和算法治理工作者的角度,提出了一些务实的解决思路。

 

算法治理:实用性、可解释性以及问责与监管

从算法编写者、实现者的角度,算法作为某个问题的解决方案,天然注重实用性。正如黑猫白猫理论,不管是A算法还是B算法,只能要实际解决问题、改进业务的,就是好算法。在解决特定问题、与对人的评价完全无关的许多领域,算法完全可以主要关注实用性、不刻意追求可解释性。如果对一个客观技术问题的解决方案,涉及太多的监管、问责,反而是一件不利于技术快速进步和创新实践的方式。

另外,在可解释性方面,近年来火爆的深度学习算法,本身确实像一个黑盒子,对这个黑盒子在数学层面的解释超出了人类目前的理解能力。从最开始给算法提供一批数据、训练它,再到做出决策,输出结果,期间算法到底如何运作,就连调用算法的人也很难明确知晓,甚至用数学的语言解释清楚也十分费力,更不用说用人能够理解的方法去理解它。试图从数学和理论的角度来解释黑盒子是一件困难的事情,但是在实际应用中,黑盒子里得到的稳定参数是可以被抽取出来,并变成规则。这些稳定的参数可以用于部分解释算法运算的结果、甚至可以在其他相关问题中提供支持。

但是当算法被应用于评价人本身、对人进行打分或分类时,关系到一个人切身利益,这就需要算法本身有更好的泛化能力,同时需要相对完善的问责体系、监督机制和反馈机制,能够为及时纠偏提供保障。

以贷款为例,当算法对你进行了评估,认为你贷款之后欠债不还的风险很高,信用额度有问题。但有时候,你可能真的需要一笔未必高额的贷款,来做一件很重要的事情(比如看病),但因为无法申请到贷款,错过了最佳治疗时间。此时当事人有权来向算法问责,但作为算法的开发者或者调用者,他们在开发算法时并没有针对这位当事人,这仅仅是算法采用的标注数据和迭代计算的结果。当事人需要为了维护自己的权益去问责,但这到底是算法的责任还是当事人自己的责任?在整个过程中,算法是中性的、当事人也是无辜的,但是整个事件带来的影响却是负面的。

算法带来的影响和问责问题是一件令人头疼的事情。对算法的问责取决于是算法本身的问题,还是算法在应用中的问题;进一步明确问责的对象和责任。

问责是结果导向性的工作、是暴露问题后的补救措施,与之相对的监管是一个预防性的工作。从监管角度来看,可以从规则(rule)、限制(restriction)和控制(manipulation)三个层面来起到监督预防的作用。欧盟出台的《通用数据保护条例》(GDPR),便从规则规定的角度,严格把控用户数据的采集和数据挖掘、算法应用的规范。而在限制层上,体外骨骼设备就被严格限制,仅允许对符合条件的人群使用。这一思路也可用于约束各个算法的作用范围,即并非面向所有用户人群,而是某个算法只可以针对特定群体、特定场景使用,不可随意滥用。另外,算法的监管,会在一定程度上限制算法的应用广度和应用深度,综合采用不同程度的监管控制手段,如政府监管、行业监管等,可以兼顾抑制算法的负面影响和促进算法的创新发展。

 

算法困境:自我强化、歧视以及信息茧房

自我意识强化、歧视和信息茧房……这些是人类本身存在的问题,但却能够反馈到算法的效果中,对算法使用者造成影响。举一个很典型的例子:推荐歌曲列表。当你打开一个网页,看到十多首歌曲以及它们已有的收听数,假设你事先对这些歌曲没什么了解,那你会点开哪首歌?对此,有学者进行过一个对比实验:在面对陌生歌曲时,大多数参与者更倾向于听取已收听数更多的歌曲,也就是“随大流”。然而,假设初始时这些歌曲的收听数并不是真的,实验人群依然会大概率选择收听数高的歌曲,并促使这些歌曲的收听数变得更高。后者是在社会影响下,人类的意识和行为的错误强化。

这种复制并延续当前状态既有格局与特征的现象,也同样出现在带标签信息的算法中,一个鲜明的例子是企业招聘。当前企业界实际应用的算法大多采用了历史记录的数据,假如在企业历史记录中,男生更加偏向研发、工程的岗位,女生更加偏向人力资源、财经类的职业,那基于这些历史数据运行的算法很可能得出女性更加适合做同类岗位,却很难得出新的、不存在于历史记录中的结论。当然,当你意识到需要兼顾性别公平,在向算法提供特征时不考虑性别项的区别,那算法兴许会给出相对缓和些的结果。

归结而言,算法并非真正理解标注信息的含义,但是它会尝试最大化的挖掘已知数据和未标注数据之间的相关性和差异性,从而做到最大程度的数据划分、数据拟合(注:这里的算法特指监督学习方法。基于带标签数据的学习方法,至少目前依然是企业中普遍使用的主要算法)。即便未标注的数据具备新型特征,算法依然会让数据向已知标注映射,也就是说,算法并不鼓励创新和异类。进一步,如果算法在强化早期采用的数据本身有问题,那么它基于此强化推理的结果也是存疑的。如果这种算法和推论被滥用到其他方面,进行后续决策分析,则会带来连锁的负面反应。

在自我强化困境方面,除了延伸出算法歧视的问题,另一个颇受关注的话题是信息茧房。与算法歧视不同,信息茧房是一个很早就受到学界广泛关注并被着力改进的问题。然而,单纯依靠算法并不能很好的解决这一问题,因为人们对待信息有自己的偏好,这是客观事实。即便许多公司已经意识到推荐结果的局部极化和乏味,并给出结合多种推荐算法融合以及提供多样化内容的方式来克服此问题,但用户在下意识刷信息时,还是会只关心让自己愉悦的信息[3]。另一方面,内容的提供方乐此不疲地利用犀利标题、亮点词汇、夺目图片还有猎奇内容等来诱导用户点击、浏览。这些用户行为数据又反过来恶化了算法的推荐质量,使得更具诱导性的内容、让用户停留时间更长的内容更容易被推出,而其他品质更高的内容则缺乏竞争力、受到排挤出局。这是用户选择和算法优化共同作用的结果,但这却是一个对用户、对平台、对内容生产者都不利的结果。

在应对算法的自我强化问题时,微信“看一看”给出了一个新颖的解决思路。微信在“看一看”中加入了“在看”入口,“在看”的内容为用户通过点击的方式,推荐给其好友观看的内容。这类信息得到了朋友的推荐、好友的一层信息过滤,又得到了好友的信用背书,虽然未必是用户感兴趣的内容,却在内容质量上与用户的思想境界更加匹配。此外,这种社交推荐和算法推荐的反馈结果其实还可以进行协作、互为补充,通过社交推荐用户感兴趣的内容,对纯算法推荐的方法进行训练数据质量的优化,也可减弱后者效果的强化现象。因此,微信在“看一看”中的尝试表明,纯算法推荐下的强化局限,可以采用本质截然不同的社交推荐的方式来纠偏。这既是业务上的探索尝试,亦是科技向善、在幕后辛勤工作的从业者正向价值观的体现。

当然,社交推荐方式的介入,在解决算法自我强化的同时,也带来了用户体验上的其他一些争议,但是它的大方向和策略无疑是清晰、新颖且有效的。此外,在近年来大数据与人工智能算法狂热且压倒性的浪潮声中,采用并非人工智能的技术、甚至谈不上算法的方式来化解算法自我强化、提升用户体验,这一行动本身就已足够。