腾讯司晓:如何打造健康可持续的数据生态?

|《互联网前沿》杂志 作者:司晓 2020-06-12

2020年5月17日下午,信息社会50人论坛籍517世界电信和信息社会日之际成功举办线上专题研讨会,主题为“数字转型与可持续发展”。会议由信息社会50人论坛轮值主席、本次研讨会主持人段永朝开场,介绍了本次会议的由来及期望。

司晓院长围绕如何打造一个可持续的数据生态系统,从信任、产权与流通的三个角度进行了阐述。他提出,为形成健康可持续的数据生态,必须要有三重考量,即构建数据信任、激励数据产权和实现数据有序流通。综合起来,将应用道德、法律、市场技术的统合体来规范我们的行为,具体将包括数据要素和技术因素的应用,以及法律的完善。

以下为司晓分享(经讲者确认,有删减)。

构建信任、激励产权、有序流通——塑造健康可持续的数据生态

司晓  腾讯集团副总裁、腾讯研究院院长

感谢邀请,作为论坛的成员,非常荣幸有机会跟大家交流。应该说把我安排在姜老师之后是非常合适的,因为我自己是法律背景,长期在企业一线实践。我主要从我的视角,从信任、产权与流通三个角度,跟大家谈一下如何打造一个健康可持续的数据生态系统。

刚才姜老师已经谈了很多数据产权方面的思考。我想先从数据增长这个背景切入,我们处于一个数据爆炸式增长的时代,根据IDC的预测,2018年的时候全球产生的数据总量是33ZB,如果用人脑来衡量,大概需要280亿+的人脑才能存储这些数据。到2025年的时候全球生产的数据量会比2018年增长5倍多,达到175ZB,届时中国也会成为全球最大的数据市场。

在这个背景下,我们希望用通俗的例子来描述和理解数据要素、新基建,以及业界倡导的产业互联网。路油车这个简单的概念,或许比较容易让大家理解。

首先谈路,即新基建。新基建是相对于讲旧基建来的,最大的特点是韧性与随时调整的动态性。比如,在疫情期间,腾讯会议用8天时间扩容100万核计算资源,可以说是非常迅速的,从而适应突发情况的到来。我们还支持全国1亿+学生在线上网课。这应该是新基建与旧基建最大的不同点。在这里稍微提一下,国家提出新基建概念后有一张广为流传的图,把特高压、高铁、充电桩都列为新基建的范畴,但是仔细研读的话,官方文件里面是不包含这三个部分的。

再谈油,数据要素就是大家通俗意义上所讲的石油。用石油来描述数据可能有它的合理性,但还不足以说明数据要素的复杂性、重要性。因为数据始终存在多个维度的视角,就是说对于同样的数据,不同的主体在上面往往都有权利或权益。虽然一般人会说我对数据有没有所有权,但物权法上的所有权作为权利束,包括占有、使用、收益和处分。

追溯罗马法的历史,物权指向的是有形有体物,比如电脑、杯子等,后来有所扩充,比如电能等可以被人类掌控的无形物。无形物作为财产的典型例子是知识产权,客体是智力成果,如文章、代码等。著作权法所保护的这种表达,是真正的无形无体,可以通过一个装置或载体显示出来。所以,物权和知识产权存在物理意义上的区别。数据要素和知识产权有点相似,可以多人同时占有,交换后双方都有了同样的数据,而不像物理意义上的东西只能某个人独占。

而且数据要素存在多个视角,在国家视角,有国家数据安全保护、国家经济转型与竞争力提升等;在个人视角,有隐私保护等;在产业视角,涉及政府的公共数据如何开放共享,企业间如何共享数据,以及企业在竞争的时候获取信息的边界问题,这其实某种意义上定义了行业的竞争规则。所以,数据要素具有复杂性和多面性,可以体现出生产资料,也可以是生成关系,还可能是生产力。所以说数据是石油恐怕不足以描述其价值和应用。

最后谈车。那车是什么呢?最先被数字化的是第三产业,所以最早在信息高速公路上跑的车多半是服务业的车。现在则是产业互联网,就是整个产业被数字化的过程,如第一产业的农业互联网、第二产业的工业互联网。消费互联网是2C的,产业互联网是2B的,两者存在显著的区别,产业互联网是在车道上跑的更重型的车,对数字基础设施提出更多的要求。

路油车这个例子是比较直观的。首先这个路要求是智能的,产业互联网的底层,即我们讲的IaaS,它本身也是有路(基础设施)的属性的。举个例子,腾讯云和长沙合作,对315路公交进行全线数字化升级,推出的微信小程序“潇湘出行”提供了车辆位置、到站时间、搭载人数、行驶速度及路口信号灯状态等准确公交信息,方便乘客决策出行方案。

而且也实现了路与交通指挥的智能化,行驶权处于动态调整的状态,根据车流情况调整交通信号灯,比如红灯可以减少30秒,路口绿灯可以延长15秒,真正实现公交优先。所以,这时候你发现路与车在实时对话,甚至如果发生了其他车走公交车道的情况,公交车里面的一个装置可以一键马上举报这个违规行为。这是一个随时动态互动的过程。

回到路油车的生态系统,我们怎么理解用户、用户数据与整个生态系统的关系呢?拿消费互联网的场景来说,比如说订餐的服务或者打车的服务,就类似于跑在信息高速公路上的车辆,用户实际上是以虚拟的身份同时在乘坐很多辆车,可以一边叫外卖,一边打滴滴,一边坐另一个车。这个时候用户需要向平台提供服务所必需的基本信息,比如说在哪儿上车,在哪儿下车,在哪儿取快递。这个过程当中用户提交的是服务所必需的数据,平台需要根据必要性和最小化原则来收集、处理数据。

在这个基础上,需要从三个方面塑造健康可持续的数据生态系统。

一是构建信任。立法是构建信任的基础,我们国家的数据立法尤其是个人信息保护法律体系一直在不断完善,从2009年《刑法修正案七》首次引入个人信息罪名,到后来的《网络安全法》《电子商务法》《儿童个人信息网络保护规定》等,再到现在制定中的《民法典》和已被提上日程的《个人信息保护法》。那现在是否清晰界定了数据产权了吗?很难回答,但起码划定了一些红线。

数据跟物权、知识产权既有相同之处,也有不同之处,所以在产权界定上实际上没有办法像物权一样做绝对化的界定。物权作为绝对的权利,权利人对客体是独占的,其他人都有义务不侵害。但数据可能跟这个存在很大差别,因为数据实际上可能指向多个权利,而且单个的碎片化的数据和大数据池里面大数据,在性质上存在很大差别,产权界定当然不能一概而论。

业内也在发展应用加密、匿名化、联邦学习、差分隐私、多方安全计算等隐私保护的计算技术,从而让企业在安全的,合规的,不共享数据的情况下来合作训练人工智能算法模型,因为立法已经划定了很多红线。联邦学习就是一个比较典型的应用。举个例子,微众银行与合作银行基于横向联邦学习进行的联合反洗钱建模。简单来讲就是不需要共享用户的任何具有个人身份的信息,双方在保护隐私的条件下联合建模,并共享模型结果。这个例子的前提是合作银行与微众银行有相同的变量,洗钱样例客户不同。如果看模拟实验的效果,联合模型的识别性能比单边模型提升90%,当然在这个过程当中没有任何银行的用户信息流入到其他行,有效地保护了用户隐私。

再讲一个医疗方面的案例。腾讯天衍实验室也与微众银行合作,研发了医疗联邦学习框架,成功实现了在保护不同医院的数据隐私下的疾病预测模型,某种程度上也破解了医疗领域的数据安全与隐私保护问题。假设医院A和医院B想联合训练一个脑卒中疾病预测模型,两个医院各自掌握科研病例数据,此外,医院B还拥有模型需要预测的标签数据如脑卒中发病标签。

出于数据隐私保护和安全考虑,医院A和医院B无法直接进行数据交换。联邦学习则可以在两家医院不共享数据的情况下联合建模。实验结果显示,基于横向联邦学习的脑卒中预测模型的有效性良好:联邦学习模型和集中训练模型表现几乎一致,在脑卒中预测模型中的准确率达到80%,仅比集中训练模型准确率降低1%,同时,联邦学习技术显著提升了不同医院的独立模型效果,特别地,对于两家脑卒中确诊病例数量较少的医院而言,联邦学习分别提升其准确率10%和20%以上。所以这种方式是非常显著的,在数据不聚集的情况下训练模型,又能实现对用户隐私的保护。

下面用一个比较形象的例子来说明联邦学习。每个企业都有一个自己的数据池子,里面的用户个人信息需要保密,实际上没有办法拼在一起,但是大家可以用自己的数据共同养一只羊,这只羊就是机器学习模型,它一会儿在企业A吃草,一会儿在企业B吃草,一会儿在企业C吃草。实际上吃的是什么,每一家都不知道,但大家可以共享牛奶等成果,就是算法优化本身带来的效率可以反哺参与的企业的运营。              

二是激励数据产权。虽然数据产权不能像物权那样做特别清晰的界定,但对于附着于数据之上的财产权权益的保护实际上是非常必要的。现阶段的一些司法案例已经明确保护企业对于数据的财产性权益,比如大众点评系列案件、新浪微博系列案件等。例如,大众点评商业模式的核心就是用户的点评数据,这些数据都是公开的,一般不涉及用户隐私。

可能有些点评信息具有独创性,属于版权法上的作品。但大部分点评信息都是在讲这个东西好不好,卖家寄东西准不准时,客服态度好不好,等等,所以一般不享有著作权。

这是否就意味着竞争对手就可以随意抓取这些信息,大众点评也不能主张权利?因为这些信息本身不受著作权保护,可能对应店铺的商誉和背后的交易机会。虽然没有法律的明确规定,但法院还是基于反不正当竞争法的一般条款,基于诚实信用原则判定为不正当竞争,也认可数据经营者的合法权益。

直白地说,这家公司辛辛苦苦就积累了这些点评信息,你现在不管用户什么技术,把人家的数据一股脑儿全拿去,搞一个一模一样的出来,那人家前面就白干了。我们的法律会鼓励这样的行为吗?我相信答案是显而易见的。如果法律允许这种行为的话,那就没有人去直接投入和劳动了,都等着收割别人,那样的话市场就乱套了。

所以这类对于数据的财产性权益,实际上是受到法律保护的。这类似于你种了一块地,地的权属可能没那么容易界定,但这块地里种出来的庄稼,养出来的商业模式,你还是有权利说不的,不允许别人来种地,来随意收割。所以,我们会发现对企业数据的保护,更多是对行业竞争秩序的保护,如果不保护企业数据的话,那竞争秩序肯定就全乱套了,就不可能有好的企业成长起来,最后受害的还是用户。

三是数据有序流通。这一点也非常重要。如果企业用API的方式开放自己的数据接口,在其中定义了一些规则,合作方能不能逾越呢?我想答案是显而易见的,需要遵守契约精神,很多判例也传达出这样的观点。比如新浪诉脉脉这个行业中的经典案例就跟开放平台API有关,如果API只开放一些数据,合作方在合作基础上能拿其他数据吗?或者合作终止后能不能继续访问数据?表面上是合同,背后跟数据有关。

《关于构建更加完善的要素市场化配置体制机制的意见》提出“促进要素自主有序流动”,所以在数据流通过程中需要尊重企业的意愿和合同约定。这也是私法自治精神的体现。

最后,腾讯安全最近刚好做了一张图,叫做零信任能力图谱,详细列了身份可信的识别能力、无边界应用访问控制能力、安全可视化能力、无边界网络访问控制能力、持续信任评估能力,以及每个能力之下的子产品与子功能。实际上可以讲它是基于技术或者基于产品功能去构建信任。

前段时间我跟论坛老师分享了我给我们的新书《产业区块链》写的跋——《经济增长的信任基础》。讨论如何从法律、制度、规范的视角约束企业和个人行为,以及如何保障市场有序运行,讨论市场经济的信任建立在哪些基石之上,法律毫无疑问是其中最大的一块,至少目前来看是这样的。伦理道德也是其中的重要部分。

而极端的区块链倡导,认为技术可以取代一切。中本聪的比特币系统是一个典型,没有法律和其他任何保障,就是靠算法来保障稀缺性和维持信任。意味着比特币已经不需要法律做背书,而是靠区块链不可篡改的技术来做背书。但代码完全取代法律,可能是技术狂热者的一个愿景,至少在我们目前的认知范围内,说未来是代码主宰一切,我是不太认可的。所以综合来看,是法律、道德、市场、技术的综合体来规范我们的行为,包括我今天分享的数据要素,也是如此。技术只是其中的一个因素罢了,法律的完善同样重要。

我的分享就到这儿,谢谢大家的聆听。

前沿杂志
互联网前沿42

无人驾驶汽车正从科幻变成现实。作为第二次机器革命(即如今的人工智能变革)的重要产物和标志,无论从未来5年、10年抑或20年来看,无人驾驶汽车都可能产生巨大影响,这些影响牵扯到人类生活的方方面面,需要政策制定者现在就开始绸缪无人驾驶汽车的未来并应对其潜在影响。

2018-07-11

全站精选