“数据是新石油”(Clive Humby,2006)。如果一定要找出一样,数据最像的还真是石油。两者都是重要的战略资源,都是驱动世界的动力。但数据只是数据,它不是其它任何东西。

 

五个特征

 

数据是一种客观存在,是关于事物的事实描述,可通过测量、记录、发现等方式去获得。数据具有无限性、易复制性、非均质性、易腐性和原始性五个特征。

(1)无限性。与实物不同,数据不会因使用而耗尽,反而是因使用而产生,会不断被创造,会越来越多。“数据将成为最基本的客观产物,无论做什么,我们都在产生数据”(Paul Sonderegger,2017)。根据DASA R&T《2016-2045年新兴科技趋势》,全球新产生的数据量大约每两年翻一番。这堪称大数据摩尔定律,数据大爆炸是必然。

 

(2)易复制性。数据可以快速地以近乎零成本的方式进行复制,可供多人同时使用,可多次循环使用,一个人的使用可以不排斥和妨碍别人对其使用,不同人之间在使用上不存在直接的利益冲突。易复制性使得数据具有一定程度的非竞争性和非排他性,但数据不是公共品,有公共数据、企业数据和个人数据之分。 

(3)非均质性。《潜伏》中谢若林有句话:“现在两根金条放在这儿,你告诉我哪一根是高尚的,哪一根是龌龊的?”这说明了一个道理——金条是均质的,两根金条有着同等的价值表现。均质性普遍存在,例如出厂的商品、油电气等能源。而数据是非均质的,一比特数据跟另一比特数据所包含的价值完全不同,同一份数据对不同人的价值也不一样。正如王钦敏(2023)所说:“数据价值因使用对象而异,因应用场景而异,因专业化数据质量标准而异。”

(4)易腐性。数据是一种易腐品,会随着时间的流逝而迅速贬值。根据IBM(2015)数据,60%的非结构化数据在几毫秒内就失去真正价值。这意味着,数据的价值很大程度体现在时效性上,超过一半的数据在产生的那一刻就不再有价值,我们可称之为“一秒钟定律”。能得到分析处理并产生实际效用的数据则更少。全球90%的数据从未得到分析使用(IBM,2015;DASA R&T,2016)。2020年被创建或复制的数据中,只有不到2%被保存并保留到2021年(来源:IDC)。

(5)原始性。数据是原始的,本身并没有意义,只有对它进行处理分析,才能转变成对人们有用的信息。如果说数据是新石油,那么分析就是内燃机。信息是数据提炼后的产物;信息经人脑加工后形成知识,知识具有主观性;数据、信息和知识是历史的,而智慧是关于未来的,是人们运用知识做出决策和判断的能力。

 

对数据、信息、知识和智慧之间的关系,福特汉姆大学Zeleny教授(1987)提出了DIKW金字塔模型(如下图所示),从底层到顶层依次是:

图 DIKW金字塔模型

 

三道难题

 

一个人和周围人的差距主要在于掌握信息、理解信息和运用信息的能力不同。数据和信息至关重要。但当下有三道难题困扰着数据健康有序发展,即数据确权、数据交易和数据要素。我们要迎难而上、敢于作为,以极大的勇气和智慧破解一切困难。

(1)数据确权。关云长身在曹营心在汉。对物理存在的身体之归属,我们比较容易判断;而内心和灵魂是缥缈不定的,具有不确定性、隐秘性和多元性,不乏同时属于多个主体的情况。数据与之类似,人们很难清晰判定它属于谁,很难对其进行有效的物理切割和合理的权利分配。确权的复杂性与数据本身的特征有关,也与权利主体的多样性有关。数据链条涉及多个参与者,他们缺一不可且无法单独发挥作用,具有不同的诉求。加之,数据的价值密度低,所产生的效益难以清晰衡量,这使得数据确权的成本极高。

(2)数据交易。交易是一种互利互惠的行为,是人类社会中最具自发性和最具积极性的活动。唯有双方都从中获益,交易才会发生。对数据而言,交易则是一个难题。联合国贸发会议(2019)指出:“数据具有重要的使用(或滥用)价值,但不像大多数经济商品那样具有交换价值。”现实中的交易一般具有明确的价格,是可重复、可预期的。例如,商店把明码标价的奶茶重复售卖给不同的消费者,消费者获得的效用是可预期的——止渴、美味、社交。数据非均质、价值不易衡量、定价困难、预期效用难以管理、有“搭便车”风险……这都是数据交易中要面对的问题。

 

(3)数据要素。生产要素是人们用来生产商品和劳务所必备的基本资源。它促进生产,但不会成为产品和劳务的一部分,也不会因生产过程而发生显著变化。新古典学派创始人马歇尔在其名著《经济学原理》(1890)中提出了生产要素四元论,即土地、劳动、资本和企业家才能。梅宏院士指出(2023):“把数据确立为重要的生产要素是中国的首创。”然而,在经济学上定义数据生产要素是一件困难的事情,尚未看到有影响力和说服力的成果,迫切需要经济学家们加紧研究。

 

避免大数据自大

 

提起数据挖掘的经典案例,很多人会想到“啤酒加尿布”和谷歌流感趋势。实际上前者是一个故事,早在1992年就已出现,并没有真正发生过;后者曾提前预测出流感到来,不过因后来的准确性太低而早已被关闭。

数据的重要性毋庸置疑。人们喜欢在“数据”之前加一个“大”字,以彰显非同寻常。人们也时常陷入“大数据自大(big data hubris)”的误区。数据能解决很多问题,但有局限性,通过数据难以预测突变。一只岁月静好的猪,无法通过既往数据预测出春节的黑天鹅;马车的出行数据,可以使人们获得“一匹更快的马”,但不能使人们发明出汽车。数据是企业的竞争优势,但不是万能的。一个好的APP不会因有历史数据就能高枕无忧,它时刻受到创新者的挑战,只能“各领风骚仅几年”;创业者哪怕没有数据、没有积累,也可以推出创新产品,获得用户,取得成功。从这个角度上说,没有数据也不是不行。 

 

大数据时代,“要相关,不要因果”被奉为圭臬。“关键是人的分析推理找出为什么两件事物同时或相继出现,找对了理由才是新知识或新发现的规律,相关性本身并没有多大价值”(李国杰,2015)。只信“数”不如无“数”。我们要综合运用实验观察、逻辑演绎、归纳提炼等科学方法,探究事物之间的关系和规律,才能挖掘出有价值的信息和结论。

我们重视数据,根本上不是因为数据本身重要,而是尊重客观世界和客观规律的实事求是精神重要,数据即事实。正如李国杰院士(2015)所言:“重视数据就是强调用事实说话、按理性思维的科学精神。”

 

本文作者:

闫德利 腾讯研究院资深专家