节选自国务院发展研究中心企业研究所《数字平台的发展与治理》(中国发展出版社,2023年),有删减修改。

当今时代,数字化转型快速推进,线上线下深度融合,带动数据量保持指数级增长。借助算法分析数据资源、优化商业策略、提升经济效率,已成为商业常态,数据作为生产要素和战略性资源的地位日益凸显。要充分释放数据要素价值,就必须深刻理解数据的经济特征。

 

数据仅是客观记录,只有被开发利用才能带来经济价值。

数据只是对客观事物的性质、状态以及相互关系等进行记载的符号组合。在数字化时代,数据以“0”或“1”的二进制字符串存储在磁盘、硬盘、光盘等存储介质上,如果没有对应的数据编码规则,这些“0”或“1”的字符串并没有特定含义。但是,数据一旦被定义或编码,例如与物理世界的人类、市场主体、自然环境等具体事物、对象或应用场景一一对应起来、关联起来,就会被赋予特定内涵,就会蕴含“信息”。再进一步,深入挖掘“信息”背后的事物规律、发展趋势或深刻洞见,就可以提炼升华得到“知识”。按照经合组织的观点,如果只拥有海量数据,而没有数据挖掘、分析和萃取提炼能力,则会形成“信息过载”;只有当数据被转化为信息或知识,并辅助预测、支撑决策或指导实践之后,才能释放出其蕴含的潜在经济社会价值。

数据开发利用在经济社会发展中的作用日益突出。随着智能手机的广泛普及,机器人、传感器在各行业的规模化部署,数据量积累越来越大。从微观层面看,通过整合来自各方面的数据,市场主体可对客户进行更加精准的“画像”、洞察其行为特征和需求偏好,提供更具个性化的营销方案、更加定制化的产品和服务,从而进一步增强吸引力和竞争力,形成“正向反馈”。从中观层面看,各类平台企业汇聚起海量的市场主体经营数据,例如电子商务平台汇聚了入驻商户的高频经营数据,就可以实时感知行业态势、市场冷暖;工业互联网平台汇聚了产业链上下游生产供销数据,就可以推动制造业和服务业的深度融合,发展协同化设计、远程交付和预测性维护等新兴生产性服务业。从宏观层面看,大数据与实体经济的深度融合,衍生出一大批数据采集、清洗、建模等新兴增长点,提升了全要素生产率,是实现经济高质量发展的关键驱动力之一。

 

数据不是稀缺的,多数是非竞争性、非排他性的,可被重复采集,很难被垄断。

与传统生产要素如土地、资本等具有稀缺性相比,数据要素的最大区别在于它不是稀缺的。包括手机、智能可穿戴设备等在内的消费终端设备以及机器人、生产线等工业装备,都开始具备采集和处理数据的能力。只要消费者开始使用智能终端、浏览各类业务,自然就会产生用户注册数据、上网痕迹数据、支付交易数据等,并存在终端上、沉淀在平台企业的大数据中心上。同理,只要数字化的联网装备开机运行,就会不停地产生装备状态数据、生产进度数据、故障报警数据、采购销售数据等。从统计来看,全球数据量每年增长27%左右(来源:IDC,2018),或者说每4年新增加的数据量,都会超过人类有史以来积累的数据量总和。近年来,多国政府还免费开放了大量公共数据,这些数据可被各方下载和开发利用。从这个意义上讲,很多数据都是非竞争性、非排他性的,某些数据被某个市场主体采集后,无法阻止其他主体采集类似数据,只要符合法律规定就可以。

 

数据不是规模报酬严格递增的,不同来源的异质性数据往往更有价值。

数据所蕴含的信息价值,既与数据总量有关,更与数据来源的多样性、互补性有关。以推断消费者的需求偏好为例(目的是精准投放广告),在算法给定的情况下,增加样本数据规模,的确有助于更加精准地刻画出用户消费习惯,但样本数据量的进一步增加,对于分析用户消费习惯的边际贡献越来越小。以搜索引擎业务为例,勒纳(Lerner)研究发现,当用户输入搜索关键词时,搜索引擎企业会匹配返回多页搜索结果,但只有用户实际点击的那些记录才更有价值,因为这有助于了解用户诉求,改善广告定向投放的精准度,不过,用户搜索记录增加带来的边际改善却不断下降。相比单一性的数据量增长,来源多样化的数据可揭示出更加丰富、更多维度的高价值信息,即数据的范围经济效应要更为明显一些。例如,身份数据能反映个人特征,位置数据能反映消费者所处地点,支付数据能反映交易金额,将这些数据汇总起来形成用户数据“档案”,平台企业可更全面了解用户,进而优化市场策略或促销计划,加快向相邻市场拓展。

 

数据在功能上不是高度差异化的,来源不同的数据往往是可以相互替代的。

用户在使用互联网服务过程中,时刻“留下”自己偏好方面的“蛛丝马迹”,这些数据并不是高度差异化的。一方面,不同市场主体掌握的用户数据很多是相同的。例如,用户要使用网络服务,就需要向宽带企业提供用户身份、联系地址、上网日志等信息;要使用平台服务,就需要下载注册对应的移动应用程序(App),这些App运营企业可能掌握用户身份、地理位置、上网终端、App记录等数据。显然,各家掌握的用户数据大同小异,区别仅在于各自的用户规模和数据量大小不同而已。另一方面,不同平台掌握的用户数据似乎迥然不同,但在“用户画像”方面,却是高度趋同的。Graef(2015)发现借助用户搜索记录“交叉复现”特定用户群体的音乐偏好结果,与利用社交记录揭示出的音乐偏好结果基本相同。这意味着使用不同数据也可实现相同功能。Lerner(2014)发现在提升广告精准化方面,亚马逊收集到的用户购物记录数据与谷歌拥有的搜索记录一样高效。简言之,从商业目的来讲,不同数据源可以提供几乎相同的洞见,至少在功能上是具有潜在替代性的。

 

数据是具有时效性的,其蕴含的经济价值往往随时间而快速贬值。

数据是可以长期存储的,但蕴含的经济价值不是一成不变的,而是快速贬值的,因为数据只是记录了历史,在瞬息万变的世界里,历史数据对当下的商业决策价值有限。数据贬值的速度主要取决于数据类型、用途和具体业务场景。Statista对谷歌广告数据研究发现,那些仍未经加工的原始数据中,有70%的数据超过90天就会过时。据谷歌披露,用户每天搜索的关键词、搜索结果记录中,有15%是新出现的,这就要求滚动纳入这些最新的搜索记录,唯此才能贴合当下用户关切的搜索需求。比如,用户毕业前的消费记录只反映了就学期间的购物偏好,一旦工作上岗,再利用之前的数据来定向促销,其精准性就大打折扣。鉴于新模式新业态层出不穷,用户喜好快速变化,历史数据在科学研究方面或许有价值,但在指导即时决策方面的价值,往往要比预期低很多。从这个意义上讲,在位者即便积累或垄断了海量数据,其优势也是有时限的,难以长期保持。

 

数据既不是决定企业成败的充分条件,也不是必要条件,重要的是要提高数据分析处理能力。

数据只是一种生产要素,要释放数据价值,就必须与劳动、资本、技术等其他要素相结合。纵观国际上一流平台企业的成长历程,绝佳的商业创意、天才的工程师团队、优秀的算法以及对消费者痛点的洞察等,都是关键影响因素,其重要性甚至要比数据更高。一方面,有数据优势的企业不一定就具备竞争优势。例如,在位电子商务平台吸引了海量用户和店家,积累了丰富数据,然而社交电商、直播电商、跨境电商等新进入者的挑战,使其市场份额正在被侵蚀。在网络效应极强的社交应用上,Myspace 虽积累了海量数据、先发优势突出,Facebook却后来居上。另一方面,没有数据,也不一定就处于先天劣势。一些初创企业拥有绝佳的创意,诸如在线预约出租车、在线点餐、视频社交等,其App一经推出,就受到用户青睐,迅速沉淀起海量数据。总之,企业拥有数据只是具备了潜在优势,但能否转换为市场优势,还要看与管理、投资、劳动、技术等其他要素配置效率的高低。

 

本文作者:

马源 国务院发展研究中心企业研究所副所长、研究员

路嘉明 中国人民大学经济学院博士研究生

方燕 浙江省北大信息技术高等研究院研究员