10月12日,“第五届中国法学博士后论坛——依法治国与推进国家治理现代化”在北京举行。此次论坛由中国社会科学院、全国博士后管委会、中国博士后科学基金会主办,中国社会科学院博士后管委会、中国社会科学院法学研究所、最高人民法院中国应用法研究所承办,腾讯公司博士后管理工作办公室协办。互联网分论坛“互联网法律问题研究”设“大数据时代个人信息、信息安全与国家战略”“移动互联网知识产权保护与竞争秩序的建构”两个议题。有来自工信部、商务部、证监会、银监会等机关单位的官员和各级法院的法官,各知名高校、研究机构的专家与学生,各大互联网公司的法律顾问,以及多家媒体记者100余人一同畅谈法治中国的互联网发展之道。

大数据的发展与管理

周烜 中国人民大学副教授、中国人民大学数据工程与知识工程重点实验室

数据对大家来说并不陌生,我们平时的工作生活中无时无刻不在使用数据,为什么现在有一个名词叫大数据呢?我们可以这样理解,因为现在的IT技术和互联网技术渗透到了我们所有的行业和生活工作的每一个角落里,最终带来的结果是IT系统在收集各种各样的数据,数据收集的量是呈指数增长的,越来越大。早在二十年前,IT系统里的数据大家就在考虑用它来干什么,就有了很多数据挖掘、数据分析这样的一些学科出现。

关于大数据,可以用几个简单的例子介绍,比如《纸牌屋》,它的出资人是一家互联网DVD租借公司,网上可以预定DVD然后租赁。他为什么出品《纸牌屋》并且获得了很大的成功,其实源于数据分析,比如销售量,哪些是用户所喜欢的;比如演员、导演,哪些特别受欢迎。然后他又发现有一部英国80年代的老片《纸牌屋》,虽然大家知道的不多,但是长久以来总是有人去借看,他通过数据分析,就把演员、导演以及剧本融合起来,重新再拍一部《纸牌屋》的连续剧,显然市场对这部剧接纳度就非常大,所以也最后成功了。

现在有很多新的数据搜集仪器或者是设施,比如智能电表,通过一个月的监控,可以发现用电情况,甚至每分钟每秒钟的用电情况,然后可以大概推测出家里有多少台冰箱、空调或者平时看不看电视。通过电表的数据,还可以分析到很细节的东西,以此作为一种商业手段或者决策支持等等,特别是互联网上的精确广告定位。

整个数据收集管理的流程是数据收集、清理、存储、统计、查询、分析挖掘,每个步骤在技术领域里都有很长时间的积累,技术的积累和研究并不是新的。但是数据的量带来了一些新的挑战,以往的技术不能够达到现在的量,所以在学界提出了很多新的技术理念。比如说20世纪70年代到90年代,在数据管理这个学科上有很多的技术,特别在计算机的领域,我们可以把它总结为数据库技术,就是对数据的存储、管理还有对数据信息的查找。但是现在随着互联网IT的增长,数据量变得越来越大,而且数据的更新越来越快,因此数据的多样性也增加了。

大数据有三个V,量、更新速度和多样性。在IT领域,很多互联网公司开始推出大数据技术。最典型的例子就是谷歌,一般的企业平时用不到大数据,最开始遇到大数据问题的都是互联网公司。现在谷歌有几个数据中心,每一个都有上百万台的计算节点,这是非常大规模的。互联网公司开始创造自己的平台,用更廉价的容错性、更强的机制去管理数据,所以现在大数据平台主要的技术是从互联网公司派生的。

最后,大数据从收到到分析,可以分为三个层面。第一个层面是应用,平时在电脑上或者在手机终端接触的所有服务,比如游戏、金融交易、银行转账、购物等;第二个层面是业务系统,包括SQL、NoSQL,业务系统负责与应用提供数据管理服务。与此同时业务系统会收集大量的数据,把大量的数据推向最后端,包括数据分析平台、存储平台等等;第三个层面是存储平台,存储平台可以积累大量数据,然后进行各种数据分析计算,最后得到一些决策支持的信息。这就是现在大数据的一个基本的架构。

腾讯互联网与社会研究院网站:tisi.org

官方微信:cyberlawrc、legalresearch

将陆续推出本活动的详细报道,敬请关注!