而这个“活”,大数据的第一个特点是“在线”——活数据肯定是在线的。现在很少有数据是可能实时被使用的。阿里有一个“奔月”计划,就是把所有的数据都搬到云上,实现“实时处理”。
第二个要理解的点,我们今天的数据,跟以前不一样的地方,未来的商业数据是自然被记录下来的,而不再是一种收集的概念。这是一个根本的思路差别。
大数据第三个特点:数据和业务是一个有机的闭环,它会是一个正反馈的作用。以搜索为例,我们有一个全网数据库,最主要的考核目标是“实时性”,搜索依据,就是要做出一个全网实时数据的index,同时要做出一个ranking:对所有网页内容,根据搜索要求,进行一个排序匹配。Google最有名的研发成果就是page rank。但这个相关性是由什么决定——它是由用户每次的点击(CTR)来决定——这个是google每次计算的活数据的来源,google没有数据收集的过程,任何一个数据的点击,就成为下一个搜索实时的信息,这就是一个活数据的概念。你搜一个关键字,原则上,一个小时前后,得到的结果是不一样的,因为一个小时之后,数据动态更新,已经形成了一个新的结果。这是一个实时的在线系统,一个完整的业务闭环:对于传统企业来说——你的业务在多大程度是由你的数据流决定了你的用户体验。
云+端,获得更好的用户体验,从云的层面说,最重要的大数据处理能力,是大数据本身的质量,数据与用户的互动——这些都会影响用户的体验;而端的层面,比如微信,是点对点的体验,不需要背后云的支持。
数据量的大少,并不是关键,关键是怎么要实现“活”数据。我以出版业为例,出版社这个业务,我想要的就是一个活数据的闭环。又如家电企业,他们有哪些业务是在线的?电商版块是在线的,在线存货和其他的存货,未必都是一盘货。
阿里不是一个纯互联网公司,我们是用互联网技术,提升商业的效率。