值得注意的是,业界对达到怎样的数量级才算是大数据并无定论,其实在很多行业的应用场景里,数据集本身的大小并不是最重要的,是否完整才最重要。
第二个V,在海量、种类繁多的数据间发现其内在关联。互联网时代,各种设备通过TCP/IP网络连成了一个整体。进入Web 2.0时代,PC用户不单单可以通过网络获取信息,还成为了信息的制造者和传播者。这个阶段,不仅是数据量开始了爆炸式增长,数据种类也开始变得繁多——从技术角度看,可以称之为结构化数据、半结构化数据、非结构化数据和流式数据。我记得2005年,微软亚洲研究院一年一度的“21世纪的计算”大会将主题设定为“Data Centric Computing”,也就是“以数据为中心的计算”,那时我们就已建立了这样的认知:价值来自于数据,或者说,数据一直都是有价值的商业资产——此前,人们往往过于重视“计算和存储性能的提升”;而从那时起,我们就已更关注“数据分析和处理的效率”——对海量数据进行分析、处理和集成,找出原本看来毫无关系的那些数据的“关联性”,把似乎没有用的数据变成有用的信息,以支持我们做出的判断。
第三个V,可以理解为更快地满足实时性需求。如今,通过各种有线和无线电网络,人和人、人和各种机器、机器和机器之间无处不在的连接,这些连接不可避免地带来数据交换,而数据交换的关键是降低延迟——要解决数据产生、传输、处理、存储、抽取、分析、可视化等各个环节带来的延时,以近乎实时(这意味着小于250毫秒)的方式呈献给用户。
如今,数据的实时化需求越来越清晰。用户想驾车去吃饭,先用地图应用查询餐厅的位置、预计行车路线的拥堵情况、停车场信息甚至是其他用户对餐厅的评论。吃饭的过程中,他会用手机拍摄食物的照片,编辑简短的评论,发布到微博上,还可以用LBS应用查找在同一间餐厅吃饭的人,看有没有好友在附近……
第二个驱动力,是云计算的普及和成为主流。经常有一些朋友会问我说,云计算和大数据到底有什么区别?前两年大家都在讲云计算,现在怎么又变成大数据了?其实,云计算和大数据是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。由于云计算的普及和成为主流,让上述三个V不再成为挑战,反而成为大数据成长的驱动力。另一方面由于数据越来越多、越来越复杂、越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。举例而言,30年前存储1TB数据的成本大约是16亿美元,如今存储到云上只需不到100美元;但存储下来的数据,如果不以云计算进行挖掘和分析,就只是僵死的数据,没有太大价值。
第三个驱动力,是人工智能、机器学习和数据挖掘等技术的迅速发展。在这样的背景下,微软已经可以为用户提供三个层次的端到端大数据解决方案——其一是数据管理,即如何获取、存储和保护数据;其二是数据丰富,即如何清洗、发现不同数据间的数据相关性;其三是,数据洞察力,即通过分析、呈现与决策工具,获得洞察力,并最终通过付诸行动,产生价值。
通俗的说,就是将信号转化为数据,将数据分析为信息,将信息提炼为知识,以知识促成决策和行动。归根到底,大数据的最终意义在于获得洞察力和价值,这也正是大数据的第四个V(Value),这个V比前面的三个V都更重要。
云和大数据重塑科技和商业生态
不太为人所知的是,云计算和大数据的结合,最先影响到的是科学研究界。
2007年1月,我在微软的同事、也是我非常尊敬的一位科学家吉姆·格雷(Jim Gray)在计算机科学与电信委员会上的一次演讲中描绘了“科学研究的第四范式”的图景。所谓“第四范式”是指基于数据密集型计算的科学研究——吉姆·格雷呼吁资助开发用户数据采集、管理和分析的工具,呼吁资助一个交流与发布的基础设施。在他的设想中,数据密集型科学由三个基本活动组成:采集、管理和分析。数据的源头是各种不同规模和属性的国际科学联盟、实验室甚至于个人生活,需要创建一系列通用工具来支持从数据采集、验证、管理到分析、存储的整个流程,而数据分析则覆盖整个工作流程的所有环节,包括建立数据库、建模和分析、数据可视化等等。吉姆·格雷的最后一次演讲体现了这位图灵奖大师的远见和雄心。
在商业领域,大数据具备极大的想象空间。
上个世纪七十年代,纽约的治安状况很糟糕。一位名叫杰克·迈普(Jack Maple)的年轻警察根据个人警务经验,发明了一种名为“未来图表”(Charts of the future)的犯罪预测方法论,可以根据过往抢劫案的记录数据来推测新案件可能发生的时间与地点。这种方法真的有效,1994年,新上任的纽约市警察局局长开发了“未来图表”的电子版,将之更名为“CompStat”,推广至全市的警务系统。CompStat的技术核心是犯罪测绘系统(Crime Mapping System)和数据库采集系统(Database Collection System),而微软的Microsoft MapPoint、Access、Excel等产品为两个系统提供了坚实的支撑——基于大量的数据采撷、挖掘和分析工作,纽约警察局尝试对历史上犯罪分子的行为规律进行归纳和总结,并有效地改善了城市的治安。数据显示,在CompStat得到推广应用后,1995年,纽约的凶杀案发生率降低了约25%,车辆盗窃案发生率降低了约24%,而且这些数字还随着IT软硬件技术的持续更新和CompStat系统的不断完善而逐年下降。
未来,透过技术手段完全遏制犯罪行为,让每一个城市和地区的居民时时刻刻都安全无虞——这或许不是梦想。2012年8月,纽约市长迈克尔·布隆伯格(Michael Bloomberg)亲手揭开了纽约警察局与微软携手开发的城域感知系统(DAS,Domain Awareness System)的面纱。该系统将覆盖整个纽约市的3000多个监控摄像头、2600多枚辐射探测器、几百个车牌信息读取装置所收集的信息汇总到警方数据库中,可结合探测数据、实时影像、911报警电话和警方积累的罪案历史档案,帮助警方更准确地侦测并锁定即将发生的犯罪活动及嫌疑人。
对商业竞争的参与者们来说,大数据意味着激动人心的业务与服务创新机会。零售连锁企业、电商业巨头都已在大数据挖掘与营销创新方面有着很多的成功案例,它们都是商业嗅觉极其敏锐、敢于投资未来的公司,也因此获得了丰厚的回报。
而对于那些拥有行业经验,并熟练掌握云计算开发和应用技能的小型企业,尤其是初创企业来说,则更是意义非凡。最近几年,我们看到的一些明星初创公司,比如Cloudera, Splunk, Klout, TellApart等,人员规模只在数十人,但对某个行业拥有深厚知识,并能通过云和大数据的技术手段,快速解决该行业的共性需求和痛点——在未来数年,这样的“小而精”、“快而准”企业会越来越多,并做出有可能改变世界的颠覆性产品。很高兴看到,在北京中关村,在微软的云加速器二期,也有类似的初创企业加入,和硅谷、海法的创业者们一起,把握住了时代的脉搏。
总而言之,云计算和大数据的结合,将对今后的政治、经济、科技、民生产生难于估量的影响。无论是做硬件、做平台,还是做应用、做服务,归根结底都是以数据为核心、以数据为动力,来提升产品对用户的引力、强化企业竞争力、创造新的商业机遇。数据已经被认为是宝贵资源,任何一家有雄心、渴望获取洞察力的企业,都应及早制定大数据战略和方案。否则,所有的机会将被“数据鸿沟”所延宕。