新兴的大数据在处理和应用中也带来了深刻的科学问题,主要表现在以下一些方面。
(1)数据研究的新兴应用。
大数据是现有产业升级与新产业诞生的重要推动力量。数据为王的大数据时代的到来,产业界需求与关注点发生了重大转变:企业关注的重点转向数据,计算机行业正在转变为真正的信息行业,从追求计算速度转变为关注大数据处理能力,软件也将从以编程为主转变为以数据为中心。大数据处理的兴起也改变了云计算的发展方向,使其进入以分析即服务(AaaS)为主要标志的Cloud 2.0时代。采用大数据处理方法,生物制药、新材料研制生产的流程会发生革命性的变化,可以通过数据处理能力极高的计算机并行处理,同时进行大批量的仿真比较和筛选,大大提高科研和生产效率,甚至使整个行业迈人数字化与信息化的新阶段。数据已成为与矿物质和化学元素一样的原始材料,未来可能形成数据服务、数据探矿、数据化学、数据材料、数据制药等一系列战略性的新兴产业。
(2)数据研究方法的变化。
大数据还引起了科技界对科学研究方法论的重新审视,正在引发科学研究思维与方法的一场革命。最早的科学研究以实验科学为主,实验科学是科技人员设计的,如何采集数据、处理数据事先都已想好了,不管是检索还是模式识别,都有一定的科学规律可循,通过设计实验可以进行数据抽样获取,并通过数据分析研究各种以定律和定理为特征的理论科学,这种数据研究方法导致了计算科学的兴起。
大数据的出现必然催生了一种新的科研模式,不同于传统的数据获取,大数据时代的数据研究更多的是去冗分类、去粗取精,从数据中挖掘知识。几百年来,传统科学研究一直在做“从薄到厚”的事情,把“小数据”变成“大数据”,现在要做的事情是“从厚到薄”,要把大数据变成小数据。在面对大数据所提供的全面数据资源时,科研人员无需再进行数据的抽象调查,只需从数据中直接查找或挖掘所需要的信息、知识和智慧,甚至无需直接接触需研究的对象,这是和以往的科学研究方法不相同的,因为它更多的是根据数据来进行实验设计和科学研究,即研究方法演变为以数据为主导的数据密集型科学研究。
(3)数据相关性引导因果分析。
观察各种复杂系统得到的大数据,直接反映的往往是一个个孤立的数据和分散的链接,但这些反映相互关系的链接整合起来就是数据相关性。大数据的相关性特征隐藏在复杂的规模数据中,不同于传统的逻辑推理研究,大数据需要对数量巨大的数据做统计性的搜索、比较、聚类、分类等分析归纳,因此继承了统计科学的一些特点。这种分析更加关注数据的相关性或称关联性,所谓相关性是指两个或两个以上变量的取值之间存在某种规律性。严格来讲,统计学并不适用于检验逻辑上的因果关系,而传统的数据分析则是更侧重于根据数据分析找出某一现象存在的因果关系。
因果关系的研究曾促成了科学体系的建立,近代科学体系获得的成就已经证明,科学是研究因果关系最重要的手段。相关性研究是可以和因果分析一样成为科学的新发展,也能作为因果分析的研究基础和补充。对于简单封闭的数据系统,基于小数据的因果分析容易做到,但对于开放复杂的大数据系统,传统的因果分析难以奏效,而寻求因果关系的本质——相关性则是一种更加可行的方法。可以看出,相关性高于因果关系,同时相关性也引导因果关系,两者可以相互结合。
实际上,在大数据时代,正是由于数据分析侧重于寻找更高层次的相关性,才促使大数据技术在商业领域广泛流行。企业的目标往往只需要挖掘和发现与关系数据具有较强相关性的数据因素,并根据数据相关性采取相应的措施,而不必深究其背后的内在规律和模型(即因果关系)。抽象而言,大数据时代的数据分析需求,往往不是按传统的“从数据到信息再到知识和智慧”的研究思路,而是走“从数据直接到价值”的捷径。P20-22
当前,互联网浪潮风起云涌,各行各业拥抱互联网已是大势所趋。顺应以网兴企的大潮,本书以互联网新技术为基础,以互联网应用为主线,将互联网发展的最新成果大集成而成,以此奉献给广大企业家和社会各界朋友。
本书以南京大学钱志新教授率头组织中云科技公司专家及南京大学硕士毕业生共同研究而成。全书共分三大部分十章,由钱志新教授总体设计和修改定稿,第一部分由钱志新教授撰写,第二部分由戴元顺博导撰写,第三部分的第八章由唐高哲硕士撰写,第九章由楼栋硕士撰写,第十章由江勇硕士撰写,南京大学钱峰研究生做了大量助手工作,对于参与本书成稿的合作者在此表示衷心感谢!
本书虽精心组织撰著,但由于时间较紧,水平有限,尚有不尽人意之处,敬请广大读者指正。
钱志新
2014.3
大互联网是众多互联网新技术集成应用的全新互联网,包括大数据、云计算、移动互联、物联网、社交网络、众包等新技术,标志着互联网进入了全面加速应用的新阶段。
大互联网是人类新文明、财富新高地,具有前所未有的巨大创造力,其基本动力取决于“三互”基因,即信息的互联互享互动。互联是将分散的信息相互联结,实现信息的“零距离”,使信息传递大大畅通,加快了人与人、人与物、物与物相互之间的联系。互享是将众多的信息集聚在一起,形成海量数据库,可为广大人群共同分享和使用。互动是将不同的信息集中起来使用,信息之间互动交融,将产生新的有效信息。在互联网上,通过信息的互联互享互动,源源不断地创造新的价值,互联网已成为人类价值创造的新机器。
大互联网的生命力全在于应用,各行各业互联网化已成为不可抗拒的历史潮流。从企业的角度出发,运用互联网思维重构企业,是实现转型升级的最佳路径。企业互联网化集中起来为三大支柱,即数据为先、用户为王、020为本,三位一体形成新体系。
第一,数据为先。数据是企业最为宝贵的知识财富。首先应将企业内部分散的数据大集中,建立企业海量数据中心,实现企业内部信息的互联共享。在此基础上,按照价值链(包括用户、供应商、合作者等),将企业内外信息互联成网,在互联网上建设信息生态系统,打通企业信息系统的任督两脉。企业应以信息主导实体,数据驱动业务,通过信息流为中心主导业务流、实物流和资金流,这是企业互联网化的首要基础。
第二,用户为王。在互联网上用户是王,企业要从经营产品为主,转向经营用户为主,千方百计解决用户的“痛点”和“兴趣点”,满足用户多种需求。消费者主导生产者,网民是最有潜力的消费者,现在网民的网络社交越来越多,是最大的网络红利。企业应充分利用互联网,特别是移动网络如微信微博等,更多地发展用户,争夺用户。同时要加强与用户互动,最大限度地增强用户体验,应用迭代方式,不断优化产品和服务,使用户参与价值创造的全过程,这是企业互联网化的关键。
第三,020为本。互联网的基本商业模式是020方式,即线上与线下一体化运作,企业既在线上又在线下,实现“两栖生活”,这不仅是营销方式而是一种全新的发展方式,打造企业商务全程电子化。线上与线下的结合方式是应行业而宜,有的是线上营销,线下成交;有的是线下体验,线上消费,总的法则是“行业本质+互联网基因”。互联网企业从线上向线下发展是先导性的,传统企业从线下向线上发展才是真正的主流,只有大量传统企业互联网化,互联网的应用进入黄金时期,才能创造巨大的网络价值。
本书将理论和实践结合,按照大互联网基因、大互联网新技术、互联网大变革三大板块进行详细阐述,列举大量应用案例,旨在推动各行各业互联网化,实现产业的优化升级。
大互联网的应用,不在于技术,而在于全新的思维,从业务驱动转向数据驱动,从经营产品转向经营用户,从线下发展转向线下与线上一体化发展,互联网思维是一场价值观的重大革命。
钱志新
2014.3
大互联网是众多互联网新技术集成应用的全新互联网,包括大数据、云计算、移动互联、物联网、社交网络、众包等新技术,标志着互联网进入了全面加速应用的新阶段。
《大互联网》将理论和实践结合,按照大互联网基因、大互联网新技术、互联网大变革三大板块进行详细阐述,列举大量应用案例,旨在推动各行各业互联网化,实现产业的优化升级。
《大互联网》是以南京大学钱志新教授率头组织中云科技公司专家及南京大学硕士毕业生共同研究而成。
《大互联网》将理论和实践结合,按照大互联网基因、大互联网新技术、互联网大变革三大板块进行详细阐述,列举大量应用案例,旨在推动各行各业互联网化,实现产业的优化升级。本书以南京大学钱志新教授率头组织中云科技公司专家及南京大学硕士毕业生共同研究而成。