时间:2019-11-26 来源:互联网 浏览量:
邀请到微软解决方案部数据平台解决方案专家赵利超老师,为参与者介绍大数据技术发展现状及在社会治理中的运用。
赵老师梳理了人类科技社会发展的趋势,展示了数据的重要价值,并通过介绍不同真实场景的技术手段,呈现新兴技术领域用到的商业智能解决方案,为参与者提供了大数据技术的完整图景及未来趋势。
微软内部要求员工有“成长性思维”,保持创新,提前布局。作为个人,在这个时代,需要找到难以替代、创造性的工作,而不是重复性的工作。
时代的转变:从IT到DT
1. 从蒸汽时代到数字化时代
从宏观生产角度看,蒸汽时代用蒸汽机代替人工手作,电气时代用电力驱动机器大生产,信息时代通过进一步发挥机器人的能力,到现在AI能完全取代人类做一些数据类、分析类的工作。时代的转变对个人而言其实是很大的变革——如何把握时代的洪流?
现在我们会提一个词叫DT——Data Technology,从IT到DT时代的一个转变除了最明显的——新技术喷薄而出以外,新的应用场景也应运而生。当前,移动互联已经成为社会生活发展最主要趋势的趋势之一。
基本上所有的设备都可以连接到全球范围的网络,手机、iPad、电脑,还有WI-FI基础设施,在国内的任何一个地方都可以随时随地接入互联网,而且没有任何设备限制。
当移动互联成为我们日常生活的一部分之后,它起到的是类似工具平台的作用,目的在于对外社交。有了社交之后就有应用围网,在这样的平台作用下,就产生了大量的数据,数字化时代就是由此而来。
2. 大数据与云计算
移动互联带来的社交平台会产生了海量数据,这样庞大的数据需要有技术来支持,就是云。云计算是什么?形象来说,有一些厂商会买很多计算机设备,屯在一个地方,屯下来之后往外租给用户,所以云计算的本质很好理解——规模经济。
对用户来说,他们需要自己建机房、配供电、安全防护,这些都是固定成本。再考虑到硬件,如服务器,三或五年一个迭代周期等等。对用户来说,不光有运营成本,还有前期投入、重置资本投资。站在经济学角度出发,用户(企业等)可以租用服务器的话,把运营的固定资产投入转化成运营费用,相对成本会减轻很多,这也是云时代最重要的意义之一。
关于云计算和大数据之间的关系,用一个词来概括——相辅相成。机器安置好了之后不是处于空闲状态,有数据才能有意义。这些数据是从移动互联和社交中来。
3. 数字化转型的应用场景
对航空发动机制造商而言,之前的盈利模式是把航空发动机卖给飞机制造商,然后飞机制造商再把飞机卖给航空公司,整个链条就结束了,作为发动机公司来说,它只需要跟飞机制造商进行直接联系。
现在在DT的加持下,他们可以在发动机上装上各类传感器,比如某一天通过对海量数据的对比发现,意大利航空公司耗油量比其他公司平均高1%到3%,就可以把这份报告给意大利航空公司,告诉他们通过某些改进可以节省燃油。意大利航空公司拿到报告之后,运行一段时间发现确实可以节省3%左右的燃油。这种对于最原始的、最基础的零部件制造商来说,是本质性的变革。
在后生的金融领域亦然,几年以前投资公司就已经开始使用AI来分析各个公司的财报,机器精度很高,而且可以24小时不间断地跑量,相比之下人力就非常有限。
价值的转变:数据处理的结构逻辑
1. 数据价值发掘的金字塔
要使得数据价值走高,第一步我们需要提炼信息;汇聚成信息之后,我们可以进一步把它分成知识,但知识的建立过程需要我们从业的经验;同时知识的抽取很多时候机器并不能自动完成,因为从信息抽取到知识,实际上是有大量的规则存在,这规则由使用者来定。
2. 数据生成决策的四个步骤
第一个阶段是描述性分析,简单来说就是当前这个事情的状态是什么?以企业经营为例,企业当前的状态是什么?这个产品的销量是多少?生产的执行计划是什么?它只回答当前发生什么,非常客观。
第二个阶段是诊断性分析,我们需要知道状态“为什么”发生。
有诊断性分析之后,我们就可以做预测性分析。
最后一个叫规定性分析,即做决断。我们虽然掌握了全面的信息,海量的数据,但这些条件是不是能在新的区域成功应用,这时候要靠我们人的判断。
3. 数据获取的技术基础
即使只有很少几条数据,我们已经可以完成整个数据处理的过程,而且对决策有价值,这就得益于时下提出的“3T融合”概念。3T,即自动化技术(AT)、通讯技术(CT)和信息技术(IT)。
由于项目所在地的自然、基础设施、设备装置等条件的区别,需要通过不同技术的融合来实现。现在已经有现成的方案来做3T融合,国内企业也在做,但是目前还没有彻底的端到端的,还是以CT技术为主,AT跟IT并没有去涉及。
还有很多新概念,比如物联网、数字孪生等等。数字孪生即物理世界被映射到数字世界里,有个对应的数字副本与真实世界相互影响,例如物理工厂里设备的指标变了,会有对应的数字化体现。
个人价值的再定位
微软内部一直要求员工“自我成长”,即成长性思维,作为创新企业本身它也喜欢革自己的命,很多时候一些前瞻性的东西都需要提前布局。对我们个人来说,现在这个时代有很多需要我们去努力,方向就是尽力去找一些机器很难替代的、创造性的工作,而不是重复性的工作。
在数据价值发掘金字塔框架下,我们要做以数据为基础的行业专家。机器给我们各种各样的预测结果,只是一种建议,告诉我们往这个方向走成功概率大概是80%、90%,但是具体走不走这条路的决策,最终是人来做的。
参与者交流
宣程(清华大学):赵老师好,我现在的研究方向就是大数据,自己也在做一个机器人公司,我们在用机器人和工业对接的过程中,工厂会有MES系统或者其他一些系统,然后您刚才也分享了很多包括波音这些实际工程案例,我更好奇的是在很多成功案例的背后,微软在工业领域有没有经历过失败的案例?
赵老师:有。我们总结过,人工智能最近几年特别火,我们自然也收到很多客户的请求,但是没有方向。我刚才举的例子大多都是生产制造企业,他们对成本特别敏感,像生产一个车间,可能全国也就十几二十个车间,但是每一个车间都是重资产的,花一分钱都要去想一下值不值得,所以他们要求一个精确的投入产出比。相对来说,这个场景里OK才会去做,相对来说比较容易成功。
另一个极端案例是有一些企业确实财大气粗,做了一个人脸识别系统,但却没有人使用,但不能说它失败了,只能说不成功。这样的案例还挺多的。所以我们一般在人工智能或大数据领域一定要算一个投产比,这是我们得到最重要的一条教训。
宣程:关于刚才涉及的business intelligence,我曾了解过一些类似的公司,比如说像Salesforce、SAP这样的。微软在业务、宗旨、目标客户、服务理念等等和他们有没有什么区别?
赵老师:最大区别是微软做平台。像Salesforce,他们专注于做CRM(客户关系管理),或者做一些销售系统管理等等,他们不光是卖BI工具,更多的是带着业务场景,他们带着行业的经验。微软跟他们的区别是,只做平台,而行业经验这些软技术是交给客户他们自己去完成的,跟用户之间有一个很大的空间是给其他partner做。
刁诗哲(北京师范大学):数据价值发掘的金字塔我有一块没有太看懂,我本身是做NLP算法,感觉好像跳过了什么,中间这两个过程(多维分析、数据挖掘)就是直接把数据输给了智能,想请您再详细阐述一下中间数据到信息到知识这个过程是怎么转换?
赵老师:从数据到信息和知识,这两个不是计算机的理论,实际上是一个信息学里边的一个定义,数据其实就是一些raw data(原始数据),或者说是没有任何意义的,可能最多有一些数据的描述,我们的归纳和总结就是知识,知识的话其实要结合数据,然后再去进行数据之外的一些数据,形成进一步的智能。
王哲(清华大学):就云计算到分布式计算的发展趋势来说,信息安全的问题一直很重要,如何通过技术手段来减轻安全问题带来的影响?
赵老师:云计算从整体来看的话,其整体安全性一定是超过传统的数据中心的。举个例子,一个企业的数据中心有100个节点,每个节点都有出问题的概率,我们假设在一段时间内这个节点出问题的概率是1%,那在这段时间内这个数据中心出问题的概率就是1。大家可能经常看到某个云厂商出了故障的新闻。
但是,云计算中心专职做安全,其单计算节点出问题的概率要远低于企业自己的数据中心,为什么呢?以微软为例,每天受到的攻击大约有几十万次,但从来没有被攻破过,因为微软有专职做安全防护的团队几千人。其实,云产商对信息安全等方面的投入非常多,肯定超过传统产商的数据中心。
因此,云厂商的单个节点故障概率要远低于企业自己的数据中心单节点,但是由于云厂商的数据中心的规模远远大于企业自建的数据中心,因此才偶见云厂商产生故障的新闻。对于企业来讲,云厂商比自建数据中心是更可靠的。
赵利超老师简介
赵利超是微软数据平台解决方案专家,目前担任微软中国北方区域大型集团客户数据相关技术解决方案工作的主要负责人,他在大数据分析、数据库开发和运维方面有丰富的一手经验。
码字不易,如果您觉得文章写得不错,
请您 1.关注作者~ 您的关注是我写作的最大动力
2.私信我“大数据”
我将与您分享一套最新的大数据学习资源和全套开发工具