时间:2017-04-19 来源:互联网 浏览量:
首发于大数据文摘微信公众平台(ID:BigDataDigest),转载请注明来源
作者 | 邓旭川 魏子敏
*本文为清华数据科学研究院联合大数据文摘发起的《数据团队建设全景报告》系列专访的第二篇内容。
“数据分析师与数据科学家的区别 就像本科与博士做研究一样:本科生是老师手把手教题目,而博士生是自己找题目。”
作为人群聚集区,城市是一个天然的数据集中池。
社交媒体、交通流量、气象、地理等多种大数据都在这里汇聚,物联网、传感器的发展,也让这些数据得以被追踪存储。当这些时空数据集被组合起来,并与人工智能结合,这似乎是一条解决交通拥堵、环境恶化、能耗增加等城市问题的新的角度。
“我们都生活在城市中,城市跟我们的生活密切相关。我是做计算机科学的人,那为什么不能想办法解决身边的那些最常见的问题呢?”在一次公开采访中,郑宇如此描述自己钟情城市计算的一个原因。
近年来,城市计算(Urban Computing)逐渐走入公众视野,并且越来越受到社会关注。这是是计算机科学以城市为背景,与城市规划、交通、能源、环境、社会学和经济等学科融合的新兴领域。城市计算通过不断获取、整合和分析城市中不同领域的大数据来解决城市所面临的挑战。
在2013年,郑宇因为在城市计算方面的杰出研究被《MIT科技评论评》评为全球杰出青年创新者。
雅虎创始人杨致远、谷歌联合创始人拉里•佩奇、Facebook创始人马克•扎克伯格、Twitter联合创始人杰克•多西以及苹果设计师乔纳森•艾维等多位互联网明星都曾入选TR35。而郑宇是当年入选者中仅有的两位来自中国机构的创新者之一。
微软研究院郑宇带领团队主持“城市计算”以来,通过分析和融合城市中的各种大数据,实现了一系列关于智能交通、城市规划、环境和能源的实际案例。相关技术不仅被应用于微软的产品,并且还在多个城市服务于中国政府。
3月20日,微软亚洲研究院“城市计算”领域负责人郑宇博士近期在清华大数据讲座上分享了题为“大数据驱动城市计算”的讲座。(点击查看大数据文摘推送的相关文章《微软郑宇:多种大数据组合起来,解决空气污染、房价预测等城市问题(视频+PPT)》)
演讲后,我们有幸针对“数据科学团队建设问题”对郑宇博士补充了相关采访问题,针对这样一个时空数据交杂的分析领域,郑宇在组建数据团队和数据人才培养方面有着自己的独到见解,此外,针对技术和研究方向上,他也给出了基于自己经验的看法。
以下为问答实录——
数据分析师与数据科学家的区别就像本科与博士做研究一样Q:数据分析师和数据科学家有什么区别?
郑宇:很多公司的招聘广告上面写招聘数据科学家其实都不是招真正的数据科学家,而是数据分析师。数据分析师有明确的任务,明确的数据,结果也明确,他会用一些分析工具去跑一些报表,然后提交结果。而数据科学家要有能力自己找题目,首先要懂得行业问题,其次懂得数据背后的隐含信息,然后还要知道这个行业问题之后你要知道用什么数据如何解决这个问题。除此以外,还要对各种模型都很清楚,不光是机器学习,还有数据管理以及可视化,把很多模型要组合在一起。最后要对云计算平台有一定的了解,要学会怎么用,甚至要学会怎么改它,一个好的数据科学家是站在云平台上面看问题、想数据、关联模型,把这些模型有机组合起来部署到云平台上面,产生鲜活的知识,解决行业问题,这个才是大数据。其中的区别就像本科与博士做研究一样,本科生是老师手把手教题目,博士生是自己找题目。
我通过两个例子讲述一下什么叫数据科学家,什么叫数据分析师:
先举一个数据分析师的例子:银行向用户发信用卡,用户提交的表格上有他的年龄、职业、收入等信息,需要分析师判断是否给这个用户发信用卡。这是一个YES or NO的问题,分析师要做的是拿个人的信用记录去训练一个分类模型。任务明确,数据明确,决定也很明确。
再说一个政府向数据科学家提出的需求:“徐汇区有一条路灰很多,怎么用大数据去处理?”、“北京市建副中心到通州以后对北京整个的经济、环境、交通有什么影响?”这个问题不是因果问题,不是预测问题,也不是关联问题,需要你去想找什么样的数据,怎么展现怎么实施。没有具体问题也没有具体数据,这就是数据科学家应该解决的问题。
Q:您的团队大致有多少人组成?与数据相关的团队有多少人,有哪些不同的职位划分?
郑宇:我的核心团队其实没有大家想象的那么大。有2位研究员、4名软件工程师和八、九名研究助理组成。根据城市计算的四个层面(城市感知、城市数据管理、城市数据的分析和挖掘、服务提供)以及每个人的特长和兴趣,我会给这些组员分配不同的工作。其中一位研究员带领几名研究助理和工程师,负责数据管理层面。另一位研究员带领几名研究助理和工程师,负责城市数据的挖掘和分析层面。另外几名研究助理会分布在城市感知以及服务提供两个层面。我会参与到城市计算各个层面的项目中去。此外,我们会跟一些合作伙伴展开合作,比如,会有一些高校的团队在某些项目中帮助我们做一些可视分析. 另外,我们也会经常跟市场部门的合作伙伴一起跟客户沟通,了解他们的需求,协调数据并最终部署技术。
Q:数据相关团队在微软及您的整个团队中所处地位如何?
郑宇:数据团队在一个项目的始终都扮演者及其重要的作用。从最开始的市场接入环节,我们的数据团队就要开始参与到其中,了解用户的需求和掌握的数据情况,甚至要帮助用户分析和提出他们的需求。在现在这些数据驱动和人工智能主导的项目中,单纯依靠销售和市场团队很难打开局面,也很难形成跟客户的有效配合。最后期,我们还要对第三方运维企业做有效的培训,确保他们能够维护我们部署的系统。
大数据时代我们真的不再缺数据了缺得是我们的思维不够开放Q:一个好的数据科学家最关键的品质是什么?
郑宇:你会发现在大数据时代我们真的不再缺数据了,缺得是我们的思维不够开放,思考问题A的时候不要一直看问题A的数据,其实会发现问题B和C的数据都可以拿来用,而且这个数据完全可以不是你这个领域的数据。只有你对这个问题理解深刻以后才能把别的数据背后的知识拿过来做融合。很多时候项目推动不了不是人数不够,而是因为缺乏中间灵魂的头脑,培养这样的人其实是非常困难的。以我个人的经验至少七到十年才能培养出这样一个真正的数据科学家来,这样一个人可以解决很多问题。所以我鼓励大家,你至少读一个五年PHD加两年的实战经验,基本上可以来做这样的事情。
Q:那么算法的理论知识和实际项目的实践经验哪个更重要?
郑宇:两个方面都很重要,但是后者的学习和获取过程更困难。
数据挖掘的模型你可能拿本书学个两三年基本能学会一些模型,但是很多项目的经验,你的真的很少有机会接触到这样的项目。只有把系统部署到真实世界中用起来,拿到新的反馈,再改进模型,经过这几次迭代过程你会学到很多东西,但是这个机会特别少,特别难得。而且你从后者怎么吸取和提炼这种经验也很重要,如果没有总结能力和提取能力的话,换个新问题你还是不会做。所以我觉得这两者都重要,后者培养起来更加困难一点。
Q:您怎么看待数据驱动?数据驱动在一个企业可以辅助商业决策,请列举在过去几年利用数据解决研究问题/发现观点的一个有趣的例子。
郑宇:从商业选址到空气质量预测,数据驱动的方法已经多次作出了有效的决策。比如,合理的为商业店面选址可以带来更多的人气,提升商业的收益并降低企业的投入。通过数据驱动的方法为充电桩选址,可以让有限的资源为更多车服务,并且避免过度拥堵。另外,在住宅地产选址的过程中,我们发现除了学区房,影响小区价值的另一个重要因素是该小区通向最近高速公路入口的路网距离(或者通行时间)。位置很近的两个小区,其价值(根据同一市场环境下的涨幅比来确定)可以相差很远。
关于数据模型资产的复用有两个东西可以转移Q:北上广这些城市的数据化基础设施比较好,那么在这些地区做城市研究会相对可操作,但是,在其他的比较落后的地区如何开展相关城市计算研究呢?
郑宇:我们在研究中,会遇到有两个类似的模型应用场景的情况,但是我们不能直接把在A场景做的模型应用到B场景去,这时候,我建议基于迁移学习的方法来做不同场景间的知识的转移。有两个东西可以转移:
第一,数据和数据之间的关系可以转移:比如说出现拥堵的时候空气质量会变坏,当湿度比较高的时候容易形成雾霾。这种数据和数据之间的关系在很多地方都是普遍存在的,可以在A 城市里面用丰富的数据训练出一些字典,然后以此为基准复用到B、C、D城市去。
第二,利用隐含空间:数据本身可能不能转移,但是把数据投影到隐含空间以后,不同城市的数据就可以共享。我举个隐含空间的例子,比如北京市的交通流量和宁波市的交通流量肯定很不一样,但是它们投影到隐含空间里面可能都是早高峰堵、晚高峰堵中间不堵,如果都能投影到类似的隐含空间以后,不同城市的数据就可以共享和利用。
Q:如何选择模型特征?
郑宇:在做模型特征选择时,数据质量比特征重要,特征比模型重要。
第一,如果你根本都没这个数据的话你可能费很大劲设计各种模型才能得到一点好的结果,如果你的数据质量很好,你有这个数据了,就很容易得到结果。
第二,业务理解深度和对数据的敏感度决定了你能找到的特征好坏。如果提了很好的特征,可能根据两三个特征就能得到别人十几个特征的不得结果。我们提取什么特征完全取决于我们对问题本身的理解,所以我着眼在与行业知识结合,数据挖掘其实是一个发现知识的过程,我们需要有从数据里面提炼知识解决问题的能力。
第三,数据越大、质量越好,特征的选择的必要性越低。在传统的数据挖掘里往往有很多参数但训练样本又很少,所以不得不进行特征优选,使得训练样本还是那么多,但是参数变少,这样可以保证训练效果跟以前不差甚至更好。而现在我们拥有海量数据了,哪怕多选了一些冗余的特征,也可以依靠后面模型的力量来通过权重参数的做约束,越来越多的机器学习算法本身就考虑了特征的冗余性问题,所以在你拥有足够大的高质量数据之后,是没必要花费太多的精力在特征剔除上。
有问题的时候不要先去看别人怎么做的最重要的是你是否真的对用数据解决问题感兴趣Q:怎么决定研究方向?
郑宇:我们基本上所有的工作都来源对生活的观察。最重要的一点是你是否真的对用数据解决问题感兴趣,你真正能够体会到这种乐趣的时候就进入状态了。
通常我们在看到现实生活中真的有很难的题目后,会在设计完方法以后再看有没有相关的工作做过了,这避免了我们的思路跟别人重复。再此我也建议大家,如果你有问题的时候不要先去看别人怎么做的,很多学生喜欢这么想,看到一个题目马上就去搜别人怎么做的,然后马上跟着别人思路走进去了,很难有创造性的思维。
Q、对于希望进入数据领域的工程师,分析师们,您希望他们加强哪方面的技能培养?
第一,加强数据科学的基本技能培养,包括数据管理、机器学习和可视化技术以及云计算平台的使用。
第二,加强对要解决问题所在行业的了解,借助行业现有的知识来设计合理的数据模型,明确行业传统方法为什么不行,并懂得跟行业专家有效沟通。
第三,培养沟通和表达能力。现在的数据科学家不再是关起门来在家里闭门造车的工匠或者学者,他需要把深奥的问题和理论用最浅显的语言讲出来,让政府以及传统行业的客户能够明白。
最后,培养自己的创作力。很多时候客户是提不出需求的,作为一个数据科学家要有超前的想象力和犀利的创造力。这点最难培养,跟一个人的成长经历有关,甚至要从娃娃抓起。
我正在为MIT Press撰写一本《城市计算》的英文专著,里面涉及了数据科学家需要掌握的各种技能,以及实战案例。该书将作为美国该专业的第一本教材,预计年底出版,有兴趣的朋友可以关注。”