当前位置：系统粉 > IT资讯 > 微软资讯 > 如何将推荐系统与异构数据巧妙结合--专访微软资深研究员谢幸博士

如何将推荐系统与异构数据巧妙结合--专访微软资深研究员谢幸博士

时间：2017-12-04 来源：互联网浏览量：

科技高速发展的社会，人与人之间的交流越来越密切，随之带来了庞大的数据量，然而对于多维度用户而言，在训练个性化模型的过程中，数据依然很少，那么，如何解决数据稀疏问题，挖掘出更多可用数据？如何将数据高效运用于互联网产品的主要承载形式——推荐系统？带着诸多问题，我们采访了微软亚洲研究院（MSRA）资深研究员谢幸博士，一起聊聊异构数据与推荐系统的那些事儿。

如何将推荐系统与异构数据巧妙结合--专访微软资深研究员谢幸博士(1)

谢幸博士，微软亚洲研究院社会计算组资深研究员，并任中国科技大学兼职博士生导师。他分别于1996年和2001年在中国科技大学获得计算机软件专业学士和博士学位， 2001年7月加入微软亚洲研究院。他在国际会议和学术期刊上发表了200余篇学术论文，拥有50余项专利，是ACM、IEEE高级会员和计算机学会杰出会员。

12月7日-9日，中国大数据技术大会（BDTC 2017）将于北京新云南皇冠假日酒店举行，谢幸博士作为“推荐系统论坛”演讲嘉宾，将分享题为《结合跨平台异构数据的推荐系统》的演讲，欢迎与会者现场参与讨论。

个人发展与团队研究

CSDN：请谈谈您及团队在现阶段的研究侧重点或下一步研究和实践（例如应用到哪些领域）计划？

谢幸：我们研究数据挖掘的子课题：用户画像和推荐系统，关注“怎样用数据来刻画一个人”，利用用户产生的数据反过来更深入地了解用户。推荐系统是比较常见的应用，有很大的商业前景，它可以看作用户画像的一个重要应用，用户画像的用途很广，可以用于个体和群体数据建模、个性化或预测等。

现阶段研究重点主要为深度学习与推荐系统的结合。深度学习在计算机视觉、语音、自然语言处理都有很好的应用，在推荐系统里的应用也是最近几年的研究热点，我们关注怎么将这方面的应用落地——与微软重要的产品、项目和工程结合，这对于系统和产品设计都有一定要求。另外，我们也关注知识图谱与推荐系统的结合，并将研究成果真正应用到提高推荐性能上，比如微软的广告系统、新闻搜索，以及小冰、小娜这些个性化产品。

成为MSRA研究员的必备特质

CSDN：您是微软亚洲研究院资深研究员，您希望看到新加入的研究员们具有什么样的特质？

谢幸：新加入的研究员在具备学者精神的同时，团队合作和交流表达也是必备特性。对于做研究，交流能力是比较重要的，尤其是现在，需要将个人研究成果对外介绍，去与别人合作，以及去推广自己研究的项目。MSRA研究员在这方面的能力相比普通工程师强很多。除了这些软实力，研究员需要热爱技术和创新，不热爱技术，就不会想把事情做深。此外，过去偏学术理论的研究环境，对研究员的动手能力要求并不是特别高，但现在面对庞大数据以及项目，都要求研究员能够动手实现，所以动手和系统开发也是研究员必不可少的能力。

CSDN：您也是中国科技大学兼职博士生导师，您在教学过程中更看重什么环节？人才培养方面，您认为即将毕业的学生在基础研究和实践应用（与市场结合），哪方面更为重要？

谢幸：我在中国科技大学并不授课，博士生在学校学习课程，而在项目研究阶段，他们来到微软，由我指导完成比较系统的研究项目以及论文。“基础研究”和“实践应用”对于即将毕业的学生都很重要。学校不会发布或维护任何产品，做得更多的是基础研究。在微软，我们更强调学生参与产品项目。一方面，要达到博士的水平需要做很多技术研究，比如论文至少要有三个以上的创新工作，这些工作如果完全没有技术研究作基础，不可能做到；另一方面，我们也要求能够把这些研究成果应用到微软的产品里，不仅如此，这些研究需要成系统，对领域有深度的掌握。

CSDN：根据您的体会，哪些习惯对于研究与解决问题很有帮助？

谢幸：带着兴趣去探索“为什么”，这样对于研究是很有帮助的。有些人在很多事情上喜欢探究“为什么”，有时会问得深一点，比如通过用搜索引擎去查看背后的原因，很多时候，这种极客的方式都是靠兴趣驱动，如果只追求“差不多”，就不能探究很深。

异构数据在推荐系统的应用

CSDN：在演讲主题之外，请谈谈您目前还关注哪些技术与研究，为什么对这些话题感兴趣？

谢幸：我们在做数据挖掘的同时，也关注其它非计算机领域的学科，比如心理学、社会学、脑科学，我们本质上是对用户或者人进行研究。心理学研究人类心理现象，社会学是研究人类群体和社会行为还有脑科学研究人类大脑。这些与数据挖掘是可以相结合的，心理学里有一个方向是人格心理学，我了解以后觉得很有意思，可以用计算机做这件事情，后来我们与心理学结合完成了人格推测模型。我们也和社会学领域的教授合作，脑科学也是最近比较受关注的，深度学习的很多方面都受到了脑科学的启发，微软与中科大有些联合研究项目，就与跟脑科学有关。

CSDN：在您的研究领域之中，最希望哪些技术能取得突破，为什么？或者在更长远的未来，您希望未来的研究者们能集中精力解决哪些问题，或实现哪些目标？

谢幸：除了知识图谱和深度学习，我最近对“可解释”较为感兴趣，很多人在讲可解释机器学习，“可解释”对推荐系统也很重要，比如用户在看到推荐内容时，可能在想，为什么你会把它推荐给我？有时推荐系统背后的算法比较复杂，用户并不知道推荐内容是如何出来的，如果我们能与他解释，一方面让用户觉得比较透明，另一方面用户会更倾向去看你推荐的这些东西，讲道理是一种说服的过程，所以我们最近也在做可解释推荐，并与心理学相结合。

CSDN：异构数据在推荐系统中扮演着怎样的角色？它能给推荐系统带来哪些优势？有哪些创新之处？

谢幸：用户数据稀疏是任何推荐系统或者用户画像都面临的问题，无论现在怎样谈论大数据，但对用户来说维度太多，数据相对而言还是很少，为了解决数据稀疏的问题，我们发掘还有哪些数据可用，异构数据实际上是在解决这个问题，挖掘其他的数据帮助推荐，比如用户曾发表的文字、图片、社交关系等就是异构的，其类型结构都不一样，对算法也会带来挑战。

异构数据在推荐系统中所扮演的角色是怎样解决数据稀疏的问题，当我们有了额外数据以后，推荐性能相应会提高，但如何结合这些异构数据，用什么方法，这就需要创新了，在这次演讲中，我会介绍相关的研究应用。

CSDN：“跨平台异构数据”可以解决哪些现有系统所不能解决的难题？未来这一技术还将有怎样的发展和应用前景？

谢幸：知识图谱里面包含了异构数据，将知识图谱的数据结合到推荐系统中，能建立比较丰富的用户表示和商品表示，本次演讲我会介绍跨平台数据如何结合，如何充分利用来自不同平台的数据。跨平台异构数据除了用于推荐也可做预测，用于其他个性化甚至在对话系统，总的来说就是怎么样去表达一些异构的或者跨平台不同来源的数据，这个表示的问题是相对在别的地方，其他很多场景可以通用的。关于跨平台异构数据这项技术，我们目前主要围绕推荐系统来做，应用于个性化的信息的浏览。

CSDN：此前您提出了“人格推测模型”，利用社交媒体上的异构数据来预测人格，在模型训练过程中，遇到了哪些困难？如何突破？

谢幸：难点是数据采集，要采集大规模的用户数据并不容易，当时我们想了一些办法，一方面通过微软小冰收集志愿者的数据，另外也自己标注了一组数据，有了这些数据，在训练模型的过程中，更多是设计模型来把这些异构数据用好，我们采用了较为通用的集成学习来搭建“人格推测模型”，针对不同数据设计不同特征，也结合了一些心理学的理论和词典来帮助建立特征。

CSDN：您在BDTC推荐论坛的报告，侧重点将放在哪些问题上，旨在解开哪些疑惑，希望观众从中收获什么启示？

谢幸：我将通过我们的研究项目来告诉大家怎样开展这方面的研究，也许听众未必直接使用这种算法，但对于同样类型的研究能带来一些启示。跨平台和异构实际上是两个点，我将围绕如何收集跨平台的异构数据来做推荐，以及如何设计这个模型来做介绍。

我要分享：

上一篇：18项世界互联网领先科技成果发布微软小冰、ET大脑等上榜 下一篇：微软 Mixer Create iOS版即将支持所有手游直播

如何将推荐系统与异构数据巧妙结合--专访微软资深研究员谢幸博士

相关资讯

电脑问答

IT资讯栏目

最新热门游戏

微软资讯推荐

微软资讯热门排行