时间:2017-04-21 来源:互联网 浏览量:
新版本的Microsoft R Server增加了新的机器学习增强功能并与HDInsight集成。
微软在收购R语言之后,一直在开发基于统计分析语言的一系列产品。新版本增加了微软的几项高级机器学习算法,以及预测训练的神经网络模型,用于情绪分析和图像特征化。还增加了对SparklyR,SparkETL和SparkSQL的支持,以及用于深层神经网络的GPU。
对于开发人员来说,可以使用Visual Studio的R工具编写可与Microsoft R Server一起使用的应用程序,还有一个Azure Microsoft R Server VM映像,可用于在云上配置服务器。
新版本的另一项改进是使用MicrosoftML for Spark和Hadoop的能力。MicrosoftML已添加到Microsoft R Server 9.0,增加了机器学习算法和数据转换功能。这些设备可运行在Linux,Windows以及流行的Hadoop发行版中,特别是Cloudera,Hortonworks和MapR。R Server 9.0在十二月发布时,就增加了Spark支持。
现在可以用于Spark和Hadoop的算法是:
极速线性学习,支持L1和L2正则化。
快速提升决策树。
快速随机森林。
逻辑回归,支持L1和L2正则化。
GPU加速深层神经网络(DNN)与卷积。
使用支持向量积的二进制分类。
还增加了一个新功能,以便在数据集的分区上执行“令人愉快的并行”R计算。这意味着用户可对一个或多个属性分组的分区进行大规模并行计算。rxExecBy函数允许用户将任何R函数应用于数据集的特定分区并执行并行计算,而无需手动分区或分割数据。
情绪评分和图像特征功能的增加是由微软研究所训练深层神经网络模型的结果。这些功能意味着现在可以计算出情绪评分,结果从“非常积极”到“非常负面”。图像特征可用来拍摄图像,并将其表示为基于ResNet识别器的数字变量集合。这些值可以用作预测模型的基础。
新版本的另一个重要改进是Microsoft R Server和sparklyr之间的互操作。R Studio的sparklyr是Apache Spark的R接口,允许用户使用Spark作为数据操作包dplyr的后端。Sparklyr还提供了一种使用SQL查询Spark中数据的方法。现在可以在单个Spark会话中使用Microsoft R Server和sparklyr。
还有一个Microsoft R Client的更新版本,具有与本地使用相同的分析选项,现在可用于Linux以及Windows。
除了R Server支持Hadoop之外,Microsoft已经宣布,从SQL Server 2017开始,开发人员将能够使用Python代码进行数据库内分析和机器学习。所谓的R Server将被重命名为机器学习服务,而R和Python是此功能下的两个选项。