时间:2018-09-09 来源:互联网 浏览量:
能通吃Hadoop、Spark、Kafka等开源框架的微软Azure云端大数据平台HDInsight,近日该平台上释出了Spark除错工具包,可以支持Spark 2.3版及未来的新版本。搭配此款除错工具包,可以将Spark任务的工作图表、资料流予以视觉化,让Spark开发者处理资料管理、资料取样、监控及诊断任务时,更为顺利。
微软也公告,这款Spark除错工具包未来会释出更多新功能,包含关键路径分析、Data Skew及Time Skew问题分析等。
现在Spark除错工具包已经内建在HDInsight Spark历史纪录服务器,从Azure Portal进入的开发者,只要点选丛集仪表板、Spark历史纪录服务器的选项,就能存取功能。
在HDInsight中的Spark历史纪录服务器(Spark History Server),微软现在新增了两个新功能,分别是Graph Tab及Data Tab。首先是Graph Tab,提供使用者视觉化的互动体验。例如,Spark工作图表会列出任务执行的细节,包含各阶段中资料的输入、输出资讯,开发者可以重新回放(playback)功能,重现完整的任务程序。借此功能,可以进一步诊断工作流程中的性能表现、资料处理时间,找出每个流程中出现的离群值,改善应用程式的流畅度。
再者是Data Tab功能,支持开发者利用CSV格式,汇出输入、输出、搜索或者URL等数据,例如,资料科学家可以下载部分取样数据,在本地环境进行除错、执行任务。
微软这次推出的除错工具包,当中一个新功能是回放(Playback)。系统会列出完整的任务流程,在页面选单中,开发者可以指定Job ID、呈现资讯(如资料读取、写入)。借此,系统就会重现流程,开发者可以观察流程中的瓶颈为何,进而改善性能。