演讲嘉宾

中国Spark技术峰会

刘忆智

聚效广告技术经理 & DMLC成员

毕业于浙江大学,2012年加入上海聚效广告,2016年初被奇虎360全资并购后,任技术经理,负责广告受众定向算法团队,从事用户画像、推荐系统、搜索意图等算法研究实现和相关架构设计;DMLC成员,深度学习框架MXNet committer,负责MXNet on JVM stack的开发,致力于推动大规模深度学习技术在工业界的应用。

演讲主题

Beyond MLLib: Scale up Advanced Machine Learning on Spark -- XGBoost/MXNet.

在过去一年中,涌现了一批机器学习框架,借助包括外存计算,显卡加速等技术手段,令包括深度学习在内的高级机器学习模型训练成为可能。另一方面,Spark已经成为大规模数据处理的事实标准, 然而由于底层计算模型的限制,这些高级的机器学习算法并不容易直接在Spark MLLib上实现。缺少统一高效的处理框架成为限制深度学习在工业界普及应用的主要障碍。
在本次演讲中,我将介绍DMLC(Distributed/Deep Machine Learning Community)两大机器学习框架XGBoost和MXNet同Spark的整合工作,帮助用户构建从原始数据到高效模型训练的完整流水线。DMLC社区旨在开发性能卓越,便携可移植的机器学习框架。借助DMLC底层提供的非常灵活的并行化策略和GPU支持,我们将其和Spark的数据处理流程相结合,大大提升了Boosting Trees的训练规模和速度,并且将大规模分布式深度学习带到了Spark。
此外,XGBoost和MXNet的JVM stack接口设计充分考虑了扩展性,使其能和包括Spark在内的多种数据处理框架相结合。这为企业应用到自己的业务和技术栈提供了便利。