演讲嘉宾

中国Spark技术峰会

连 城

Apache Spark & Apache Parquet committer,Databricks 软件工程师

Databricks软件工程师,Apache Spark 和 Apache Parquet committer,《Erlang/OTP 并发编程实战》译者。2013年下半年开始接触Spark开源社区,后于 2014年初加入Databricks 并成为Spark SQL的主要开发者之一。目前主要兴趣集中于程序语言与分布式系统。

演讲主题

Spark 实时计算

自三年前的Spark 0.7起,Spark Streaming就已经是Spark的一部分。Databricks 的用户调查显示,约50%的用户认为Spark Streaming是Spark最重要的组件。Spark Streaming是Spark统一批处理和流处理的第一次尝试,提供了状态管理、exactly-once语义,以及动态负载均衡、快速容错等针对大型集群的功能。在 Spark 2.0中,我们以Dataset API为基础,在一套类型安全的API上再次对流处理和批处理进行了整合,提供了结构化流处理能力。在单一应用内混用批处理和流处理时,用户不再需要区分RDD和DStream两套API,同时还可以享受到类型安全、状态故障恢复、事件时间戳。详情敬请关注五月份Spark中国技术峰会。