O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国

Spark及更多发展 (Spark & beyond)

13:30–17:00 Thursday, 2017-07-13
地点: 多功能厅3(Function Room 3) 观众水平 (Level): 中级 (Intermediate)
Yiheng Wang (Intel)
深度学习已经在很多的领域(例如计算机视觉、自然语言处理和语音识别等)取得了顶尖水准的表现,对工业界有极大的潜在应用价值。我们应该注意到深度学习和大数据的联系非常得紧密。首先,深度学习的模型需要使用大量的数据来训练,这就是为什么它直到大数据时代才开始蓬勃发展。其次,现在绝大部分的大数据都是视频、音频和文字数据,非常适合使用深度学习算法来处理。为了能释放深度学习的能力,我们就应该把它运用在大数据的环境里。 了解更多信息.
13:10–13:50 Friday, 2017-07-14
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 (Intermediate)
Daoyuan Wang (Intel), 李元健 (百度)
平均得分:: ***..
(3.00, 1 次得分)
OAP是英特尔大数据团队和百度基础架构团队的开源合作项目,旨在针对在Spark SQL上进行的大规模数据即席查询进行优化,满足在百度线上业务中对于海量搜索日志进行秒级查询的需求。 OAP通过用户自定义的分布式索引和自动缓存等技术,极大地加速了一些特定场景下的SQL查询。OAP支持多种索引类型,可以让用户根据数据特征选择适当的索引,加速查询的同时,引入较少的额外存储开销。 在百度的生产环境中,OAP已经作为平台提供的查询加速方案,为部分实际查询带来5倍左右的性能提升,大大节约了查询的运行时间,丰富了Spark SQL的应用场景。 了解更多信息.
14:00–14:40 Friday, 2017-07-14
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 (Intermediate)
Ron Hu (Huawei Technologies), 王振华 (Huawei Technologies)
我们把基于成本的优化器框架贡献给社区版本Spark 2.2。在我们的框架中,我们计算每个数据库操作符的基数和输出大小。通过可靠的统计和精确的估算,我们能够在这些领域做出好的决定:选择散列连接(hash join)操作的正确构建端(build side),选择正确的连接算法(如broadcast hash join与 shuffled hash join), 调整连接的顺序等等。这个基于成本的优化器框架对Spark SQL查询的性能有很好的提升 。在这次演讲中,我们将展示Spark SQL的新的基于成本的优化器框架及其对TPC-DS查询的性能影响。 了解更多信息.
14:00–14:40 Friday, 2017-07-14
地点: 多功能厅2(Function Room 2) 观众水平 (Level): Intermediate
Ted Malaska (Capital One)
It's one thing to write an Apache Spark application that gets you to an answer. It’s another thing to know you used all the tricks in the book to make it run as fast as possible. Ted Malaska shares some of those tricks. 了解更多信息.
14:50–15:30 Friday, 2017-07-14
地点: 多功能厅3B(Function Room 3B) 观众水平 (Level): 中级 (Intermediate)
Adam Gibson (Skymind)
Adam Gibson offers a high-level overview of jumpy, a better Python interface for deep learning applications, and explains why Spark's Py4J interface for deep learning makes it impractical for deep learning applications. 了解更多信息.
16:20–17:00 Friday, 2017-07-14
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 (Intermediate)
Djvu Lee (今日头条)
讲述今日头条是如何用Spark来处理海量数据,以及在实际使用中的一些改进。 了解更多信息.
16:20–17:00 Friday, 2017-07-14
地点: 多功能厅2(Function Room 2) 观众水平 (Level): 中级 (Intermediate)
马晓宇 (PingCAP)
SparkTI (Spark on TiDB)是TiDB基于Apache Spark的独立于原生系统的计算引擎。它将Spark和TiDB深度集成,在原有MySQL Workload之外借助Spark支持了更多样的用户场景和API。这个项目在SparkSQL和Catalyst引擎之外实现了一套扩展的,为TiDB定制的SQL前端(Parser,Planner和优化器):它了解TiDB如何组织数据,并知晓如何借助TiDB本身的计算能力加速查询,而不仅仅是一个Connector。凭借SparkTI,TiDB将成为Hadoop生态的一部分,铺平了OLTP系统和离线分析集群之间的鸿沟。 了解更多信息.
14:00–14:40 Saturday, 2017-07-15
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): Intermediate
Yupeng Fu (Alluxio)
Alluxio (formerly Tachyon) is a memory-speed virtual distributed storage system that leverages memory for managing data across different storage. Many deployments use Alluxio with Spark. Yupeng Fu explains how Alluxio helps Spark be more effective and shares examples of production deployments of Alluxio and Spark working together. 了解更多信息.
14:00–14:40 Saturday, 2017-07-15
地点: 多功能厅8A+8B(Function Room 8A+8B) 观众水平 (Level): Beginner
XueMin Zhang (TalkingData)
TalkingData于13年底开始引入Spark,目前数据中心所有数据处理都以迁至Spark计算平台。 随着业务的快速发展,数据源及数据量的大幅提升,数据资产管理和数据分析、挖掘工作日趋增多,慢慢的沉淀出了基于Spark、Alluxio、Jenkins等开源技术的数据管理、探索及计算平台。 演讲者主要介绍平台的背景及其技术架构演进,以及在使用过程中踩过的一些坑和后续规划。 了解更多信息.
14:50–15:30 Saturday, 2017-07-15
地点: 多功能厅2(Function Room 2) 观众水平 (Level): 中级 (Intermediate)
Rong Gu (南京大学)
Alluxio(原名Tachyon)是开源的、以内存为中心的统一分布式存储系统。它为上层计算框架和底层存储系统构建了桥梁。Alluxio还提供了分层存储机制,不仅可以管理内存,也可以统一管理SSD 和HDD等存储设备资源。为了使热数据尽量在更快的存储层上,我们在Alluxio中针对多种大数据的应用场景设计实现了众多高级的缓存替换策略包括LIRS、ARC、LRFU等。这些缓存策略已经被集成到Alluxio系统之中,并且可以很方便地用于上层应用性能调优。此外,为了对Alluxio上层的应用进行更大规模的性能评测和调优,我们还设计实现了针对的Alluxio大规模性能评测系统Alluxio-Perf。本演讲中,我将对针对Alluxio大数据的缓存策略与性能评测调优工具Alluxio-Perf的基本原理和使用方式进行详细的介绍。 了解更多信息.

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site