Presented by O'Reilly and Cloudera
Make Data Work
July 12-13, 2017: Training
July 13-15, 2017: Tutorials & Conference
Beijing, China

Hadoop内核&发展 (Hadoop internals & development)

13:30–17:00 Thursday, 2017-07-13
Location: 多功能厅5B(Function Room 5B) 观众水平 (Level): Intermediate
Ted Malaska (Capital One)
平均得分:: *****
(5.00, 1 次得分)
Ted Malaska walks you through building a fraud-detection system, using an end-to-end case study to provide a concrete example of how to architect and implement real-time systems via Apache Hadoop components like Kafka, HBase, Impala, and Spark. Read more.
11:15–11:55 Friday, 2017-07-14
Location: 多功能厅2(Function Room 2) 观众水平 (Level): Beginner
Andrew Wang (Cloudera), Daniel Templeton (Cloudera)
Apache Hadoop 3.0 has made steady progress toward a planned release this year. Andrew Wang and Daniel Templeton offer an overview of new features, including HDFS erasure coding, YARN Timeline Service v2, and MapReduce task-level optimization, and discuss current release management status and community testing efforts dedicated to making Hadoop 3.0 the best Hadoop major release yet. Read more.
14:00–14:40 Friday, 2017-07-14
Location: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): Advanced
Yu Li (Alibaba), Ramkrishna Vasudevan (Intel)
平均得分:: ***..
(3.00, 1 次得分)
Yu Li explains how Alibaba met the challenge of tens of millions requests per second to its Alibaba-Search HBase cluster on 2016 Singles' Day. With read-path off-heaping, Alibaba improved the throughput by 30% and achieved a predicable latency. Read more.
16:20–17:00 Friday, 2017-07-14
Location: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 中级 (Intermediate)
余根茂 (阿里云), Haifeng Chen (Intel)
Hadoop社区很早就支持公有云上的对象存储,比如AWS S3和Azure Storge。最近发布的Apache Hadoop 3.0 (alpha)版本中增加了更多的云存储服务支持,比如Azure Data Lake和阿里云OSS。这些云存储都提供了Hadoop兼容的文件系统,用户可以把他们当成另一个HDFS使用。但是对象存储和HDFS在实现原理上有很多的不同,所以即使两者有类似的文件系统接口,很多API的行为完全不同。 本议题以阿里云OSS的实践出发,介绍阿里云OSS FileSystem实现进入Apache Hadoop历程。同时会介绍对象存储在文件上传、下载、删除和移动上和传统文件系统的区别,从性能和成本上评估HDFS和OSS文件系统的优劣。最后会结合对象存储的特性,给出一些优化方案,可以提升Hive或Spark等开源访问对象存储的性能。 Read more.
14:00–14:40 Saturday, 2017-07-15
Location: 多功能厅2(Function Room 2) 观众水平 (Level): 中级 (Intermediate)
Biao Chen (Cloudera)
多年来Hadoop技术无法进入核心业务系统,其中无成熟稳定的异地多数据中心方案是其中重要原因之一。由于灾备等原因,存储重要数据的HBase集群通常要求跨数据中心进行备份。国内银行业监管单位更是提出了异地多中心的硬性要求。而现在的HBase多为单数据中心部署,目前HBase提供的replica,快照拷贝或export的方式,皆不能满足监管和异地灾备要求。在本session将分享现有多中心部署要求下HBase所遇到的问题、解决办法。未来HBase将增加增量备份功能,其提供的增量备份方案,避免了现有技术对全表数据的扫描,大大提高了备份性能,同时又提供了repica不具备的一致性。在本session中也将详细描述此功能对于多数据方案的重要性、使用介绍以及内部原理刨析。 Read more.
16:20–17:00 Saturday, 2017-07-15
Location: 多功能厅2(Function Room 2) 观众水平 (Level): 中级 (Intermediate)
Andrew Wang (Cloudera), 郑锴 (Intel)
Hadoop3.0 引入了纠删码技术。在常见配置下,纠删码相对于传统数据3备份模式可以降低50%的存储成本,同时提高数据的可靠性。在本次演讲中,我们首先会简短的介绍HDFS纠删码技术, 然后深入了解在Hadoop 3.0 GA 前我们为保证纠删码功能稳定性做的工作,以及分享Hadoop生态系统中重要成员Spark, Hive,Impala, Kylin等等在HDFS 纠删码上的性能表现。最后,我们会给出在生产环境中部署使用纠删码技术的一些考虑和建议。 Read more.

Connect with O'ReillyData

Use the QR Code to follow OReillyData and get the latest conference information and browse data articles.

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

Read the latest ideas on big data.

ORB Data Site