O'Reilly、Cloudera 主办
Make Data Work
2016年8月3-4日:培训
2016年8月4-6日:会议
北京,中国

基于Druid和Drill的OLAP引擎

16:20–17:00 2016年8月06日
数据创新
地点: 多功能厅2(Function Room 2)

必要预备知识

  • SQL
  • OLAP
  • 列存储
  • 索引

  • 描述

    Druid是一个基于列存储的分布式OLAP查询引擎,具有快速的数据聚合能力,提供亚秒级的查询响应。在阿里巴巴,我们使用Druid对每天百亿级别的数据进行实时的多维统计分析,帮助我们的用户制定决策。

    在我们的使用场景和数据量下,对Druid的build和query性能都提出了更高的要求,我们针对这两点做了一系列的优化,同时,我们也对Druid的查询功能做了一些扩展,比如计算DistinctCount的Aggregator,在提供精确结果的同时具有很高的性能。

    除此之外,为了填补Druid没有SQL接口的空缺,我们引入了Drill和Druid进行集成。Drill提供了标准的SQL接口,以及可扩展的分布式查询引擎。我们用drill替代了Druid的broker,获得了支持标准SQL以及支持更复杂Query的能力,比如具有超大结果集的group by和join查询。同时,通过对Drill + Parquet,Drill + Druid,Druid broker这三者进行性能对比,我们发现Drill + Druid具有最好的表现。

    Photo of 杨克特

    杨克特

    阿里巴巴

    杨克特,花名鲁尼。2011年获得浙江大学计算机硕士学位后,一直在阿里巴巴从事技术研发工作,目前在搜索事业部离线部门当任搜索研发专家一职。

    Photo of (Shaoxuan Wang) 王绍翾

    (Shaoxuan Wang) 王绍翾

    阿里巴巴

    王绍翾,花名大沙。现任阿里巴巴搜索事业部高级专家,主要方向是离线大数据和架构开发。加入阿里巴巴之前,曾在Facebook core data部门开发分布式图关系数据库TAO。本科与硕士毕业于北京大学,博士毕业于加州大学圣迭戈分校。

    联系OReillyData

    关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

    WeChat QRcode

    来自全球Strata+Hadoop 会议的照片。

    Stay Connected Image 1

    北京

    Stay Connected Image 3

    新加坡

    Stay Connected Image 2

    伦敦

    阅读关于大数据的最新理念。

    ORB Data Site