O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国

数据工程和架构 (Data engineering and architecture)

09:00–12:30 Thursday, 2017-07-13
地点: 多功能厅5C(Function Room 5C) 观众水平 (Level): 中级 (Intermediate)
Yupeng Fu (Alluxio), Rong Gu (南京大学)
在这个三个小时的教学课中, 我们将向参与者讲授Alluxio基础知识,演示Alluxio如何工作以及如何使用此系统帮助分布式计算引擎(如Spark或MapReduce)以内存速度共享数据。 了解更多信息.
09:00–12:30 Thursday, 2017-07-13
地点: 多功能厅5A(Function Room 5A) 观众水平 (Level): 中级 (Intermediate)
Jiangjie Qin (LinkedIn)
平均得分:: *****
(5.00, 2 次得分)
Apache Kafka作为近年来最流行的消息系统之一,其使用场景已经从最初的集中系统消息队列发展到更为复杂的一系列使用场景,包括流处理,数据库复制,CDC等等。本次演讲将以Kafka在LinkedIn的实践为基础详细介绍Kafka的各种应用场景。 了解更多信息.
09:00–12:30 Thursday, 2017-07-13
地点: 多功能厅5B(Function Room 5B) 观众水平 (Level): Beginner
Ted Malaska (Capital One)
The recent advancement in distributed processing engines, from Spark to Impala to Spark Streaming and Storm, has proved exciting. Ted Malaska explains why, if your design only focuses on the processing layer to get speed and power, you may be missing half the story and leaving a significant amount of optimization untapped. 了解更多信息.
11:15–11:55 Friday, 2017-07-14
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): Non-technical
Feng Cheng (Grab), Edwin Law (Grab)
平均得分:: **...
(2.00, 2 次得分)
Grab is sitting at the junction of the digital and physical worlds. Its vision is to drive Southeast Asia forward and transform the way people travel and pay across the region. Feng Cheng and Edwin Law explain Grab's data architecture and offer a history of its data platform migration and stream-processing apps. 了解更多信息.
11:15–11:55 Friday, 2017-07-14
地点: 报告厅(Auditorium) 观众水平 (Level): 中级 (Intermediate)
杨军 (阿里巴巴)
本分享会介绍阿里云iDST PAI团队研发的一款分布式深度学习框架Pluto。在Pluto里,阿里云PAI团队基于Caffe和TensorFlow这两款开源框架进行了分布式性能的深度优化定制,相较于优化前取得了显著的性能提升,在一些场景下取得了10X的收敛加速比提升。并成功应用到了集团安全、金融风险建模、证件类图片识别、客服问答、机器翻译等集团核心业务建模场景里,显著提升了建模迭代效率。 了解更多信息.
14:00–14:40 Friday, 2017-07-14
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 中级 ()
Jike Chong (Tsinghua University | Acorns), 莫云 (宜人贷)
平均得分:: ****.
(4.00, 2 次得分)
在移动互联网流量红利过后,我们怎样深度挖掘一手移动数据,实时响应用户需求,通过用户行为和知识图谱技术,创造商业价值?我们会通过具体业务案例,分享一个SDK + FinGraph + Go的技术框架。此框架只用一行代码将SDK埋入APP,通过实时/准实时的上传机制和Flume + Kafka的实时处理分析,获取用户意向;用Spark Streaming流式处理,HBase KV查询输出,和Neo4j集群做的关联、存储来挖掘图谱信息;并通过Go高效的开发基础平台,Python连接自动提报后台,scikit-learn做事件识别,和Cypher挖掘图谱关系来预测用户意愿,引导用户行为 - 用实时数据创造商业价值。 了解更多信息.
14:50–15:30 Friday, 2017-07-14
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): Beginner
Hao Hao (Cloudera)
Hao Hao offers an overview of Apache Kudu, a project that enables fast analytics on big data. 了解更多信息.
16:20–17:00 Friday, 2017-07-14
地点: 多功能厅8A+8B(Function Room 8A+8B) 观众水平 (Level): Intermediate
Benquan Yu (Ant Financial), 叶小萌 (Ant Financial)
平均得分:: **...
(2.00, 1 次得分)
介绍GeaBase(Graph Exploration and Analytics Database),蚂蚁金服自主研发的新一代分布式实时图数据库。支持海量数据规模,高并发的低延迟实时响应和大规模迭代运算。本次分享将介绍GesBase架构,工程实现和实际的应用。 了解更多信息.
11:15–11:55 Saturday, 2017-07-15
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 (Intermediate)
Dong Li (Kyligence)
平均得分:: ****.
(4.00, 1 次得分)
Apache Kylin v2.0即将发布!作为领先的大数据OLAP分析引擎,现在的Apache Kylin羽翼更丰:支持雪花模型、更加全面的SQL语法、初出茅庐的Spark Cubing、更好地支持实时流式数据接入等等。Apache Kylin正逐渐从一个Hadoop上的传统OLAP平台,演变为一个Hadoop上的实时数据仓库。 了解更多信息.
11:15–11:55 Saturday, 2017-07-15
地点: 多功能厅2(Function Room 2)
Zhe Zhang (LinkedIn)
领英是全球最早应用大数据技术的公司之一。在过去9年的时间里,领英的大数据平台扩展了将近500倍,从20台节点支持10个用户运行MapReduce,到现在超过1万台节点支持几千名工程师和科学家运行从交互式Presto查询到TensorFlow深度学习的各种大规模数据分析。这个报告会分享领英的大数据平台团队怎样解决大规模和高速增长带来的各种挑战。 了解更多信息.
11:15–11:55 Saturday, 2017-07-15
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 高级 (Advanced)
ming huang (腾讯)
在机器学习和人工智能领域,为了让模型达到更好的线上效果,特征的维度往往会膨胀到千万和亿级别。在这种情况下,传统的分布式计算框架,很难有高的性能。为此,腾讯推出Angel机器学习框架,支持超大维度模型的高性能机器学习。该框架即支持自主的高性能机器学习算法开发,也能作为PS引擎,为其它框架(例如Spark……)提供PS支持,整体形成良好的PS生态圈。 了解更多信息.
11:15–11:55 Saturday, 2017-07-15
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): Non-technical
Yupeng Fu (Alluxio)
Decoupling storage and computation is becoming increasingly popular for big data analytics platforms. Yupeng Fu shares production best practices and solutions to best utilize CPUs, memory, and different tiers of disaggregated compute and storage systems to build out a multitenant high-performance platform that addresses real-world business demands. 了解更多信息.
14:00–14:40 Saturday, 2017-07-15
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 中级 (Intermediate)
Fangshi Li (LinkedIn)
Kafka和Hadoop是LinkedIn数据基础设施online和offline部分的核心。Kafka是LinkedIn创造并且开源的,目前集群有超过一千台机器,每天收集并处理14万亿条消息。LinkedIn的Hadoop集群有超过1万台机器和50pb数据,每天处理20万个任务。在本议题中,我将会以一个Hadoop成员的角度讲解linkedin如何搭建Hadoop和Kafka的桥梁,让他们更好的一起工作。内容包括 1)讲解LinkedIn数据架构 dataset从产生到Kafka到Hadoop并且最终呈现给用户(数据分析师)的整个ETL流程 2)讲解我们的一个use case来使用Apache Flume和Kafka收集分析Hadoop集群的数据并且搭建实时分析程序 3)讲解我们最新的工作,提供统一的sql接口让用户可以同时处理Kafka数据流和hdfs的数据 了解更多信息.
14:50–15:30 Saturday, 2017-07-15
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): Intermediate
Mingxi Wu (TigerGraph), Yu Xu (TigerGraph)
平均得分:: ***..
(3.00, 1 次得分)
Mingxi Wu and Yu Xu offer an overview of GraphSQL, a high-performance enterprise graph data platform for real-time graph analytics that enables businesses to transform structured, semistructured, and unstructured data and massive enterprise data silos into an intelligent interconnected data network, uncovering implicit patterns and critical insights to drive business growth. 了解更多信息.
14:50–15:30 Saturday, 2017-07-15
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 非技术性 (Non-technical)
Zhenxiao Luo (Uber)
As Uber continues to grow, its big data systems must also grow in scalability, reliability, and performance to help Uber make business decisions, give user recommendations, and analyze experiments across all data sources. Zhenxiao Luo shares his experience running columnar storage in production at Uber and discusses query optimization techniques in SQL engines. 了解更多信息.
16:20–17:00 Saturday, 2017-07-15
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 非技术性 (Non-technical)
Tony Xing (Microsoft)
Tony Xing offers an overview of Microsoft's common anomaly detection platform, an API service built internally to provide product teams the flexibility to plug in any anomaly detection algorithms to fit their own signal types. 了解更多信息.
16:20–17:00 Saturday, 2017-07-15
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): Intermediate
Xuefu Zhang (Uber)
平均得分:: *....
(1.00, 1 次得分)
Xuefu Zhang offers an overview of U-SQL, which was developed internally by engineers at Uber and is envisioned as the future of SQL platforms. U-SQL enables automatic parsing, translation, optimization, and routing for user queries written in any supported query language and provides a unified SQL interface for SQL users who might not be familiar with the underlying SQL engines. 了解更多信息.

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site