O'Reilly、Cloudera 主办
Make Data Work
2017年7月12-13日:培训
2017年7月13-15日:会议
北京,中国

议题

7月14日,周五

11:15–11:55 Friday, 2017-07-14
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): Non-technical
Feng Cheng (Grab), Edwin Law (Grab)
平均得分:: **...
(2.00, 2 次得分)
Grab is sitting at the junction of the digital and physical worlds. Its vision is to drive Southeast Asia forward and transform the way people travel and pay across the region. Feng Cheng and Edwin Law explain Grab's data architecture and offer a history of its data platform migration and stream-processing apps. 了解更多信息.
11:15–11:55 Friday, 2017-07-14
地点: 报告厅(Auditorium) 观众水平 (Level): 中级 (Intermediate)
杨军 (阿里巴巴)
本分享会介绍阿里云iDST PAI团队研发的一款分布式深度学习框架Pluto。在Pluto里,阿里云PAI团队基于Caffe和TensorFlow这两款开源框架进行了分布式性能的深度优化定制,相较于优化前取得了显著的性能提升,在一些场景下取得了10X的收敛加速比提升。并成功应用到了集团安全、金融风险建模、证件类图片识别、客服问答、机器翻译等集团核心业务建模场景里,显著提升了建模迭代效率。 了解更多信息.
11:15–11:55 Friday, 2017-07-14
地点: 多功能厅2(Function Room 2) 观众水平 (Level): Beginner
Andrew Wang (Cloudera), Daniel Templeton (Cloudera)
Apache Hadoop 3.0 has made steady progress toward a planned release this year. Andrew Wang and Daniel Templeton offer an overview of new features, including HDFS erasure coding, YARN Timeline Service v2, and MapReduce task-level optimization, and discuss current release management status and community testing efforts dedicated to making Hadoop 3.0 the best Hadoop major release yet. 了解更多信息.
11:15–11:55 Friday, 2017-07-14
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 中级 (Intermediate)
Xiaoyong Zhu (Microsoft)
平均得分:: *****
(5.00, 1 次得分)
R is a popular data science tool for data analysis. However, it has many drawbacks, such as its memory utilization and single-thread design, that limit its usage for big data analysis. Xiaoyong Zhu explains how to use R to analyze terabytes of data. 了解更多信息.
11:15–11:55 Friday, 2017-07-14
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 中级 (Intermediate)
Liye Zhang (新智新氦科技)
HAP是一个实时分析系统,能够支持流式的输入,并且可以支持多流的碰撞,同时,可以根据查询层来动态的改变底层的流式处理方式以实现不同业务需求。另外在Kubernetes上可以实现水平扩展、高可用、高效、高速,并在保证数据exactly once语义的情况下实现秒级的数据分析和查询。 了解更多信息.
11:15–11:55 Friday, 2017-07-14
地点: 多功能厅3B(Function Room 3B)
Franky Ho (Dell), Albert Cheng (Advanced Analytic Service)
企业级的计算平台, 应该 能灵活的尝试现有的或新兴的大数据技术, 然后选择需要的技术以规模化部署, 本演讲分享了如何改造利用现有的IT基础设施 为一个敏捷的大数据私有云平台, 让各种规模的企业从他们的数据中获取更多价值。 了解更多信息.
11:15–11:55 Friday, 2017-07-14
地点: 多功能厅8A+8B(Function Room 8A+8B)
Yiheng Wang (Intel), Zhichao Li (Intel)
平均得分:: *****
(5.00, 1 次得分)
随着深度学习技术的不断成功,多种感知形式的应用程序在图像分类、对象检测和语音识别方面都有了快速增长。顺应这个趋势,英特尔推出的BigDL是基于Apache Spark的开源分布式深度学习框架。它包括丰富的对深度学习的支持和英特尔数学内核库(Math Kernel Library)加速,使用户能够在现有的Hadoop生态系统上快速开发具有极高性能的深度学习应用。本议程将遍历主要几个英特尔成功利用Apache Spark和BigDL搭建的深度学习应用。了解他们开发出的技术以及他们从构建这些应用中学到的经验教训,包括系统中的工具栈和设计中的考虑;图像识别和对象检测(faster-rcnn和SSD)的应用;具有深度语音和声学特征变换器的语音识别的应用。英特尔在使用Apache Spark MLlib和BigDL构建统一数据分析平台的同时获得的其他见解和经验也将被分享。 了解更多信息.
13:10–13:50 Friday, 2017-07-14
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 (Intermediate)
Daoyuan Wang (Intel), 李元健 (百度)
平均得分:: ***..
(3.00, 1 次得分)
OAP是英特尔大数据团队和百度基础架构团队的开源合作项目,旨在针对在Spark SQL上进行的大规模数据即席查询进行优化,满足在百度线上业务中对于海量搜索日志进行秒级查询的需求。 OAP通过用户自定义的分布式索引和自动缓存等技术,极大地加速了一些特定场景下的SQL查询。OAP支持多种索引类型,可以让用户根据数据特征选择适当的索引,加速查询的同时,引入较少的额外存储开销。 在百度的生产环境中,OAP已经作为平台提供的查询加速方案,为部分实际查询带来5倍左右的性能提升,大大节约了查询的运行时间,丰富了Spark SQL的应用场景。 了解更多信息.
13:10–13:50 Friday, 2017-07-14
地点: 报告厅(Auditorium) 观众水平 (Level): Intermediate
Damon Deng (AWS)
平均得分:: ****.
(4.00, 1 次得分)
Damon Deng provides a short background on deep learning, focusing on relevant application domains, and offers an introduction to using the powerful and scalable deep learning framework MXNet. Join in to learn how MXNet works and how you can spin up AWS GPU clusters to train at record speeds. 了解更多信息.
13:10–13:50 Friday, 2017-07-14
地点: 多功能厅2(Function Room 2) 观众水平 (Level): Intermediate
Jimmy Zhigang Su (JD.COM), Tony Lee (JD.com)
平均得分:: ***..
(3.50, 2 次得分)
JD.com is one of the largest B2C online retailers in the world. Its mission is to provide a safe and secure marketplace for its 226M active users and 120K third-party vendors. Jimmy Zhigang Su and Tony Lee discuss the transformations big data has enabled at JD, including threat intelligence, account security, and end-point security. 了解更多信息.
13:10–13:50 Friday, 2017-07-14
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): Intermediate
张夏天 (TalkingData)
平均得分:: *****
(5.00, 1 次得分)
TalkingData的一些核心业务能力如Lookalike十分依赖大规模机器学习的能力,我们发现现有的大规模机器学习技术都不能很好的满足我们的需要。因为我们需要支持大规模数据的高速,稳定,无需调参的机器学习算法,而这是目前的一些主流平台和工具无法提供的能力。为此我们在算法和系统方面做了一些研究,取得了一些成果。我们开源的Fregata机器学习算法库完全基于Spark标准接口,在Logisti Regression, Softmax算法上能够做到无需调参,高速,支持万亿维度的模型。Fregata Logistic Regression算法,在消耗大约2-4台服务器的机器资源,对于5.1亿条,1万亿维度的训练数据,可以在15分钟内完成训练。我们在本次演讲中将介绍Fregata在算法上和系统方面的一些工作。 了解更多信息.
13:10–13:50 Friday, 2017-07-14
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 高级 (Advanced)
ximeng zhang (GrowingIO)
平均得分:: *****
(5.00, 1 次得分)
当流量红利渐消,数据驱动用户和收入增长成为新的核心;用数据驱动决策,而不是靠拍脑袋;数据分析究竟有哪些魅力?如何帮助企业创造巨大的商业价值,如何令公司全员做到数据决策;硅谷最前沿的方法论、工具、技术,最前沿的产品理念有哪些? 了解更多信息.
13:10–13:50 Friday, 2017-07-14
地点: 多功能厅8A+8B(Function Room 8A+8B)
乔旺龙 (天云融创数据科技(北京)有限公司)
在电信运营商、银行、保险、公安、军队、广电、政府等多个行业,每天都有巨量的数据产生,为了及时准确从数据中获取价值,合理高效的处理数据,我们结合在各个项目上的实施工作,在大数据领域做了很多实际的研究,在这里分享下我们在大数据领域里是如何实现高并发实时事务的,完成大数据的最后一公里的 了解更多信息.
14:00–14:40 Friday, 2017-07-14
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 (Intermediate)
Ron Hu (Huawei Technologies), 王振华 (Huawei Technologies)
我们把基于成本的优化器框架贡献给社区版本Spark 2.2。在我们的框架中,我们计算每个数据库操作符的基数和输出大小。通过可靠的统计和精确的估算,我们能够在这些领域做出好的决定:选择散列连接(hash join)操作的正确构建端(build side),选择正确的连接算法(如broadcast hash join与 shuffled hash join), 调整连接的顺序等等。这个基于成本的优化器框架对Spark SQL查询的性能有很好的提升 。在这次演讲中,我们将展示Spark SQL的新的基于成本的优化器框架及其对TPC-DS查询的性能影响。 了解更多信息.
14:00–14:40 Friday, 2017-07-14
地点: 报告厅(Auditorium) 观众水平 (Level): 中级 ()
Zhichao Li (Intel), Shengsheng Huang (Intel), Yiheng Wang (Intel)
平均得分:: ****.
(4.33, 3 次得分)
Zhichao Li, Shengsheng Huang, and Yiheng Wanghow explore how data scientists have adopted BigDL for deep learning analysis on large amounts of data in a distributed fashion, allowing them to use their big data cluster as a unified data analytics platform for data storage, data processing and mining, feature engineering, traditional (non-deep) machine learning, and deep learning workloads. 了解更多信息.
14:00–14:40 Friday, 2017-07-14
地点: 多功能厅2(Function Room 2) 观众水平 (Level): Intermediate
Ted Malaska (Capital One)
It's one thing to write an Apache Spark application that gets you to an answer. It’s another thing to know you used all the tricks in the book to make it run as fast as possible. Ted Malaska shares some of those tricks. 了解更多信息.
14:00–14:40 Friday, 2017-07-14
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 中级 ()
Jike Chong (Tsinghua University | Acorns), 莫云 (宜人贷)
平均得分:: ****.
(4.00, 2 次得分)
在移动互联网流量红利过后,我们怎样深度挖掘一手移动数据,实时响应用户需求,通过用户行为和知识图谱技术,创造商业价值?我们会通过具体业务案例,分享一个SDK + FinGraph + Go的技术框架。此框架只用一行代码将SDK埋入APP,通过实时/准实时的上传机制和Flume + Kafka的实时处理分析,获取用户意向;用Spark Streaming流式处理,HBase KV查询输出,和Neo4j集群做的关联、存储来挖掘图谱信息;并通过Go高效的开发基础平台,Python连接自动提报后台,scikit-learn做事件识别,和Cypher挖掘图谱关系来预测用户意愿,引导用户行为 - 用实时数据创造商业价值。 了解更多信息.
14:00–14:40 Friday, 2017-07-14
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): Advanced
Yu Li (Alibaba), Ramkrishna Vasudevan (Intel)
平均得分:: ***..
(3.00, 1 次得分)
Yu Li explains how Alibaba met the challenge of tens of millions requests per second to its Alibaba-Search HBase cluster on 2016 Singles' Day. With read-path off-heaping, Alibaba improved the throughput by 30% and achieved a predicable latency. 了解更多信息.
14:00–14:40 Friday, 2017-07-14
地点: 多功能厅8A+8B(Function Room 8A+8B)
Yifeng Jiang (Hortonworks)
Yifeng Jiang offers an overview of HDF 3.0, the open source IoT platform that everyone can easily start using right now. HDF supports data collection from the edge, flow management to send data to the data center and the cloud, real-time processing, and visualization and analytics with open source technology and can be used with simple drag-and-drop operations. 了解更多信息.
14:50–15:30 Friday, 2017-07-14
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): Beginner
Hao Hao (Cloudera)
Hao Hao offers an overview of Apache Kudu, a project that enables fast analytics on big data. 了解更多信息.
14:50–15:30 Friday, 2017-07-14
地点: 报告厅(Auditorium) 观众水平 (Level): 中级 (Intermediate)
王玮 (中国人寿), Qinyan XU (中国人寿), 顾佳盛 (中国人寿), Pengfei Yue (Intel), Binggang Wo (Cloudera)
平均得分:: ***..
(3.33, 3 次得分)
中国人寿多年来积累了大量数据,如何深度挖掘数据的价值,用于业务推动、风险管理、客户服务等领域,是我们数据部门的主要目标。我们将介绍中国人寿如何使用Spark以及Spark上的深度学习库BigDL构建针对保险业务场景的高级分析应用。我们尝试了多种前沿的高级机器学习和深度学习技术,我们将分享我们的机器学习系统的架构,应用构建的流程,以及从中吸取到的经验和教训。 了解更多信息.
14:50–15:30 Friday, 2017-07-14
地点: 多功能厅2(Function Room 2) 观众水平 (Level): Intermediate
Haifeng Chen (Intel)
Although the processing capability of modern platforms is approaching memory speed, securing big data using encryption still hurts performance. Haifeng Chen shares proven ways to speed up data encryption in Hadoop and Spark, as well as the latest progress in open source, and demystifies using hardware acceleration technology to protecting your data. 了解更多信息.
14:50–15:30 Friday, 2017-07-14
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 中级 (Intermediate)
黄文宇 (广发银行股份有限公司)
平均得分:: ****.
(4.50, 2 次得分)
为加深对银行客户的洞察,提升银行营销获客与风险管控能力,广发银行基于Hadoop大数据平台,通过Hive on Spark、图计算进行数据加工,结合LFM社群发现、增强决策树等机器学习算法构建了银行客户社交关系模型,挖掘出银行客户社交关系圈,并应用于银行实际业务中。银行客户社交关系圈全面的反映了银行个人客户资金、社交等关系,以全新的视角实现银行对客户洞察从点到面、从单客到客群的扩展,填补银行个人客户社交关系研究与应用的空白。 了解更多信息.
14:50–15:30 Friday, 2017-07-14
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): Intermediate
Mathieu Dumoulin (McKinsey & Company), Mateusz Dymczyk (H2O.ai)
Mathieu Dumoulin and Mateusz Dymczyk walk you step by step through building a scalable, real-time anomaly detection pipeline applied to an industrial robot. You'll learn how to gather data from a wireless movement sensor, process it with H2O on a MapR cluster, and visualize the output through an AR headset by an operator. 了解更多信息.
14:50–15:30 Friday, 2017-07-14
地点: 多功能厅8A+8B(Function Room 8A+8B) 观众水平 (Level): Beginner
Michael Li (The Data Incubator)
平均得分:: ***..
(3.00, 1 次得分)
Michael Li demonstrates how to iteratively train and refine a simple yet robust credit model for loan-default prediction, based on real-world loan performance data using 100% open source machine learning and artificial intelligence tools. The data is based on US$26 billion in loans issued over 10 years. 了解更多信息.
14:50–15:30 Friday, 2017-07-14
地点: 多功能厅3B(Function Room 3B) 观众水平 (Level): 中级 (Intermediate)
Adam Gibson (Skymind)
Adam Gibson offers a high-level overview of jumpy, a better Python interface for deep learning applications, and explains why Spark's Py4J interface for deep learning makes it impractical for deep learning applications. 了解更多信息.
16:20–17:00 Friday, 2017-07-14
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 (Intermediate)
Djvu Lee (今日头条)
讲述今日头条是如何用Spark来处理海量数据,以及在实际使用中的一些改进。 了解更多信息.
16:20–17:00 Friday, 2017-07-14
地点: 报告厅(Auditorium) 观众水平 (Level): 中级 (Intermediate)
吴炜 (万达网络研究院)
广告点击率(ctr)预估的是一个热点问题,从事计算广告的公司一般都有自己的ctr系统,如何稳定可控地改进点击率预估系统,数据,架构,算法这三方面在不同的时间点要做什么是我这次想要分享的主题.通过回顾一个点击率预估系统是如何从最初的单纯的ETL+LR的形式逐步演变为包括模型在线训练,自动baddit,自动大规模特征探索的成熟在线系统.着重介绍在演化的几个关键节点上基于当时情况选择那个技术方向的思考过程,相当于结合ML&DL的知识体系和最近2年的发展,以业内几个比较知名的应用场景为线索,以几个关键节点(千人千面的上下线,双11的逐年演化)为例子来介绍大规模机器学习,分布式最优化的相关知识点,为参会者在面对在具体业务中遇到ML,DL相关问题如何做选型提供一份历史案例的参考 了解更多信息.
16:20–17:00 Friday, 2017-07-14
地点: 多功能厅2(Function Room 2) 观众水平 (Level): 中级 (Intermediate)
马晓宇 (PingCAP)
SparkTI (Spark on TiDB)是TiDB基于Apache Spark的独立于原生系统的计算引擎。它将Spark和TiDB深度集成,在原有MySQL Workload之外借助Spark支持了更多样的用户场景和API。这个项目在SparkSQL和Catalyst引擎之外实现了一套扩展的,为TiDB定制的SQL前端(Parser,Planner和优化器):它了解TiDB如何组织数据,并知晓如何借助TiDB本身的计算能力加速查询,而不仅仅是一个Connector。凭借SparkTI,TiDB将成为Hadoop生态的一部分,铺平了OLTP系统和离线分析集群之间的鸿沟。 了解更多信息.
16:20–17:00 Friday, 2017-07-14
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 中级 (Intermediate)
李银辉 (万达网络科技集团), 千惠子 (万达网络科技集团)
平均得分:: ***..
(3.00, 1 次得分)
数据安全是大数据平台需要的非常重要的特性,如何防止用户敏感信息泄露是数据安全最大的威胁之一。ShadowMask是一个基于Spark大数据平台的开源数据脱敏项目,满足大数据用户对于用户隐私数据脱敏的需求,控制隐私数据泄露风险与数据处理需求的平衡。本次演讲主要介绍项目目标,架构,挑战,应用案例以及当前项目状态。 了解更多信息.
16:20–17:00 Friday, 2017-07-14
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 中级 (Intermediate)
余根茂 (阿里云), Haifeng Chen (Intel)
Hadoop社区很早就支持公有云上的对象存储,比如AWS S3和Azure Storge。最近发布的Apache Hadoop 3.0 (alpha)版本中增加了更多的云存储服务支持,比如Azure Data Lake和阿里云OSS。这些云存储都提供了Hadoop兼容的文件系统,用户可以把他们当成另一个HDFS使用。但是对象存储和HDFS在实现原理上有很多的不同,所以即使两者有类似的文件系统接口,很多API的行为完全不同。 本议题以阿里云OSS的实践出发,介绍阿里云OSS FileSystem实现进入Apache Hadoop历程。同时会介绍对象存储在文件上传、下载、删除和移动上和传统文件系统的区别,从性能和成本上评估HDFS和OSS文件系统的优劣。最后会结合对象存储的特性,给出一些优化方案,可以提升Hive或Spark等开源访问对象存储的性能。 了解更多信息.
16:20–17:00 Friday, 2017-07-14
地点: 多功能厅8A+8B(Function Room 8A+8B) 观众水平 (Level): Intermediate
Benquan Yu (Ant Financial), 叶小萌 (Ant Financial)
平均得分:: **...
(2.00, 1 次得分)
介绍GeaBase(Graph Exploration and Analytics Database),蚂蚁金服自主研发的新一代分布式实时图数据库。支持海量数据规模,高并发的低延迟实时响应和大规模迭代运算。本次分享将介绍GesBase架构,工程实现和实际的应用。 了解更多信息.
16:20–17:00 Friday, 2017-07-14
地点: 多功能厅3B(Function Room 3B) 观众水平 (Level): Beginner
李嘉璇 (Independent)
平均得分:: *....
(1.50, 4 次得分)
常常听到这种说法,自然语言处理是人工智能的桂冠。NLP从语言学上来看,研究的方向包括词干提取、词性还原、分词、词性标注、命名实体识别、词性消歧、句法分析、篇章分析等等。在这些基础的研究内容之上,面向具体的文本处理应用有机器翻译、文本摘要、情感分类、问答系统、聊天机器人等。使用的模型也在非常新颖地发展,从原来的RNN到GRU、到LSTM、到CW-RNN、到Seq2Seq、到加入Attention机制。从原本的Static unrolling到现在的Dynamic unrolling,甚至seqGAN。 自然语言处理的各个模型都有什么特点,除了加入双向以及加深网络外还有什么演化规律,每一次演化都是为了解决哪些技术哪点?接下来NLP基础模型还可能有哪些研究方向?在Sequential Data的处理及表示上有什什么演进规律和可以借鉴的经验?让我们来一起聊一聊这些话题。 了解更多信息.

7月15日,周六

11:15–11:55 Saturday, 2017-07-15
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 (Intermediate)
Dong Li (Kyligence)
平均得分:: ****.
(4.00, 1 次得分)
Apache Kylin v2.0即将发布!作为领先的大数据OLAP分析引擎,现在的Apache Kylin羽翼更丰:支持雪花模型、更加全面的SQL语法、初出茅庐的Spark Cubing、更好地支持实时流式数据接入等等。Apache Kylin正逐渐从一个Hadoop上的传统OLAP平台,演变为一个Hadoop上的实时数据仓库。 了解更多信息.
11:15–11:55 Saturday, 2017-07-15
地点: 报告厅(Auditorium) 观众水平 (Level): Intermediate
Lukas Biewald (Weights & Biases)
平均得分:: ***..
(3.00, 2 次得分)
Training data collection strategies are often the most important and overlooked part of deploying real-world machine learning algorithms. Lukas Biewald explains why active learning is the best way to collect training data and can make the difference between a failed research project and a deployed production algorithm. 了解更多信息.
11:15–11:55 Saturday, 2017-07-15
地点: 多功能厅2(Function Room 2)
Zhe Zhang (LinkedIn)
领英是全球最早应用大数据技术的公司之一。在过去9年的时间里,领英的大数据平台扩展了将近500倍,从20台节点支持10个用户运行MapReduce,到现在超过1万台节点支持几千名工程师和科学家运行从交互式Presto查询到TensorFlow深度学习的各种大规模数据分析。这个报告会分享领英的大数据平台团队怎样解决大规模和高速增长带来的各种挑战。 了解更多信息.
11:15–11:55 Saturday, 2017-07-15
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 高级 (Advanced)
ming huang (腾讯)
在机器学习和人工智能领域,为了让模型达到更好的线上效果,特征的维度往往会膨胀到千万和亿级别。在这种情况下,传统的分布式计算框架,很难有高的性能。为此,腾讯推出Angel机器学习框架,支持超大维度模型的高性能机器学习。该框架即支持自主的高性能机器学习算法开发,也能作为PS引擎,为其它框架(例如Spark……)提供PS支持,整体形成良好的PS生态圈。 了解更多信息.
11:15–11:55 Saturday, 2017-07-15
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): Non-technical
Yupeng Fu (Alluxio)
Decoupling storage and computation is becoming increasingly popular for big data analytics platforms. Yupeng Fu shares production best practices and solutions to best utilize CPUs, memory, and different tiers of disaggregated compute and storage systems to build out a multitenant high-performance platform that addresses real-world business demands. 了解更多信息.
11:15–11:55 Saturday, 2017-07-15
地点: 多功能厅8A+8B(Function Room 8A+8B)
周涛 (Kyligence)
长期以来,金融企业大多采用传统的DW/BI技术来构建数据分析平台,但传统DW/BI技术已经难以应对大数据时代带来的数据量爆发、分析需求倍增、业务急需创新等挑战。 我们将通过保险、证券等领先金融企业的实际案例,介绍Apache Kylin大数据分析平台,如何帮助这些企业突破传统技术的瓶颈,实现了海量数据、高并发、多维度下的极速分析和业务创新,释放大数据价值。 了解更多信息.
13:10–13:50 Saturday, 2017-07-15
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 ()
施兴 (阿里云)
过去的几年,人工智能最火热的主要还是深度学习技术在各个场景下的应用。 可以看到,深度学习基本上还是互联网企业的独享,传统的中小企业很难有专门的团队去研究深度学习,也很难获取大规模的数据和计算能力。可以想象,未来会有更大规模的人工智能的需求和领域,依托阿里云自主研发的分布式数据存储与计算平台,我们研发了人工智能平台PAI(Platform of AI),期望将人工智能的能力赋能给各个企业。同时,针对一些通用领域,比如身份证,行驶证的图片识别,我们也基于PAI开发了一些上层的服务输出。 我们将介绍PAI的一些功能基础能力和我们现有成熟服务能力的输出,以及如何基于PAI训练一个自定义的人工智能模型并提供服务的流程。 了解更多信息.
13:10–13:50 Saturday, 2017-07-15
地点: 报告厅(Auditorium) 观众水平 (Level): Beginner
Yufeng Guo (Google)
Machine learning has traditionally been performed only on servers and high-performance machines, but on-device machine learning on mobile devices can be very valuable. Yufeng Guo uses TensorFlow to implement a deep learning model for image classification on an Android device, tailored to a custom dataset. You'll leave ready to get started on your own mobile deep learning solutions. 了解更多信息.
13:10–13:50 Saturday, 2017-07-15
地点: 多功能厅2(Function Room 2) 观众水平 (Level): 中级 (Intermediate)
Sijie Guo (ASF)
Sijie Guo explores the technical challenges of exactly once delivery and transaction support in messaging and streaming storage systems and explains how Apache DistributedLog helps achieve transactional streaming. 了解更多信息.
13:10–13:50 Saturday, 2017-07-15
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 中级 (Intermediate)
杨帆 (Lenovo)
平均得分:: ****.
(4.67, 3 次得分)
在无法直接收集个人信息的情况下,企业需要根据用户行为数据,来预测用户的特定属性(如性别、职业、学历、购买力、年龄以及其它个人生命周期的状态等)。(目标) 一些有监督机器学习算法被用来实现这一目标,但是,面对数千万甚至上亿的海量用户、数百亿甚至更多的行为数据,标注量需要达到一定规模,才能保障机器学习的效果,而为了获得标注数据,是成本非常巨大的工作。(难点) 在实践中,我们通过多个角度对用户进行建模,构造不同的用户数据视图,在每个视图下选择合适的机器学习算法,应用cotraining半监督学习算法,通过多个数据视图机器学习算法的协同训练(cotraining),在使用非常少量的标注数据的情况下,就能在用户属性预测方面达到良好的效果。(方法) 了解更多信息.
13:10–13:50 Saturday, 2017-07-15
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 中级 (Intermediate)
jiang shouzhuang (万达网络科技集团有限公司), 丛宏雷 (万达网络科技集团有限公司)
平均得分:: **...
(2.00, 1 次得分)
区块链,比特币背后的技术,是一个去中心的分布式账本技术。Hyperledger是一个开源,跨行业的区块链平台技术。它是一个由金融,银行,物联网,供应链,制造业的行业领袖协同组成的全球协作项目。我们将Hyperledger同CDH进行集成,以利用CDH的服务部署,监控,管理功能。通过这个项目,用户可以方便地在CDH托管的数据中心部署Hyperledger集群,而且便于利用CDH大数据平台分析Hyperledger的数据,提取更多的商业价值。在万达内部使用的项目包含:数字权益平台和共享商业平台。其中共享商业平台包含了金融和供应链等多个环节。我们相信这个项目对于Hyperledger开源社区将很有帮助。 了解更多信息.
13:10–13:50 Saturday, 2017-07-15
地点: 多功能厅8A+8B(Function Room 8A+8B) 观众水平 (Level): 高级 ()
Dihao Chen (第四范式技术有限公司), Jianwei Cui (小米)
介绍小米内部应用的cloud machine learning平台,分析通用深度学习平台的架构设计和实现原理,还有在企业内部支持开发环境、模型训练以及模型服务的实践经验。 了解更多信息.
14:00–14:40 Saturday, 2017-07-15
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): Intermediate
Yupeng Fu (Alluxio)
Alluxio (formerly Tachyon) is a memory-speed virtual distributed storage system that leverages memory for managing data across different storage. Many deployments use Alluxio with Spark. Yupeng Fu explains how Alluxio helps Spark be more effective and shares examples of production deployments of Alluxio and Spark working together. 了解更多信息.
14:00–14:40 Saturday, 2017-07-15
地点: 报告厅(Auditorium) 观众水平 (Level): Intermediate
张铭 (北京大学)
平均得分:: **...
(2.50, 2 次得分)
网络结构在现实世界中无处不在(如航线网络、通信网络、论文引用网络、世界万维网和社交网络等),大规模的网络结构数据和丰富的网络节点信息对相关的研究方法提出了新的挑战,受到了学术界和工业界的广泛关注。本报告对基于神经网络的网络表示方法进行了详细的介绍,这些方法可以处理现实世界中拥有百万级节点和十亿级边的网络结构,主要考虑了网络结构信息和网络节点自身信息(如文本信息和属性信息等)。学习网络的低维网络表示,在不同应用领域中体现出很好的效率和效果。 了解更多信息.
14:00–14:40 Saturday, 2017-07-15
地点: 多功能厅2(Function Room 2) 观众水平 (Level): 中级 (Intermediate)
Biao Chen (Cloudera)
多年来Hadoop技术无法进入核心业务系统,其中无成熟稳定的异地多数据中心方案是其中重要原因之一。由于灾备等原因,存储重要数据的HBase集群通常要求跨数据中心进行备份。国内银行业监管单位更是提出了异地多中心的硬性要求。而现在的HBase多为单数据中心部署,目前HBase提供的replica,快照拷贝或export的方式,皆不能满足监管和异地灾备要求。在本session将分享现有多中心部署要求下HBase所遇到的问题、解决办法。未来HBase将增加增量备份功能,其提供的增量备份方案,避免了现有技术对全表数据的扫描,大大提高了备份性能,同时又提供了repica不具备的一致性。在本session中也将详细描述此功能对于多数据方案的重要性、使用介绍以及内部原理刨析。 了解更多信息.
14:00–14:40 Saturday, 2017-07-15
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 中级 (Intermediate)
Zhong Wu (DataVisor)
你的用户中有多少是潜伏的欺诈者,等待发起攻击?所有线上用户社区都会存在隐藏群组、潜伏期账号欺诈的风险。根据DataVisor全球范围线上服务超过10亿用户和5千亿事件的分析数据,这个议题旨在详细阐述潜伏期欺诈账号存在的威胁性,探索欺诈者是如何应用复杂的攻击技术来逃避系统检测,以及Spark大数据安全分析的应用。 了解更多信息.
14:00–14:40 Saturday, 2017-07-15
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 中级 (Intermediate)
Fangshi Li (LinkedIn)
Kafka和Hadoop是LinkedIn数据基础设施online和offline部分的核心。Kafka是LinkedIn创造并且开源的,目前集群有超过一千台机器,每天收集并处理14万亿条消息。LinkedIn的Hadoop集群有超过1万台机器和50pb数据,每天处理20万个任务。在本议题中,我将会以一个Hadoop成员的角度讲解linkedin如何搭建Hadoop和Kafka的桥梁,让他们更好的一起工作。内容包括 1)讲解LinkedIn数据架构 dataset从产生到Kafka到Hadoop并且最终呈现给用户(数据分析师)的整个ETL流程 2)讲解我们的一个use case来使用Apache Flume和Kafka收集分析Hadoop集群的数据并且搭建实时分析程序 3)讲解我们最新的工作,提供统一的sql接口让用户可以同时处理Kafka数据流和hdfs的数据 了解更多信息.
14:00–14:40 Saturday, 2017-07-15
地点: 多功能厅8A+8B(Function Room 8A+8B) 观众水平 (Level): Beginner
XueMin Zhang (TalkingData)
TalkingData于13年底开始引入Spark,目前数据中心所有数据处理都以迁至Spark计算平台。 随着业务的快速发展,数据源及数据量的大幅提升,数据资产管理和数据分析、挖掘工作日趋增多,慢慢的沉淀出了基于Spark、Alluxio、Jenkins等开源技术的数据管理、探索及计算平台。 演讲者主要介绍平台的背景及其技术架构演进,以及在使用过程中踩过的一些坑和后续规划。 了解更多信息.
14:50–15:30 Saturday, 2017-07-15
地点: 紫金大厅B(Grand Hall B) 观众水平 (Level): 中级 ()
Pengshan Zhang (PayPal Shanghai)
PayPal风险控制部门一直致力于利用基于大数据的机器学习的模型检测欺诈交易以及欺诈用户。本次演讲主要分享PayPal风险控制部门内部如何利用Hadoop/YARN实现分布式的逻辑回归、神经网络以及梯度提升树等机器学习算法,以及如何针对不同的算法做特征工程,构建端到端的机器学习管道。最后分享如何将这些算法组合起来提升模型的性能和稳定性。 了解更多信息.
14:50–15:30 Saturday, 2017-07-15
地点: 报告厅(Auditorium) 观众水平 (Level): 中级 (Intermediate)
Shaoshan Liu (PerceptIn)
The rise of robotics applications demands new cloud architectures that deliver high throughput and low latency. Shaoshan Liu explains how PerceptIn designed and implemented a cloud architecture to support these emerging user requirements using Alluxio. 了解更多信息.
14:50–15:30 Saturday, 2017-07-15
地点: 多功能厅2(Function Room 2) 观众水平 (Level): 中级 (Intermediate)
Rong Gu (南京大学)
Alluxio(原名Tachyon)是开源的、以内存为中心的统一分布式存储系统。它为上层计算框架和底层存储系统构建了桥梁。Alluxio还提供了分层存储机制,不仅可以管理内存,也可以统一管理SSD 和HDD等存储设备资源。为了使热数据尽量在更快的存储层上,我们在Alluxio中针对多种大数据的应用场景设计实现了众多高级的缓存替换策略包括LIRS、ARC、LRFU等。这些缓存策略已经被集成到Alluxio系统之中,并且可以很方便地用于上层应用性能调优。此外,为了对Alluxio上层的应用进行更大规模的性能评测和调优,我们还设计实现了针对的Alluxio大规模性能评测系统Alluxio-Perf。本演讲中,我将对针对Alluxio大数据的缓存策略与性能评测调优工具Alluxio-Perf的基本原理和使用方式进行详细的介绍。 了解更多信息.
14:50–15:30 Saturday, 2017-07-15
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): Intermediate
Mingxi Wu (TigerGraph), Yu Xu (TigerGraph)
平均得分:: ***..
(3.00, 1 次得分)
Mingxi Wu and Yu Xu offer an overview of GraphSQL, a high-performance enterprise graph data platform for real-time graph analytics that enables businesses to transform structured, semistructured, and unstructured data and massive enterprise data silos into an intelligent interconnected data network, uncovering implicit patterns and critical insights to drive business growth. 了解更多信息.
14:50–15:30 Saturday, 2017-07-15
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): 非技术性 (Non-technical)
Zhenxiao Luo (Uber)
As Uber continues to grow, its big data systems must also grow in scalability, reliability, and performance to help Uber make business decisions, give user recommendations, and analyze experiments across all data sources. Zhenxiao Luo shares his experience running columnar storage in production at Uber and discusses query optimization techniques in SQL engines. 了解更多信息.
14:50–15:30 Saturday, 2017-07-15
地点: 多功能厅8A+8B(Function Room 8A+8B) 观众水平 (Level): 中级 ()
李成华 (武汉泰迪智慧科技有限公司)
随着技术和市场的高歌猛进,人工智能正成为数据、服务、产品接入人类生活的重要入口。聊天机器人的演变与发展让它慢慢融入人们的日常生活,从手机上的虚拟助理到实际在线客服,聊天机器人的发展之路不算短。 传统的智能聊天机器人有一个比较大的痛点是交互体验不好,智能化程度低,而通过研究深度学习,自然语言处理,短文本处理,大数据等技术,改进智能聊天机器人的应答准确率,提高咨询效率。 这次演讲会与大家分享智能聊天机器人的核心设计思路,如何利用深度学习,自然语言处理,知识图谱,用户画像等技术进行实现,以及使用深度学习构建聊天机器人采用的主体技术框架以及面临的一些独特问题及相应的解决方案。 了解更多信息.
16:20–17:00 Saturday, 2017-07-15
地点: 报告厅(Auditorium) 观众水平 (Level): Advanced
陈雨强 (第四范式)
AI的强大让各行各业纷纷侧目,未来对AI的应用情况将极大影响一家企业在市场中的位置。 然而, 在实验室叱咤风云的AI技术一旦应用到实际,难免水土不服。 那么,AI工业应用的必要条件是什么?痛点有哪些?如何解决?如何从系统层面、模型&特征层面、模型维度层面、实施上线层面实现突破?针对常见场景中的常见难点,有哪些黑科技正在起作用? 本演讲旨在分享演讲者在互联网、金融、电信等领域的人工智能工业应用实践中的痛点及解决思路。 了解更多信息.
16:20–17:00 Saturday, 2017-07-15
地点: 多功能厅2(Function Room 2) 观众水平 (Level): 中级 (Intermediate)
Andrew Wang (Cloudera), 郑锴 (Intel)
Hadoop3.0 引入了纠删码技术。在常见配置下,纠删码相对于传统数据3备份模式可以降低50%的存储成本,同时提高数据的可靠性。在本次演讲中,我们首先会简短的介绍HDFS纠删码技术, 然后深入了解在Hadoop 3.0 GA 前我们为保证纠删码功能稳定性做的工作,以及分享Hadoop生态系统中重要成员Spark, Hive,Impala, Kylin等等在HDFS 纠删码上的性能表现。最后,我们会给出在生产环境中部署使用纠删码技术的一些考虑和建议。 了解更多信息.
16:20–17:00 Saturday, 2017-07-15
地点: 多功能厅5B+C(Function Room 5B+C) 观众水平 (Level): 非技术性 (Non-technical)
Tony Xing (Microsoft)
Tony Xing offers an overview of Microsoft's common anomaly detection platform, an API service built internally to provide product teams the flexibility to plug in any anomaly detection algorithms to fit their own signal types. 了解更多信息.
16:20–17:00 Saturday, 2017-07-15
地点: 多功能厅6A+B(Function Room 6A+B) 观众水平 (Level): Intermediate
Xuefu Zhang (Uber)
平均得分:: *....
(1.00, 1 次得分)
Xuefu Zhang offers an overview of U-SQL, which was developed internally by engineers at Uber and is envisioned as the future of SQL platforms. U-SQL enables automatic parsing, translation, optimization, and routing for user queries written in any supported query language and provides a unified SQL interface for SQL users who might not be familiar with the underlying SQL engines. 了解更多信息.

联系OReillyData

关注OReillyData微信号获取最新会议信息并浏览前沿数据文章。

WeChat QRcode

 

Stay Connected Image 1
Stay Connected Image 3
Stay Connected Image 2

阅读关于大数据的最新理念。

ORB Data Site