活动背景
Apache Spark自2009年诞生与加州大学伯克利大学实验室,历经10年的发展,超过1300位来自近300家企业和组织的工程师为其贡献代码,使其成为当今最炙手可热的大数据处理开源技术框架,并与其它最为流行的数据存储,检索,消息流中间件及数据中心资源调度框架完美整合,构建了强大的大数据技术栈生态圈,为应用程序开发者提供一站式的,多种编程范式API支持,涵盖了实时和离线数据处理,SQL,图计算,机器学习以及深度学习等多个维度,成为事实上的业界标准,大数据应用中不可或缺的重要组件。
上海Apache Spark Meetup组织一直秉持开放的心态,给大家带来业界一流企业在Spark及大数据应用上的最新进展和成果展示,为大数据领域从业者提供公益,公平的技术分享与探讨平台。
活动时间
2019年6月16日13:00—17:00
活动地点
上海市徐汇区田林路200号A7座一楼
(COCOSPACE漕河泾创新中心)
议程安排
13:00 - 13:30 | 活动签到 |
13:30 - 13:40 | 开场白 |
13:40 - 14:25 | Analytics Zoo: Distributed TensorFlow in production on Apache Spark |
14:25 - 15:10 | TiDB / TiSpark + TiFlash扩展 - 向真HTAP平台前进 |
15:10 - 15:30 | 茶歇&自由交流 |
15:30 - 16:15 | Office Depot利用Intel Analytics Zoo构建智能推荐系统的实践分享 |
16:15 - 17:00 | Spark-SQL在字节跳动的应用实践 |
讲师风采
戴金权,现任英特尔资深首席工程师、大数据技术全球CTO,负责领导英特尔全球(位于硅谷和上海)的工程团队在高级大数据分析(包括分布式机器学习和深度学习)上的研发工作,以及和全球领先的研究机构(如UC Berkeley AMPLab、RISELab等)的技术合作。他是一位得到国际认可的,在大数据、云计算和分布式机器学习上的专家;他是O’Reilly AI Conference Beijing的联席主席, Apache Spark 项目的Committer和项目管理委员会(PMC)委员,Apache MXNet项目 Mentor。
汪洋,英特尔数据分析团队的机器学习工程师,专注于深度学习基础架构、算法和应用。他是Analytics Zoo和BigDL的核心贡献者之一。
韩飞,Cpp/GoLang 研发工程师。曾就职于阿里云ODPS团队,并参与SQL优化器的开发。在PingCAP 曾负责 TiDB 查询优化器与执行引擎的研发,目前专注AP分析引擎的 runtime 研发。
黄凯,Intel大数据技术团队软件工程师。负责开发基于Apache Spark的深度学习框架,同时支持企业客户在大数据平台上构建端到端的深度学习应用。
白泉,字节跳动数据平台工程师,专注于Spark/Hive在企业内的平台化服务化建设以及Spark SQL引擎的优化。
议题介绍
议题一
Analytics Zoo: Distributed TensorFlow in production on Apache Spark
议题简介
Analytics Zoo是一个统一的“分析+人工智能”平台,实现了运行在Apache Spark上的分布式TensorFlow、Keras和BigDL。本议题将介绍如何利用Analytics Zoo在Spark集群中分布式地进行TensorFlow模型的训练、推断。
议题二
TiDB / TiSpark + TiFlash扩展 - 向真HTAP平台前进
议题简介
由于分析型与交易型数据库设计上的本质矛盾,使得用户的数据平台变得异常复杂:人们不得不通过各种手段将在线交易数据搬运到分析平台中。这样的架构不但难于维护,而且可能会丢失数据库新鲜度与一致性。HTAP 是一个并不容易的目标。包括 TiDB + TiSpark 本身,以往版本所提出的解决方案并不完善。一个相对完善的 HTAP 数据库,必须良好地解决交易和分析负载隔离;行存和列存的融合且互不影响,避免设计中可能引入的延迟或一致性冲突。
本次演讲将和听众探讨 HTAP 的价值,为何难以实现以及 TiDB 产品线的新组件 TiFlash 如何围绕 Multi-Raft 独创性地解决这些问题,同时为在线交易和大数据分析场景提供助力。
议题三
Office Depot利用Intel Analytics Zoo构建智能推荐系统的实践分享
议题简介
基于用户行为的推荐系统如今已经广泛地用于电子商务平台中,帮助商家为用户个性化推荐感兴趣的商品。随着人工智能的发展,深度神经网络也开始被用来提取用户和物品间潜在的非线性关系。世界上最大的办公用品销售商之一Office Depot引入了Intel Analytics Zoo,在Spark集群上分布式训练了多种深度学习推荐算法模型,实验结果相比于传统的推荐算法有显著的提升。本次分享主要介绍Office Depot使用Analytics Zoo构建智能推荐系统的实践经验。
议题四
Spark-SQL在字节跳动的应用实践
议题简介
面对大量复杂的数据分析需求,提供一套稳定、高效、便捷的企业级查询分析服务具有重大意义。本次演讲介绍了字节跳动基于SparkSQL建设大数据查询统一服务TQS(Toutiao Query Service)的一些实践以及在执行计划调优、数据读取剪枝、SQL兼容性等方面对SparkSQL引擎的一些优化。
报名方式
扫描下方图中二维码即可报名
【关于我们】
COCOSPACE(可可空间投资(上海)有限公司的简称)是双创大潮中成长起来的创新型孵化器行业的领导者,公司以“投资型科创空间运营商”为业务定位,秉承着为年轻人提供“CO-work & CO-coffee”的休闲办公社区的初心,创立了独具特色的“基地+基金”、“孵化+投资”科创空间运营模式,以“+创业投资/Capital、+创业教练/Coaching、+云上服务/Clouding、+创业者社区/Community”的“COCO+”为核心价值体系,致力于为创业公司和成长型企业提供灵动办公空间(=COCOSPACE科创空间)、全程资本服务(=可可资本)、深度创业辅导(=可可创新学院)、企业云服务(=企业星云,提供云协同&云空间),构建起全栖创业生态社区。