数据湖真的取代数仓了吗?

920次阅读
没有评论

数据湖真的取代数仓了吗?

数据湖三剑客有哪些最新进展?

Paimon、RisingWave等数据湖新贵处在什么位置?

如何设计一个高性能的流式湖仓?

LLM时代,数据湖的新范式?

数据湖在实际业务场景中落地效果如何?

23年,随着Paimon、RisingWave等新技术问世,隐隐有打破数据湖三剑客的局面,在平静的湖面上,掀起了波浪,所谓风浪越大,鱼越贵!我们DataFun将在3月9日举办一年一度的数据湖架构峰会,届时将邀请领域内技术专家围绕Hudi、Iceberg、Delta Lake、Paimon等核心数据湖技术分享最新的技术实践以及在企业真实业务场景中的应用。欢迎感兴趣的小伙伴识别二维码报名:

数据湖真的取代数仓了吗?

数据湖真的取代数仓了吗?

活动日程

数据湖真的取代数仓了吗?

数据湖真的取代数仓了吗?

议题详情

主题演讲:数据湖的全新演进

许世彦 Onehouse 开源项目负责人,Apache Hudi PMC

个人介绍:Onehouse 创始团队成员,开源项目负责人。Apache Hudi PMC 成员。

演讲题目:Hudi 1.0 新功能预览

演讲提纲:介绍 Hudi 1.0 的全新功能和重大提升。

听众收益:

1. 深入探索 Hudi 底层设计

2. 学习数据湖仓应用场景

3. 了解开源社区新动向

李劲松 阿里云 高级技术专家,Paimon 创始人

个人介绍:阿里云开源大数据表存储团队负责人,Flink PMC 成员,Paimon 创始人。

演讲题目:流式数据湖 Paimon 0.7 的研发进展

演讲提纲:Apache Paimon 经过了一年的发展,已经在各大企业落地。从进入 Apache 孵化器,发布了 0.4 到 0.7 这四个大版本,此分享主要包括:

1. 回顾主要的技术方向的发展,如何撑起三个主要场景:入湖更新、流读、离线分析。

2. 展望目前正在推进的方向,0.8 核心解决的问题,以及与计算生态的打通,更新数据的实时 OLAP,实时产生变更日志。

听众收益:

1. 了解目前 Paimon 社区的研发进展,结合业务落地相关场景

2. 了解 Paimon 后续的能力加强,探索未来的方向

刘兆磊 Databricks 资深软件工程师

个人介绍:现任 Databricks Delta Lake 组元数据软件工程师,负责开源存储格式和优化。

演讲题目:开源 Delta Lake 3.0 优势和发展

演讲提纲:主要介绍Delta lake 3.0 主要发布的新特征和特点,主要包括:

1. Delta lake最新的特征,例如 max/min metadata optimization 基于最大最小值的查询元数据优化,deletion vector 删除向量

2. Delta UniversalFormat 统一格式,让您从Delta Lake写入,之后可以从Delta,Hudi,Iceberg读取

听众收获

1. 了解 Delta lake 最新动态和社区的进展

2. 了解 Delta lake 相对于其他存储格式的特点及评测数据,以便于企业选择选择合适的存储格式

数据湖真的取代数仓了吗?扫码免费报名观看直播

数据湖真的取代数仓了吗?


LLM/AI 时代湖仓新范式论坛

出品人:付庆午 OPPO 云数能力中心 大数据架构负责人

个人介绍:目前在OPPO数据架构组负责架构演进研发,Spark 开源RSS项目Shuttle发起人,曾供职去哪儿网大数据,阿里云MC团队。

刘嘉承 Alluxio Staff Engineer,Alluxio PMC & Maintainer

个人介绍:硕士毕业于哥伦比亚大学,Alluxio Staff Engineer,Alluxio开源社区PMC成员和Maintainer,《Alluxio – 分布式统一大数据虚拟文件系统》核心作者。

演讲题目:Alluxio 3.0:下一代分布式AI/数据湖缓存架构的探索和实践

演讲提纲:

1. Alluxio 分布式缓存系统的项目背景、历史

2. Alluxio 在AI/数据湖领域的使用场景和效果

3. Alluxio 2.x – 3.x 的核心架构革新

听众收益:

1. 了解分布式缓存的架构及核心设计理念

2. 了解分布式缓存在AI/数据湖领域的主流应用场景和客户成功案例

陈哲嘉 OPPO 高级大数据平台工程师

个人介绍:OPPO 大数据平台计算引擎负责人,在大数据离线实时计算,数据湖应用和优化等方向上有丰富的经验。

演讲题目:OPPO 数据湖加速大模型训练

演讲提纲:

1. OPPO 自研湖仓引擎介绍

2. 加速大语言模型数据预处理任务

听众收益:

1. 了解 OPPO 数据湖基础架构和技术方案

2. 学习如何基于大数据平台和数据湖,搭建和优化例如向量化,去重等数据预处理任务

数据湖真的取代数仓了吗?扫码免费报名观看直播

数据湖真的取代数仓了吗?

高性能流式湖仓论坛

出品人:马年圣 蚂蚁集团 实时数仓架构师,数据技术专家

个人介绍:马年圣,毕业于河海大学,先后就职于网易、阿里、蚂蚁等互联网公司,当前工作重心在实时数据研发和架构,负责蚂蚁集团广告、决策等领域实时数据。

闵文俊 蚂蚁集团 技术专家

个人介绍:毕业于南京理工大学,毕业后一直从事大数据相关工作,2019~至今在蚂蚁集团从事实时计算引擎开发工作,目前主要负责蚂蚁流批一体和数据湖相关工作。

演讲题目:蚂蚁基于 Paimon 数据湖的应用

演讲提纲:

1. Paimon 数据湖场景的应用

2. Paimon 数据湖的优化

听众收益:

1. 了解数据湖如何在生产实践中为业务提效

2. 了解数据湖落地过程中的问题与挑战

陈梓麟 RisingWave Labs 内核研发工程师

个人介绍:本科毕业于中山大学软件工程专业,曾就职于阿里云从事分布式数据库PolarDB-X内核研发4年,现就职于RisingWave Labs从事流数据库RisingWave内核研发。主要工作方向:SQL查询优化器,分布式计算。

演讲题目:基于RisingWave构建流式湖仓

演讲提纲:

1. RisingWave 介绍和使用场景

2. 实时数据入湖 — Iceberg 写

3. 历史数据批量导入 — Iceberg 读

4. 核心技术内幕

5. 未来与展望

听众收益:

1. 如何以数据库体验来进行流处理开发

2. 如何利用对象存储降低流处理成本提升效益

3. 如何使用 RisingWave 进行实时数据入湖

4. 如何使用 RisingWave 查询湖仓中 Iceberg 表数据

陈卓宇 小红书 开发工程师

个人介绍:陈卓宇 小红书 开发工程师,Apache Paimon Contributor。

演讲题目:Paimon 架构下的数据湖探索

演讲提纲:

1. Paimon 是什么?

2. Paimon 适用场景

3. Paimon 架构设计

4. 数据入湖:讲述数据入湖的核心流程和基本实现原理

5. Primary Key 表的实现:讲述数据的分布、聚合表引擎实现原理

6. Paimon Tag 机制、最佳实践

7. 未来工作方向 load action、 外键打宽

听众收益:

1. Paimon 是什么?能干什么?

2. Paimon 架构设计

3. 讲述数据入湖的核心流程和基本实现逻辑

4. 讲述 Paimon PK 表数据的分布组织形式、聚合表引擎实现原理

5. 讲述 Paimon Tag 机制、最佳实践

数据湖真的取代数仓了吗?扫码免费报名观看直播

数据湖真的取代数仓了吗?

湖仓一体架构论坛

出品人:张静 快手大数据平台架构师

个人介绍:张静,快手大数据平台架构师,Apache Flink/Calcite/HUDI Committer,11年大数据方向从业经验,曾就职于百度和阿里,专注于分布式计算引擎、SQL优化器和数据湖方向。

祝佳俊 网易严选 资深服务端开发

个人介绍:浙江大学硕士毕业后入职网易严选,主要负责数据治理、数据湖等相关平台的开发工作。

演讲题目:严选湖仓一体建设实践

演讲提纲:主要介绍严选如何使用 Iceberg 的湖仓一体的建设实践,主要包括:

1. 如何增强 Iceberg 时间旅行特性,满足严选业务场景,提升数据入仓效率

2. 如何使用 Iceberg 来缩短数据加工链路,提升产出效率

3. 实现并使用 Iceberg 的物化视图,提升数据时效性

4. 未来规划

听众收益:

1. 如何对 Iceberg 的时间旅行特性增强,支持查询精准时间快照数据?

2. 如何实现 Iceberg 的物化视图?

3. 如何使用 Iceberg 来降本增效?

徐昱 vivo 大数据工程师

个人介绍:毕业于南京邮电大学,计算机硕士学历。现就职于vivo互联网基础平台部,近几年一直负责底层计算组件优化等相关工作。当前负责vivo湖仓一体化相关组件及平台能力建设。

演讲题目:vivo 湖仓一体构建历程

演讲提纲:

1. 批流链路统一架构设计及收益

2. 数据湖组件能力拓展

3. 数据湖未来展望

听众收益:

1. 湖上增效降本业务实际场景运用

2. 数据湖组件相关更新、查询优化思路

3. 数仓到湖仓的转化思路

靳国卫 快手 数据BP负责人

个人介绍:目前负责生产、社交、孵化数据团队。10年+数据相关工作经验,曾主导滴滴、美团核心业务数据体系建设及公司级BI产品的规划及落地。擅长OLAP技术和数据湖技术并多场景实践落地。

演讲题目:数据湖在快手的应用实践

演讲提纲:

1. 数据湖在快手的应用历程:问题与挑战、技术选型、应用过程、推广策略、生态建设

2. 数据湖在快手的应用案例:CDC数据同步、批流结合业务加速、架构升级数仓优化

听众收益:

1. 如何在企业应用数据湖技术变革数据架构

2. 从应用结果视角审视数据湖在效率、成本的应用场景

3. 如何使用数据湖达成业务目标,助力业务价值

梁溪 腾讯 微信视频号 高级大数据工程师

个人介绍:2018年硕士毕业于电子科技大学,2019年加入腾讯,目前在视频号中心担任高级大数据工程师,主要负责视频号实时湖仓架构设计和开发迭代。

演讲题目:实时湖仓在视频号场景的应用实践

演讲提纲:

1. 背景介绍

2. 应用实践

3. 项目总结

4. 未来展望

听众收益:

1. 接入数据湖后,使用廉价的 hdfs 资源置换了诸如 kafka/redis 等 pass 服务所耗的资源

2. 基于流转批、MOR、merge into 技术实现批调度时延降低4倍以上,指标产出时延减少 3h 以上

3. 简化链路及统一代码,实现人力成本约节省30%以上,计算成本节省约15%

杨宣 华为 大数据开发工程师

个人介绍:2021年西安交通大学硕士毕业后入职华为,在实时数据湖团队已逐渐积累了2年多经验,现在主要从事于Hudi组件的研发和设计工作。

演讲题目:实时数据湖Hudi应用解决方案

演讲提纲:

1. Hudi如何摆脱使用困难的标签

2. Hudi如何在实时场景更加可靠

3. Hudi在项目中常用的落地方案

数据湖真的取代数仓了吗?扫码免费报名观看直播

数据湖真的取代数仓了吗?


湖仓治理论坛

出品人:洪帅 京东 资深技术专家

个人介绍:目前负责京东零售营销运营体系的数据资产及数据产品建设,在数据平台技术架构、实时计算、数据集成、数据治理等领域具备丰富的实践经验。从京东数据体系内部成长起来的专家,积极推广数据湖技术在京东零售数据体系的落地,推动优化资源利用率低、弹性能力差、智能化程度低等问题探索及实践,提升数据的产出时效以及架构稳定性保障。

陈洪健 京东 大数据架构师

个人介绍:深耕大数据10年,2019年加入京东,主要负责OLAP优化、大数据传输工具生态、流批一体、SRE建设。

演讲题目:京东零售数据湖应用与实践

演讲提纲:

1. 流批一体技术选型

2. 大数据量多流关联

3. 存储和性能优化

4. OLAP 查询提速

5. 未来规划和展望

听众收益:听众将了解千亿量级流批数据关联处理过程和应用秒级查询。

吕代军 京东 架构师

个人介绍:数据架构师,先后在科技、零售行业从事数据开发与数据架构相关工作,专注于端到端数据链路优化与数据可观测体系建设,以及基于主动元数据、图技术构建智能数据治理能力,推动数据标准牵引数据集成加速。

演讲题目:基于主动元数据构建智能数据治理体系

演讲提纲:

1. 京东零售数据治理面对的挑战

2. 数据治理解决方案

3. 智能生命周期治理

4. 基于消费的智能回填技术

5. 总结与展望

听众收益:

1. 如何解决用户不敢治、不愿治、盲治问题

2. 什么是Data Fabric, 什么是主动元数据,给数据治理能带来什么

3. 如何更极致、更安全、高效的进行数据治理

4. 未来还有哪些方向可以探索

数据湖真的取代数仓了吗?扫码免费报名观看直播

数据湖真的取代数仓了吗?

湖仓最佳实践论坛

出品人:黄雪源 eBay 实时计算部门开发经理

个人介绍:黄雪源,eBay 大数据平台实时计算部门经理,领导团队构建实时计算解决方案,为支付、风控及广告等核心业务部门提供高可用的流计算和消息中间件服务,打造下一代的实时数据湖。曾在微软任职开发工程师及产品经理,致力于提升 Azure 的生态和开发体验,为开发者提供高效易用的开发工具。本硕毕业于南京大学软件工程系。

董丽婷 爱奇艺 高级研发工程师

个人介绍:2018年毕业于清华大学,毕业后加入爱奇艺广告团队,主要负责广告数据实时数仓建设。

演讲题目:爱奇艺广告数据湖实践

演讲提纲:

1. 背景介绍(爱奇艺广告数据的基本情况和特征)

2. 现状(当前架构以及遇到的难点痛点)

3. 数据湖相关应用场景

4. 未来规划

听众收益:

1. 如何通过数据湖构建实时数仓

2. 广告主相关等业务数据如何实时检索

3. 如何解决数据湖小文件等问题

戢清雨 SmartNews 架构师

个人介绍:Apache Iceberg/Trino Contributor,目前在SmartNews数据平台部门主要负责实时数据湖的架构与研发,以及数据平台等基础设施优化与迭代,曾就职于摩根士丹利,ebay等大数据方向。

演讲题目:SmartNews 基于 Flink 的 Iceberg 实时数据湖实践

演讲提纲:

1. SmartNews 数据湖介绍

2. 基于 Iceberg v1 格式的数据湖实践

3. 基于 Flink 实时更新的数据湖(Iceberg v2 format)解决方案

4. Flink 实时更新带来的小文件数量性能问题

    4.1 基于 RowKind 分类来减少数据入湖的文件

    4.2 基于 Partition 统计信息的 shuffle 进一步减少小文件数量

5. 性能评估

6. 总结

听众收益:如何通过一种基于 Partition 统计信息的 Shuffle Operator来减少Iceberg中的小文件产生。

杨金德 哔哩哔哩 高级开发工程师

个人介绍:21年硕士毕业于德克萨斯大学奥斯汀分校,现就职于B站基础架构部OLAP平台组,从事湖仓一体方向的研发。

演讲题目:哔哩哔哩基于 Iceberg 的智能数据组织优化实践

演讲提纲:B站湖仓一体团队基于Iceberg实现了多种查询优化技术,这些技术对用户来说理解门槛高,如何让用户低成本地使用这些技术实现查询加速?本次演讲将介绍B站基于Iceberg的智能数据组织优化实践。首先介绍B站湖仓一体平台架构和现状,然后介绍智能数据组织优化的项目背景,以及基于用户查询历史的实现方案,最后介绍项目的落地情况和未来的规划。

听众收益:

1. 如何降低 Iceberg 表的用户使用门槛,提升查询体验?

2. 如何将 Iceberg 表数据组织的配置自动化、智能化?

数据湖真的取代数仓了吗?扫码免费报名观看直播

数据湖真的取代数仓了吗?

数据湖真的取代数仓了吗? 点击『阅读原文』免费报名观看直播~

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy