数据湖三剑客有哪些最新进展?
Paimon、RisingWave等数据湖新贵处在什么位置?
如何设计一个高性能的流式湖仓?
LLM时代,数据湖的新范式?
数据湖在实际业务场景中落地效果如何?
23年,随着Paimon、RisingWave等新技术问世,隐隐有打破数据湖三剑客的局面,在平静的湖面上,掀起了波浪,所谓风浪越大,鱼越贵!我们DataFun将在3月9日举办一年一度的数据湖架构峰会,届时将邀请领域内技术专家围绕Hudi、Iceberg、Delta Lake、Paimon等核心数据湖技术分享最新的技术实践以及在企业真实业务场景中的应用。欢迎感兴趣的小伙伴识别二维码报名:
活动日程
议题详情
主题演讲:数据湖的全新演进
刘兆磊 Databricks 资深软件工程师
个人介绍:现任 Databricks Delta Lake 组元数据软件工程师,负责开源存储格式和优化。
演讲题目:开源 Delta Lake 3.0 优势和发展
演讲提纲:涉及开源 Delta Lake 3.0 主要的功能提升和 Delta Lake 未来开源的发展方向,讲明 Delta Lake 在统一数据湖格式上的一些工作 delta universal format。
听众收益:怎样选择合适的数据湖存储格式,delta vs hudi vs iceberg
高性能流式湖仓论坛
出品人:马年圣 蚂蚁集团 实时数仓架构师,数据技术专家
个人介绍:马年圣,毕业于河海大学,先后就职于网易、阿里、蚂蚁等互联网公司,当前工作重心在实时数据研发和架构,负责蚂蚁集团广告、决策等领域实时数据。
陈梓麟 RisingWave Labs 内核研发工程师
个人介绍:本科毕业于中山大学软件工程专业,曾就职于阿里云从事分布式数据库PolarDB-X内核研发4年,现就职于RisingWave Labs从事流数据库RisingWave内核研发。主要工作方向:SQL查询优化器,分布式计算。
演讲题目:基于RisingWave构建流式湖仓
演讲提纲:
1. RisingWave 介绍和使用场景
2. 实时数据入湖 — Iceberg 写
3. 历史数据批量导入 — Iceberg 读
4. 核心技术内幕
5. 未来与展望
听众收益:
1. 如何以数据库体验来进行流处理开发
2. 如何利用对象存储降低流处理成本提升效益
3. 如何使用 RisingWave 进行实时数据入湖
4. 如何使用 RisingWave 查询湖仓中 Iceberg 表数据
陈卓宇 小红书 开发工程师
个人介绍:陈卓宇 小红书 开发工程师,Apache Paimom Contributor。
演讲题目:Paimon 架构下的数据湖探索
演讲提纲:
1. Paimon 是什么?
2. Paimon 适用场景
3. Paimon 架构设计
4. 数据入湖:讲述数据入湖的核心流程和基本实现原理
5. Primary Key 表的实现:讲述数据的分布、聚合表引擎实现原理
6. Paimon Tag 机制、最佳实践
7. 未来工作方向 load action、 外键打宽
听众收益:
1. Paimon 是什么?能干什么?
2. Paimon 架构设计
3. 讲述数据入湖的核心流程和基本实现逻辑
4. 讲述 Paimon PK 表数据的分布组织形式、聚合表引擎实现原理
5. 讲述 Paimon Tag 机制、最佳实践
扫码免费报名观看直播
湖仓一体架构论坛
出品人:张静 快手大数据平台架构师
个人介绍:张静,快手大数据平台架构师,Apache Flink/Calcite/HUDI Committer,11年大数据方向从业经验,曾就职于百度和阿里,专注于分布式计算引擎、SQL优化器和数据湖方向。
祝佳俊 网易严选 资深服务端开发
个人介绍:浙江大学硕士毕业后入职网易严选,主要负责数据治理、数据湖等相关平台的开发工作。
演讲题目:严选湖仓一体建设实践
演讲提纲:主要介绍严选如何使用 Iceberg 的湖仓一体的建设实践,主要包括:
1. 如何增强 Iceberg 时间旅行特性,满足严选业务场景,提升数据入仓效率
2. 如何使用 Iceberg 来缩短数据加工链路,提升产出效率
3. 实现并使用 Iceberg 的物化视图,提升数据时效性
4. 未来规划
听众收益:
1. 如何对 Iceberg 的时间旅行特性增强,支持查询精准时间快照数据?
2. 如何实现 Iceberg 的物化视图?
3. 如何使用 Iceberg 来降本增效?
徐昱 vivo 大数据工程师
个人介绍:毕业于南京邮电大学,计算机硕士学历。现就职于vivo大数据基础平台部,近几年一直负责底层计算组件优化等相关工作。当前负责vivo湖仓一体化相关组件及平台能力建设。
演讲题目:vivo 湖仓一体构建历程
演讲提纲:
1. 批流链路统一架构设计及收益
2. 数据湖组件能力拓展
3. 数据湖未来展望
听众收益:
1. 湖上增效降本业务实际场景运用
2. 数据湖组件相关更新、查询优化思路
3. 数仓到湖仓的转化思路
梁溪 腾讯 微信视频号 高级大数据工程师
个人介绍:2018年硕士毕业于电子科技大学,2019年加入腾讯,目前在视频号中心担任高级大数据工程师,主要负责视频号实时湖仓架构设计和开发迭代。
演讲题目:实时湖仓在视频号场景的应用实践
演讲提纲:
1. 背景介绍
2. 应用实践
3. 项目总结
4. 未来展望
听众收益:
1. 接入数据湖后,使用廉价的 hdfs 资源置换了诸如 kafka/redis 等 pass 服务所耗的资源
2. 基于流转批、MOR、merge into 技术实现批调度时延降低4倍以上,指标产出时延减少 3h 以上
3. 简化链路及统一代码,实现人力成本约节省30%以上,计算成本节省约15%
扫码免费报名观看直播
湖仓治理论坛
出品人:洪帅 京东 资深技术专家
个人介绍:目前负责京东零售营销运营体系的数据资产及数据产品建设,在数据平台技术架构、实时计算、数据集成、数据治理等领域具备丰富的实践经验。从京东数据体系内部成长起来的专家,积极推广数据湖技术在京东零售数据体系的落地,推动优化资源利用率低、弹性能力差、智能化程度低等问题探索及实践,提升数据的产出时效以及架构稳定性保障。
湖仓最佳实践论坛
出品人:黄雪源 eBay 实时计算部门开发经理
个人介绍:黄雪源,eBay 大数据平台实时计算部门经理,领导团队构建实时计算解决方案,为支付、风控及广告等核心业务部门提供高可用的流计算和消息中间件服务,打造下一代的实时数据湖。曾在微软任职开发工程师及产品经理,致力于提升 Azure 的生态和开发体验,为开发者提供高效易用的开发工具。本硕毕业于南京大学软件工程系。
董丽婷 爱奇艺 高级研发工程师
个人介绍:2018年毕业于清华大学,毕业后加入爱奇艺广告团队,主要负责广告数据实时数仓建设。
演讲题目:爱奇艺广告数据湖实践
演讲提纲:
1. 背景介绍(爱奇艺广告数据的基本情况和特征)
2. 现状(当前架构以及遇到的难点痛点)
3. 数据湖相关应用场景
4. 未来规划
听众收益:
1. 如何通过数据湖构建实时数仓
2. 广告主相关等业务数据如何实时检索
3. 如何解决数据湖小文件等问题
扫码免费报名观看直播
点击『阅读原文』免费报名观看直播~