带你轻松理解数仓为啥分层?

1,053次阅读
没有评论

本文介绍了数仓的分层结构和分层的原因。通过分层,可以使数据处理更加规范、高效,提供可靠的数据支持。让我们一起学习一下~

带你轻松理解数仓为啥分层?

一、数仓一般分哪些层?

操作数据层:ODS(Operational Data Store)

把操作系统数据几乎无处理地存放在数据仓库系统中。

事实明细层:DWD(Data Warehouse Detail)

DWD 层是在ODS层基础上,根据业务过程建模出来的事实明细层。

公共汇总层:DWS(Data Warehouse Summary)

一般根据维表数据和明细事实数据加工生成,作为通用的数据模型使用。

应用数据层:ADS(Application Data Store)

存放数据产品个性化的统计指标,根据明细层、汇总层及维表数据加工生成。

关于啥是数仓分层这里就不多介绍了。

首先我们先了解数仓分层现状:

各大企业数仓都是咋分的?有啥区别?

带你轻松理解数仓为啥分层?

经过整理各大企业的数仓分层情况,经过对比可以发现:

不同点:

  • 命名有些不同,有的叫“a”,有的叫“A”。所以当我们遇到看不懂听不懂的命名时,就可以轻松识破啦。
  • 分层数不同,有些4层,有些5层,每层对数据处理有些许差异,比如在贴源层会进行3NF建模,猜测是接入业务系统太多,有些系统的表设计不符合规范,难以理解,在这层进行统一梳理。

相同点:

都包括贴源层、明细层、汇总层、应用层。都遵循维度建模理论,数据处理的流程本质上一样的,先拆分梳理再聚合汇

3NF建模可参考上篇文章的描述:https://www.woshipm.com/data-analysis/5885754.html

二、数仓为什么分层?

回答这个问题前,我们可以先思考如果不分层会怎么样?不分那么多层会怎么样?

1. 如果不分层会怎么样?

假设我们把数仓里的表都拍平,没有分层概念,业务源数据经过简单的数据清洗,加载到数据仓库中,直接应用于数据分析。

好处:数仓与业务系统隔离,数据分析不会直接影响到业务系统。

坏处:

  • 分析难:集成系统的开发规则,规范程度、统计口径都不一致。你还要去做数据关系映射,了解原业务系统的数据逻辑。无法对数理逻辑进行沉淀,每次分析都要重头准备数据。
  • 分析慢:由于业务系统是遵循范式建模的,发现关联了一堆表才能完成分析需求,分析效率极低。

2. 不分那么多层会怎么样?

看情况,当数据少,分析需求少,可以不去分dw层,ods直接加工到ads层,我们刚开始就是这样干的。

发现好像也不是不行啊,数据直接加工到ads层,上层应用查询效率也够用哈。

此时的好处:省事,成本很低,效率很高,数据出错改的也很快。

此时的坏处:

  • 没有公共逻辑沉淀,口径不统一,维度不统一,单个需求处理起来依然很麻烦。
  • 会造成重复开发,当有口径变动时,需要改动多处。
  • 无法满足更多的分析需求,拓展性极差,随时面临重构的风险。

由此我们可以推演出为啥要进行数仓分层?

  • 隔离原始数据:将业务数据与统计分析数据解耦,屏蔽相互之间的影响。
  • 清晰数据职能(把数据条理化):让每个数据层都有自己的作用和职责,将一个复杂的任务拆解成多个步骤来分步骤完成,每个层只解决特定的问题,在使用和维护的时候能够更方便和理解。(ODS层与业务数据保持一致即可,方便溯源数据问题,不影响业务数据库;DWD基于业务过程拆分数据,清洗数据,适当冗余维度;DWS层为了减少重复开发,沉淀可复用型指标;ADS面向应用提供数据)
  • 提高数据获取的效率:将海量数据的复杂关联查询结果提前计算好,提高计算效率。
  • 减少重复开发:规范数据分层,开发通用的中间层,可以极大地减少重复计算的工作。

既然有好处,那肯定也会有坏处,鱼和熊掌不可兼得!

  • 它需要更多的人力成本和时间成本来设计和实现。
  • 它对模型的维护提出了更高的要求。比如层级越多,溯源就越麻烦。
  • 数据的重复存储,数据需要在各个层级进行计算存储。

 三、我们怎么去更好的理解数仓分层?

以卖早餐为例:

如果你在一个小巷子里,客户就是周边的邻居,你从选购食材,清洗食材,烹饪食材,然后摆出各种类型的早餐去售卖。

数据产品经理在这个过程中,就扮演着厨师的角色,如果我么要做一个韭菜盒子,就需要去了解哪些食材是我们需要的,“韭菜+粉丝+豆腐+面粉”对吧,韭菜别买成芹菜了,豆腐要买老豆腐,韭菜买回来得洗一下,粉丝得先泡一泡,豆腐要切成豆腐碎,还得和面。准备工作完成,就开始剁菜馅,切得碎碎,然后在包起来,下锅炸,最后摆盘售卖。

按部就班的将原材料加工成客户需求的产品。

【拓展思考】

分层也是一种分工协作,把一件复杂的事情模块化,简单化,提高可管理性,可维护性。

还是以卖早餐为例:

如果你是在陆家嘴地铁口售卖早餐,那么你最多就是卖包子,卖豆浆,其他环节可能都交给中央厨去统一处理了。你只需要卖好包子就行。

本文由 @清小墨 原创发布于人人都是产品经理,未经许可,禁止转载

题图来自 Unsplash,基于 CC0 协议

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 8 月
 123456
78910111213
14151617181920
21222324252627
28293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...