谈了多年的 Data Fabric,我们终于见到了国内最佳落地实践

560次阅读
没有评论

 引言

在当今迅速发展的数字化时代,数据已成为推动企业创新和竞争力的关键资产。随着数据量、数据需求和用数人群的爆炸式增长以及数据类型的多样化,传统的数据管理方法面临着前所未有的挑战。在这样的背景下,Data Fabric 应运而生,它不仅是一种数据技术架构,更是一种全新的数据管理理念。Data Fabric 通过实现数据的动态集成、快速访问和主动治理,提供了一种更加高效和灵活的方式来应对日益复杂的数据环境。

然而,Data Fabric 架构思想在国内一度因落地路径不够清晰而无法被市场广泛认知与接受。最近,一家数据管理领域的创新团队通过多个头部金融客户的落地案例,为 Data Fabric 架构思想在中国的真正落地提供了最佳实践。

Aloudata,作为数据管理领域的创新者,基于创始团队在 EB 级数据管理领域的深厚经验,开创性地提出了“NoETL”这一独特的数据架构思想。这种方法与 Data Fabric 的核心理念与技术实现高度一致,旨在减少或者消除传统的基于人工的 ETL(提取、转换、加载)过程,通过数据管理过程的高度自动化,实现更加高效的数据交付、使用与治理。

在这篇文章中,我们将深入探讨 Aloudata 对 Data Fabric 的理解,讨论 Data Fabric 和 Aloudata 提出的“NoETL”之间的关系,以及 Aloudata 是如何设计并落地符合 Data Fabric 理念的数据管理架构。通过这篇文章,读者将能够获得对 Data Fabric 这一前沿理念的深入理解,并了解 Aloudata 如何将这一理念转化为切实可行的数据管理解决方案。 

 Data Fabric 的定义和重要性

Data Fabric 不是单一技术,而是一套综合的数据管理架构思想,涵盖了一系列技术和方法。这个架构思想的核心在于优化跨源异构数据的发现与访问,实现数据的灵活且业务可理解的交付。Data Fabric 的关键在于连接数据而非集中数据,强调自助服务而非专家服务,以及主动智能而非被动人工操作。这种架构通过集成数据管理功能,如发现、治理、管理和编排,并运用 AI 能力进行语义探索、分析和推荐,从被动的数据治理策略转变为主动的数据治理策略。这样的转变不仅加快了数据价值实现的速度,还提高了业务适应性、数据洞察的敏捷性,有效消除了数据孤岛,降低了成本和风险,增强了业务协作和数据安全。

Gartner 连续三年将 Data Fabric 列为 “十大数据和分析技术趋势”之一,甚至是“2022 年十大战略技术趋势”之首,其重要性在于其对企业数字化转型的支持。随着数据和技术的快速发展,企业对数据的依赖日益增强。Data Fabric 提供了一个框架,用于管理和优化这些日益复杂的数据环境,确保数据可以被有效地发现、访问和利用。这对于提升数据驱动决策、加速创新和优化客户体验至关重要。通过将分散的数据集成为一个统一的、可访问的平台,Data Fabric 使企业能够更快、更准确地回应市场变化和客户需求,从而提高竞争力。

Gartner 指出,在未来 3 至 5 年内,智能化、新数据格式和规模化将是数据管理的关键趋势。Data Fabric 的设计正好满足了这些需求,它通过无缝访问、集成、建模、分析和数据提供来处理数据。Data Fabric 的设计不仅是对当下问题的临时解决方案,而是对现代数据环境所带来挑战的可扩展和长期解决方案。它确保数据的有效管理、安全性以及符合治理标准(引用)IBM DeveloperWhat is a data fabric? | IBM

 NoETL:Aloudata 的独特创新

拥有 20 年数据管理技术与经验积累的 Aloudata 团队深刻理解 Data Fabric 理念的问题定义、价值主张和架构设想,结合自身深厚的数据工程架构实践经历,首倡“NoETL”架构理念,推出全新的“NoETL”驱动的新一代数据工程架构,致力于让 ETL 工程师和数据分析师可以无需关心数据拷贝、任务运维和性能优化,实现零等待全域分析、全自动数据更新、自优化查询加速和主动的元数据服务。

1.Aloudata 推出的新一代 NoETL 数据工程架构主要有 4 大特性:

No Pipelines:去管道,无需关心数据位置

Aloudata 通过数据虚拟化技术,实现多源异构数据查询和透明数据集成,大幅削减了数据搬运,控制了数据管道的无序增长。BI 分析师减少了对 ETL 工程师的单向依赖,不需要再关心数据实际存放位置,也不必再搭建复杂的 ETL 数据管道,直接通过 SQL 定义逻辑数据集就能够自助对全域数据进行准备和分析。

No Tasks:免运维,无需操心任务运维

无需 ETL 工程师配置 ETL 任务和运维 ETL 任务,Aloudata 能够通过对用数行为的收集和观察,实现数据生产链路的智能编排、运维和治理,针对重复、相似计算进行自动合并,针对无效、低频、低价值数据的生产任务进行降权或下线,“以销定产”,大幅节省管理投入。

No Cubes:自优化,无需担心查询性能

Aloudata 提供业界领先的语义化建模能力,结合数据虚拟化引擎,业务分析师也能自主完成逻辑数据集的准备与分享、指标口径的定义与管理,而无需依赖 ETL 工程师通过开发宽表与汇总表的形式交付数据集和指标,也无需 ETL 工程师依据数据分析场景制订针对性的数据加速方案,进行 Cube / 索引的人工构建。新一代 Aloudata NoETL 数据工程架构系统内置场景化的查询加速方案和查询加速策略,自动化完成逻辑数据集和指标的预计算和加速服务,从而改变数据生产与数据消费的协同关系,实现 Data Fabric 的“自助服务,而非专家服务”的价值主张,显著提升业务用数效率。

Active MetaData:从被动到主动,实现数据管理的“自动驾驶”

传统被动元数据仅收集技术元数据,依赖数据工程师手工录入维护数据背后的语义知识,被动等待被查阅使用。而主动元数据则采集一切与数据资产相关的元数据,并进行主动持续的分析和理解,自动填充数据描述和业务语义,进而在数据生产、消费、运维和管理的各个环境中提供智能建议,甚至直接应用自动化管理策略,从而实现更精细更智能的数据管理。

2.Aloudata 认为要实现上述 4 大特性,关键是构建 3 大引擎能力。

这 3 大引擎能力是:数据虚拟化引擎、数据语义引擎和主动元数据引擎。

2.1 数据虚拟化引擎

数据虚拟化引擎无需搬运数据、无需操心模型的物理实现,实现不同来源、不同格式数据的逻辑化集成整合,实现全域数据的动态集成、自动物化链路编排和智能查询路由。该引擎的关键技术特性包括:

  • 逻辑数据集成整合:无需物理搬运数据,无需关心底层复杂性,逻辑化集成企业所有系统中的孤立数据,不受数据位置、格式或延迟限制;并支持通过标准 SQL 定义逻辑数据视图,支持多级视图嵌套,满足复杂场景数据整合诉求,实现企业多数据源的实时访问与融合分析,极大释放数据价值潜能。

  • 自适应物化加速:基于对全域逻辑数据视图定义和用户查询行为的解析,构建全局算子图谱,并实现基于代价的投影构建规划,智能识别枢纽节点,并自动合并相似关系投影存储、下线低收益预计算任务和存储,获得比传统 ETL 方案至少 50% 的成本节约以及更快的数据时效。

  • 增量数据更新:可基于上游数据变更和逻辑数据视图定义变更,自动对关系投影进行更新,而无需用户手动创建和触发 ETL 任务。通过上游数据更新事件触发或对元数据的变更监听,可自动推断增量变更,以及自动分区推导,完成大规模数据的下游数据增量更新,免除业务人员对数据更新的关注。

  • 智能查询下推:基于底层数据库特性、数据规模、查询复杂度及查询性能要求,智能路由至物化加速结果或直接下推至底层查询引擎。

谈了多年的 Data Fabric,我们终于见到了国内最佳落地实践

图(1)数据虚拟化引擎示意图 

2.2 数据语义引擎

数据语义引擎作为企业数据资产的语义结构化引擎,为企业面向数据消费与应用场景提供某一指标或数据集的定义并返回其数值,实现全域口径一致的数据服务。

  • 强大的语义表达和分析能力:通过将企业中数据库、数据仓库或数据湖中的表、列等技术语言转换为业务用户可以理解的数据模型、维度、度量或指标。语义引擎提供超 10 大类的函数,不仅包括基础的文本函数、数学与三角函数、日期与时间函数、聚合函数、逻辑函数、窗口函数等,还包括高阶的数据分析函数,比如计算调节函数库、预聚合函数库、同环比函数库等。

  • 语义查询加速能力:数据语义引擎基于用户定义的数据模型、指标、维度关系,从数据语义查询的场景出发构建和生成查询加速策略,包括查询 SQL 的生成与拆分、中间查询结果的二次计算、物化加速策略的生成与执行等。

  • 多种语义服务能力:由于数据语义的消费场景复杂多样,比如有各类 BI 工具、Excel、数据大屏等,需要基于统一的数据模型提供多种不同形式的指标查询服务,如 Restful API、JDBC/ODBC、GraphQL、SDK 等,便于不同的应用或工具与语义引擎进行对接。

谈了多年的 Data Fabric,我们终于见到了国内最佳落地实践

图(2)数据语义引擎示意图

2.3主动元数据引擎

主动元数据引擎作为全域元数据的统一接入、分析、挖掘和服务引擎,可收集一切与数据资产相关的元数据(如技术元数据、业务元数据、操作元数据和社交元数据等),并基于独有的算子级数据血缘解析技术和元数据语义挖掘技术,对所收集的元数据进行主动分析和挖掘,并在数据发现、生产、消费和管理等各环节提供全面准确的元数据及高置信智能建议,十倍提升数据生产和消费效率,从而让复杂数据链路看得清、管得住、治得动,实现更精细更智能的数据管理。

该引擎的关键技术特性包括:

  • 算子级血缘解析:基于语义分析技术实现对 SQL 脚本的算子级自动解析和算子级血缘图谱构建,实现了对全域字段计算语义的精准刻画,无论是数据的输入、输出、转换、计算还是存储,每一个环节都能被精准地追溯和刻画,让数据在整个生命周期中的流向和处理过程一目了然。

  • 元数据语义挖掘:自抽取字段算子级加工口径,并能结合上下游元数据信息挖掘出数据背后的业务语义,自动生成数据的业务描述,而无需数据专家手工维护。同时,该技术还能够对元数据进行聚类、分类和关联分析,实现对全域数据的自动判重和自动编目,从而形成一张语义化的元数据图谱,促进组织内的数据知识流动、共享与沉淀。

  • 主动元数据服务:基于对元数据的深入分析和挖掘,还可为用户提供高置信的建议或设计方案,如通过挖掘行为元数据为用户提供数据使用建议,通过分析链路冗余依赖提供链路时效优化建议,通过分析全链路历史变更提供异常根因诊断辅助等等,帮助用户更好地管理和使用数据资产。

  • 反向元数据集成:提供各类元数据服务 API 及血缘可视化分析组件,可与客户的数据资产管理平台及数据工具无缝集成,无需改变用户现有使用习惯,实现了数据治理能力的透明化升级。 

谈了多年的 Data Fabric,我们终于见到了国内最佳落地实践

图(3)主动元数据引擎示意图

Aloudata 依托自主研发的数据虚拟化引擎和主动元数据引擎推出“NoETL”驱动的新一代数据工程平台及三款核心产品

谈了多年的 Data Fabric,我们终于见到了国内最佳落地实践

图(4)Aloudata NoETL 数据工程平台示意图

 Aloudata NoETL 架构与 Data Fabric 的关系 

Aloudata 的 NoETL 架构与 Data Fabric 理念是高度一致的。Data Fabric 作为一种数据管理架构思想,重点在于提供灵活、高效的数据整合与访问方式,以及智能化的数据治理。Aloudata 的 NoETL 架构则是这一思想的具体实现,通过引入创新技术和新的工作流程,提升了数据处理的自动化和智能化水平,从而在实际应用中为 Data Fabric 构建了一条系统性的落地路径。 

1.数据访问和整合

Data Fabric 强调的跨源异构数据的灵活访问和整合,在 Aloudata 的 NoETL 架构中通过数据虚拟化技术得到体现。数据虚拟化技术使得 Aloudata AIR 能够提供一个统一的数据访问层,实现了不同数据源之间的逻辑动态集成,而无需物理地移动数据。同时内置 MPP 引擎,通过 AI 增强的自适应加速能力,由系统自动化完成 ETL 数据物化链路编排和智能查询路由。这种方法不仅减少了数据搬运带来的成本和复杂性,而且还提升了数据访问的速度和灵活性。 

2.智能化的数据治理

Data Fabric 的另一个核心要素是智能化的数据治理。Aloudata BIG 通过其主动元数据平台和算子级血缘解析能力,提供了智能化的数据管理和治理解决方案。这个平台不仅可以自动化地收集和分析元数据,还能主动提出改进和优化的建议,从而简化了传统数据治理过程中的人工干预和复杂操作。 

3.自助服务和分析

Data Fabric 倡导自助服务和高效协作,这在 Aloudata CAN 中得到了充分体现。通过 Aloudata CAN,用户可以直接定义和管理指标,实现了从指标定义到生产的全自动化过程。这不仅提升了业务人员的自助服务能力,还实现了指标管理的一致性和复用性,降低了 IT 部门的工作负担。 

Aloudata 通过 NoETL 架构成功地将 Data Fabric 理念转化为可操作的技术和流程。这种架构不仅解决了传统数据处理方法中的效率和灵活性问题,还为企业提供了一种全新的方式来管理和分析数据。Aloudata 的 NoETL 架构不仅为企业的数据管理带来了革命性的变革,也展示了 Data Fabric 理念在现代数据环境中的实际应用和潜力。 

 案例分析

目前,Aloudata NoETL 产品和解决方案已在多家行业头部企业落地,以下是部分客户案例的简要介绍。

  • 某股份制银行基于精准列算子血缘分析技术的模型优化和变更协同应用实践

通过 Aloudata BIG 主动元数据平台,构建了从源端到消费端的全链路算子血缘图谱,并将列算子血缘分析技术整合到大数据研发平台、实现了 ETL Copilot 功能,应用到模型优化和变更协同等场景,服务全行数据开发人员:在数仓重构项目中,辅助开发人员主动发现模型优化机会,大幅提升模型重构效率,推动数仓快速实现资产数量下降 40%、平均链路缩短 50%;在日常链路保障场景中,自动监测上游变更,自动评估精准到字段的端到端影响,帮助运维人员预防或快速定位数据风险,让上下游协同丝滑衔接。该实践为同业解决类似数据管理“老大难”问题提供了思路和方法,利用精准的列算子血缘分析能力,创新性地解决了以往依赖大量专家和经验才能实现效果的模型优化和链路保障难题。通过与研发平台等工具产品的集成,可以推广辅助更广泛的人群进行研发提效、质量保障和数据智能应用。

  • 某股份制银行敏捷数据服务体系建设实践

通过 Aloudata AIR 逻辑数据平台,构建了敏捷数据服务体系。用户只需专注于业务目标的理解,无需关心底层复杂的物理实现,以零数据拷贝的方式轻松实现多源异构数据的逻辑集成与整合,并支持多级视图嵌套,以及灵活的数据聚合与关联;同时,通过 AI 增强的自适应物化加速能力,实现自动物化链路编排和智能查询下推,大幅降低数据开发复杂性,简化自助数据准备的过程和提升结果的用户体验,不依赖 ETL 工程师准备应用层数据,实现全新的数据集成、整合与分析方案。用户使用敏捷数据服务体系,自助交付数据视图占所有新增数据视图的比例达到 65%,业务自助交付数据视图的模式将需求交付周期由 2 周缩短至 1 天,交付效率显著提升。敏捷数据服务体系自投产以来,在零售、批发等条线的数据产品中试用推广,自助化程度的提升和海量数据加速效果,为总分行数据融合、亿级客户分析等用数场景提供了新思路。

  • 某证券公司 NoETL 敏捷分析解决方案

基于 Aloudata AIR 逻辑数据平台,将外部采集数据、业务数据库数据(MySQL、Oracle、SQL Server等)以及对象存储数据逻辑数据集成,无需做一对一的数据复制,无需构建传统数仓的 ODS 层;基于基础视图(即业务库源表的映射)定义逻辑数据视图,实现跨源数据整合,过程中无需关心数据存储和计算调度等细节,也无需物理拷贝数据。

基于Aloudata AIR 逻辑视图,通过 Aloudata CAN 实现指标规范化定义和自动化生产,一方面 100% 消除指标二义性,实现了指标口径全局一致和指标共享复用;另一方面通过自动化的指标生产规避了大量的人工 ETL 工作,并通过 API/JDBC 开放化接口对接外部的报表、分析工具及各类应用,实现指标的“一次定义、处处可用”。该方案零数据搬运实现 10+ 个不同数据源、上万张表的快速集成与整合,将指标交付速度从周快进至分钟,存算成本节约 70% 以上,成为数仓构建新形态。

从多个行业不同客户的实践可以发现,基于 Aloudata NoETL 技术构建未来新一代数据工程架构,企业可以获得:

●10 倍以上数据化运营效率,Aloudata 重新定义了数据工作方式。无需等待数据同步和漫长 ETL 排期,人人皆可自助发现可信数据,随时进行全域数据探索和数据准备,实现企业数据化运营的极致敏捷。

●最高 100 倍数据湖分析性能,Aloudata 提供相比 Presto、Impala 等开源方案 2 倍以上的数据湖查询性能。通过智能加速技术,最高可实现 100 倍性能提升,带来交互式的数据分析体验。

●50% 以上存储成本节约,Aloudata 基于对象存储技术构建数据湖,相比开源 HDFS 方案成本节约近 2/3,同时通过对无用数据存储的自动回收以及对相似数据存储的自动合并,大幅降低存储成本。

●70% 以上管理成本节约,Aloudata 实现了主动元数据驱动的智能化、主动式、持续式数据管理,让数据管理走向“自动驾驶”,大量节省在数据治理和风险应对上的管理投入。

 总结 

通过本文的深入探讨,我们不仅了解了 Data Fabric 作为数据管理架构思想的重要性,还见证了 Aloudata 如何通过其创新的 NoETL 架构将这一理念转化为实际可行的解决方案。Aloudata 的产品和服务不仅在技术层面实现了创新,更在业务流程和数据治理上带来了显著的变革。 

Aloudata 通过其 NoETL 架构,在数据管理领域展现了显著的创新力。Aloudata AIR、BIG 和 CAN 等产品不仅体现了 Aloudata 对 Data Fabric 理念的深刻理解,而且在实际应用中展现了其强大的功能和效果。这些产品帮助客户克服了数据孤岛问题,实现了数据的高效整合和利用,同时提升了数据治理的智能化和自动化水平。 

Aloudata 成功地将 Data Fabric 理念应用于现实世界的复杂数据环境中。通过其产品和技术,Aloudata 为客户提供了一种更加智能、灵活和高效的数据管理方式。这种方式不仅提高了数据的可访问性和使用效率,还使得数据治理变得更加简单和高效。 

随着数据的日益增长和复杂性的提升,Data Fabric 理念及其实践,如 Aloudata 的 NoETL 架构,将在未来的数据管理领域发挥更加重要的作用。预计在未来三到五年内,Aloudata 的客户案例和解决方案将形成一种范式效应,为整个行业的数据管理带来深刻的变革。 

2023 年 12 月 15 日,Aloudata 将携其 NoETL 产品家族正式亮相,全面展示一个面向未来的数据管理和数据工程新范式。见证行业变革的重要事件,不容错过。

谈了多年的 Data Fabric,我们终于见到了国内最佳落地实践

关于 Aloudata

Aloudata(大应科技)是一家自动化数据管理软件提供商,国内 Data Fabric 架构理念引领者,以“让数据随时就绪”为使命,致力于消除数据管理技术瓶颈,提升 ETL 工程自动化水平,助力企业平滑升级至下一代大数据基础设施。

目前,Aloudata 基于NoETL 数据管理架构理念推出的 Aloudata AIR 逻辑数据平台、Aloudata BIG 主动元数据平台、Aloudata CAN 自动化指标平台产品已在多家头部企业的复杂数据环境中落地,成功交付了多个 Data Fabric 最佳实践。

Aloudata 成立于 2021 年 5 月,总部位于杭州,在北京、成都、上海、深圳设有分公司。创始团队全部来自蚂蚁原数据平台部的核心团队。公司联合创始人兼 CEO 周卫林是蚂蚁集团数据技术主要奠基人,曾孵化多个进入 Gartner、Forrester 领导者象限的拳头产品。公司产品、技术和业务负责人均有 10+ 年数据领域工作经验,从事过数据研发平台的设计开发、ZB 级数据管理运营、数字化精准营销与用户运营、智能推荐、实时风控、智能投顾和数据动态脱敏加密等工作。

Aloudata 已获得红杉中国种子基金的天使轮投资和博华资本领投、红杉中国种子基金跟投的 Pre-A 轮融资。   

*点击文末“阅读原文”抢先预约发布会直播,和 Aloudata 共话“NoETL”。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy