元数据管理的架构视图

如今,大多数组织都认识到积极而规范的数据管理的重要性。他们将数据视为资产,并通过治理和架构标准与控制来管理数据。但问题是,与此相反,大多数组织对元数据管理的态度是被动和随意的。

数据团队通常将数据目录视为元数据需求的解决方案。从架构角度来看,很明显数据目录只是解决方案的一部分,而且它们往往也是问题的一部分。组织将数据作为资产进行管理,但将元数据视为数据管理流程的副产品。这种“数据被管理,元数据产生”的方法充满风险。随着数据管理复杂性不断增加,元数据管理已成为一门必不可少的学科。

在本文中,我将这种架构视图作为一种思考工具,即一种开始了解元数据管理的范围和复杂性的方法。它并不能解决所有元数据管理挑战。它是一个开始,而不是结束,也是一个开始寻找元数据挑战解决方案的工具,例如孤岛、差异、自助服务困难和数据目录采用率低下。

一 元数据管理架构的宏观视角

让我们先从元数据管理架构的总体视角开始。(见图1。)从宏观层面来看,元数据管理包括三大主题:

元数据主题和来源是指元数据描述的事物(主题)以及元数据的衍生或创建来源(来源)。这些包括组织管理的数据清单以及管理数据的过程。

元数据生命周期是元数据从开始,经过各个处理和管理活动阶段,直到消费和使用为止所遵循的路径。

元数据管理流程和产品是管理元数据所执行的任务和活动以及这些任务和活动的有形成果。

图1.元数据管理架构宏观视图

二 深入探讨元数据管理架构

现在让我们仔细看看元数据管理架构的每个组件。

1.元数据主题和来源

如上所述,元数据主题和来源包括所管理的数据清单以及管理这些数据的流程。典型组织的数据清单非常庞大且多样化。(见图2。)它既包括用于业务运营的运营数据,也包括用于衡量和管理业务的分析数据。运营数据和分析数据都由内部生成的企业数据以及从合作伙伴和数据提供商处获取的外部数据组成。

图2.数据清单

数据清单显然是元数据的主要主题。它涵盖了元数据所描述的大部分内容——名称、含义、规则和约束等。重要的是要认识到清单也是元数据的来源。AI/ML算法可用于从清单中提取元数据,其形式包括语义推理、隐私和安全敏感数据的标记、显示数据关系的知识图谱以及其他类型的自动元数据发现。

元数据主题和来源还包括用于管理数据库存的数据管理流程。(见图3。)这些包括(但不限于)操作系统、数据仓库、数据湖管理、主数据管理、数据质量管理和数据可观察性的流程。

图3.数据管理流程

数据管理流程既是元数据的主体,也是元数据的来源。理想情况下,核心数据系统(运营、数据仓库、数据湖和MDM)建立在元数据基础(例如数据模型和数据定义)之上,旨在生成描述如何创建、更新和删除数据的元数据。数据质量管理和数据可观测性系统会生成有关数据特征和数据处理的额外元数据。

2.元数据生命周期

元数据生命周期是元数据从开始到使用所遵循的路径——经过元数据收集、元数据存储、元数据访问和元数据消费等活动。

元数据收集涵盖从来源和主题捕获元数据的所有活动。(见图4。)这些活动包括元数据创建、元数据发现和元数据获取。

图4.元数据收集

当流程创建新的元数据时,就会创建元数据。这些可能是计算机流程,例如将数据沿袭描述为元数据的数据管道执行,也可能是人工流程,例如系统设计中的数据建模、数据仓库设计中的源/目标映射以及用于描述和标记数据的数据治理流程。任何生成描述数据清单或数据管理流程的数据的任务或活动都是元数据的创建者。

当智能流程通过查看数据找到元数据时,就会发生元数据发现。发现可能以AI/ML代理的形式进行,这些代理会抓取存储的数据以提取元数据-例如发现数据语义。此过程也称为元数据扫描。发现也可能作为数据处理的一部分发生-例如智能数据湖摄取自动对带入数据湖的数据进行分类,以及在摄取时基于AI/ML自动标记数据。手动发现也可能作为数据科学家进行数据探索和数据质量分析师进行数据分析等活动的一部分发生。

元数据采集包括在元数据不易创建或发现时收集元数据的过程。采集是从人工和数字来源获取元数据的工作。这包括手动记录元数据(例如策展人注释)和众包元数据以捕获SME知识和数据消费者体验。采集也可能以元数据导入过程的形式发生,以获取由不易与企业元数据存储库或数据目录互操作的工具和流程创建的元数据。

元数据存储包括用于存储元数据的技术和存储元数据的位置。(见图5。)这些通常包括数据目录、元数据存储库、特定于工具的元数据存储以及文件和数据库管理系统(包括电子表格-一种常见但不理想的做法)。

图5.元数据存储

元数据存储是存在许多元数据管理问题的领域。请注意,上面列出的每件事都以复数形式表示-目录、存储库、元数据存储、文件系统、数据库管理系统。这就是元数据孤岛、冗余、不一致和混乱的问题。使用现代数据管理技术,多个元数据存储可能是不可避免的。供应商专有和工具嵌入的元数据、内置于数据准备和分析工具中的数据目录以及定制的元数据解决方案都导致了这个问题。从架构上讲,我们需要考虑元数据互操作性和指定的元数据记录系统概念,例如正式认可的企业数据目录。

元数据访问为人员和流程提供了查找和使用元数据所需的功能。访问通过数据目录、元数据连接器、元数据API和元数据查询提供。连接器和API可能由元数据管理工具提供,也可能由内部开发以简化访问并嵌入元数据的访问控制。

图6.元数据访问

当元数据以不同的形式存储在元数据孤岛中时,元数据访问困难(查找和访问元数据的问题)会变得更加复杂。从架构上讲,您可能需要考虑元数据注册表或元数据门户等解决方案来部分缓解这些困难。

元数据消费涵盖了人们、软件和计算机处理使用元数据的各种方式。(见图7。)元数据可以主动使用-即流程访问元数据并使用它来做出运行时决策。它也可以被动使用-人类访问以了解数据并做出有关如何使用数据的决策。

图7.元数据消耗

查找和理解数据是数据分析师和自助数据消费者的常见用例。管理数据生命周期是一项依赖元数据的活动,是数据管理员、数据管理者和自动化工具(例如数据湖管理和数据管道管理工具)工作的核心。报告、分析和AI/ML都依赖于元数据——无论是人工设计和开发过程,还是自动化操作和执行过程。

3.元数据管理流程和产品

元数据管理实践和产品是管理元数据所执行的任务和活动,以及这些任务和活动的有形结果。(见图8。)产品是元数据清单中的事物。实践是管理元数据的活动—执行的流程和执行的任务。

图8.元数据管理实践和产品

元数据清单包括业务元数据,用于描述语义和业务含义、将数据与业务流程关联起来以及描述建立数据约束的业务规则。技术元数据从技术角度描述数据,包括数据库模式、数据格式、数据类型、平台和存储位置以及数据实现的其他技术方面。操作元数据描述对数据进行操作的过程及其结果-例如,数据仓库中的数据转换和数据在数据管道中移动时的数据沿袭。社交元数据描述数据的人性化方面,回答以下问题:

谁是数据管理员?

谁是数据的频繁用户。

尽管有些人可能认为社交元数据琐碎或无关紧要,但在努力提高数据目录采用率时,建立人际关系尤为重要。

三 元数据管理的架构视图

将上面讨论的所有元数据管理部分整合在一起,创建图9所示的元数据管理架构。

图9.元数据管理架构

为了便于阅读,最好参考每个部分的单独图表。该图的目的是说明范围和复杂性(组件的数量及其之间的关系),这些使得元数据管理成为一项具有挑战性的工作。

这种架构视图作为一种思考工具——一种开始了解元数据管理的范围和复杂性的方法。它并不能解决所有元数据管理挑战。它是一个开始——而不是结束——并且是一种开始寻找元数据孤岛、元数据差异、自助数据困难、数据目录采用不佳以及许多其他元数据挑战的解决方案的工具。


您可能还会对下面的文章感兴趣: