元数据管理技术与咨询服务


3062217-84be4752a3c86ce0.png

元数据被广义地定义为“关于数据的数据”(即,存储数据的描述)。虽然这些定义不正确或不准确,但当人们需要组织,搜索和管理元数据以支持推动业务或组织运营的应用程序时,此定义过于宽松和含糊不清。

1.元数据分类

理论上,元数据分为四种类型:业务元数据,技术元数据,管理元数据和操作元数据。在实践中,我认为它可以分为以下几种类型。

系统目录元数据

关系数据库系统自动维护一种元数据,通常称为系统目录。系统目录是数据描述符,包括关系表,列表和使用表等表。关系表包括数据库中每个关系的列名,列表包括数据类型,长度,完整性约束(允许或不允许为空;唯一或不允许),等等。使用表包含有关编译代码何时无效且需要重新编译的信息。

关系元数据

关系元数据是指关于数据实体(即表)之间的关系的信息。关系包括:一个表中的列与另一个表中的列之间的主键 - 外键关系;在面向对象或面向对象的数据库(即IS-A)关系中类和它们的子类之间的通用/专用关系;实体与其属性之间的聚合关系;面向对象系统或面向对象数据库中类及其子类之间的继承关系;和任何其他特殊的语义关系,这意味着更新或删除依赖项。

内容元数据

内容元数据是以任何粒度存储的数据内容的描述。内容数据可以是单个对象(对于文本文档),表中的列或表。内容元数据可以像关键字一样简单,也可以像业务规则一样复杂,计算税收或佣金的公式或整个文档的链接。内容元数据是创建,读取和更新方面最耗费人力的元数据类型之一。

数据血统元数据

数据血统元数据是关于存储数据的生命周期数据。它包括有关数据创建(时间,人员,原因),后续更新(时间,人员,原因),转换,版本控制,汇总,迁移和复制的信息。它还包括转换规则以及迁移和复制的描述。就像内容元数据一样,数据血液元数据可以是任何粒度。数据血统元数据通常是关系元数据的一种形式,因为数据转换,迁移和复制意味着相同原始数据的不同表现形式之间存在依赖关系。例如,当在文档中找到错误数据时,不仅需要对文件进行更改,而且还需要从文件派生所有其他文件。

技术元数据

技术元数据是关于存储数据的技术信息。它包括格式(例如:医生,动画,用于创建或更新数据的软件(包括版本号),用于访问数据的API等。

使用元数据

使用元数据描述了用户和应用程序如何使用数据以及他们使用数据的原因。它通常被称为“业务数据”,因为目标用户通常是业务分析师。

系统元数据

系统元数据是整个系统环境的描述,包括硬件,操作系统,应用程序软件等。

处理元数据

流程元数据是应用程序操作流程的描述,以及流程每个步骤的任何相关输出。

我注意到,尽管其他作者和公司使用数据作为元数据,系统元数据和处理元数据作为元数的合法类型

它包括在内,但将它们作为元数据包含在内的原因相当薄弱。这些类型的元数据比“元数据”更准确地是“数据”。此外,虽然其他专家和公司倾向于将“数据”(如SQL代码和设计图纸)称为元数据,但我认为它们应该更准确地称为“数据”。 “合法”元数据是客户理解存储数据的语义和血液并正确运行应用程序以支持业务需求所需的元数据。换句话说,没有必要将在各种技术解决方案或产品规范中广义和模糊定义的所有“元数据”视为合法元数据。

3062217-21aa669d03355f96.jpg

2.元数据管理中的三个难点

元数据管理存在三种类型的困难,即元数据,技术和标准的定义和管理。元数据定义和管理是关于定义,创建,更新,转换和迁移与用户目标相关且重要的所有类型的元数据。除了一小部分系统目录元数据和其他类型的元数据之外,大多数元数据还需要频繁,及时和严格的手动数据收集和更新。许多组织没有人力资源或程序来识别,收集和管理全面的元数据。

元数据管理技术包括元数据设计工具,允许用户对所有数据源的元数据模式进行建模;元数据存储系统允许用户从各种数据源,搜索和查询中提取元数据,并与其他用户交换元数据。

元数据标准不仅包括元数据建模和交换的元数据标准,还包括词汇表和本体。

正是这些困难阻碍了元数据管理技术的广泛采用。大多数元数据管理技术供应商声称(计划)采用对象管理组织的元数据建模标准元对象工具(MOF)和公共存储库元模型(CWM),以及元数据导入和导出标准XML元数据交换(XMI)。

在词汇和本体方面,如果有合适的行业标准,则可以全部或部分采用该标准。在缺乏过于繁琐或不合适的行业标准或行业标准的情况下,至少应定义和使用企业内的“标准”。

此外,在收集,更新,转换,迁移,复制相关元数据以及相关转换规则和业务规则时,内部流程需要定义和遵循适当的流程。

3062217-1b38aa0c777b214b.jpg

3.元数据管理系统的功能和架构

第一代和第二代元数据管理系统没有提供用于管理元数据的适当设施,也没有标准。这些系统的主要问题之一是所有元数据都集中存储,并且在数据源发生变化时必须手动更新中央元数据。元数据管理的一个趋势是对分布式数据源的实时访问。这意味着全局元数据模型保存在中央存储库中,并根据需要从分布式数据源中提取元数据。这称为联合元数据存储库。实时从数据源中提取元数据是由为该数据源设计的适配器执行的。但是,联合元数据存储库的性能可能会受到影响,因为某些类型的元数据(例如,数据边框元数据,技术元数据,数据使用元数据,系统元数据,进程元数据)来自任何数据源元数据甚至可以从出于性能原因,数据源(例如,内容元数据,目录元数据,关系元数据)通常应放在中央存储库中。因此,在中央存储库中维护联合全局元数据和一些实际元数据的混合方法是理想的体系结构。

就元数据管理而言,市场上的当前元数据管理系统已经比第一代和第二代元数据系统更强大。元数据管理系统中的基本功能模块应包括元数据设计器/建模器查询管理器,其具有图形用户界面(包括查询公式,索引创建和管理工具),元数据和查询结果浏览器以及图形。用户界面安全性和访问控制(通过访问控制列表或组和基于角色的访问控制)备份和恢复(元数据)。适配器允许从各种现代企业应用程序中提取数据,例如ERP,CRM,SCM和ECM系统,以及各种数据类型,如关系数据库,索引顺序文件,传统分层数据库,消息传递中间件,HTML, XML,多媒体数据等。支持Java,XML和Web服务中的应用程序开发。采用XMI,MOF和CWM等标准。

通常,元数据管理系统的供应商提供来自第三方适配器供应商的自己的适配器和适配器。此外,适配器的趋势是双向的,即元数据管理系统从数据源接收数据(和元数据)并将更新的数据推送回数据源。

除了上述“基本”设施之外,元数据管理系统还需要提供影响分析,数据分析以及对术语和数据标准的支持。几乎没有元数据存储系统支持这些“高级”功能。

如前所述,大多数元数据只能手动创建或更新。此元数据需要添加部分元数据,这些元数据可以由适配器自动提取并更新到数据源。出于这个原因,元数据存储库倾向于强调元数据的可伸缩性,提供适应新类型元数据添加的工具。但是,这个重要的设施并不容易提供。原因在于,随着新类型的元数据的增加,与新类型的元数据相关联的数据亲缘关系,基于语义关系的数据依赖性,词汇和本体必须以与现有元数据类型一致的方式被考虑。

4可能需要咨询服务的元数据管理问题

依赖于管理大量复杂数据的一个或多个复杂企业应用程序的企业总是需要管理元数据。鉴于元数据管理技术的当前状态,元数据管理标准的标准以及大多数元数据管理无法自动化的事实,这意味着企业不仅需要元数据存储系统,还需要咨询服务。以下是元数据管理的一些领域(或主题),其中咨询服务需要补充元数据存储库系统。

确定与企业数据管理目标相关且重要的元数据(这需要与业务分析师和技术经理进行面谈);

元数据设计和建模(使用特定的元数据存储系统)来定义元数据词汇表(这应该分阶段完成;此外,这将需要访问业务分析师和技术经理);

定义元数据本体(这也应该分阶段完成;此外,这将需要访问业务分析师和技术经理);

适配器开发(使用元数据存储系统附带的适配器开发SDK);

确定元数据和数据预取(在元数据存储库中)策略。

3062217-f67d0eca609148d3.png