# 参考数据和主数据

在任何组织中,都存在一些需要跨业务领域、跨流程和跨系统的数据,如果这些数据实现了共享,所有的业务部门就都可以访问相同的客户清单、地理位置编码、业务部门清单、交付选项、部件清单、成本核算中心代码等用于运营业务的数据,这样做整个组织及其客户都会从中受益。数据使用者在看到不一致的数据之前,通常都会假设这些数据在整个组织中具有一致性。

在大多数组织中,系统和数据的变化速度很快,特别是在大型组织中,各种项目和方案、合并和收购以及其他商业活动导致存在多套本质作用相仿的系统,它们相互隔离,无法交互。这些情况会导致系统间数据结构和数据值不一致,从而增加了数据管理的成本和风险。组织可以通过参考数据和主数据管理来降低其风险。

启动主数据管理通常因为如下几种原因:

  1. 满足组织数据需求。组织中的多个业务领域需要访问相同的数据集,并且他们都需要这些数据集是完整的、最新的、一致的。主数据通常是这些数据集的基础。,例如想要分析客户的属性,就先要对客户有一个统一的定义。
  2. 管理数据质量。数据的不一致、质量问题和差异均会导致决策错误或丧失机会。主数据管理通过统一的标识来定义实体,以降低风险。
  3. 管理数据集成的成本。在没有主数据的情况下,将新数据源集成到一个已经很复杂的环境中成本会更高,这减少了因对关键实体的定义和识别方式变化而产生的额外成本。
  4. 降低风险。主数据简化了数据共享架构,从而降低了与复杂环境相关的成本和风险。

集中管理参考数据会使组织获得如下好处:

  • 通过使用一致性的参考数据,可以为多个项目提供结构数据参考,从而降低数据整合的风险和成本。
  • 数据驱动型组织活动通常侧重于交易数据(增加销售或市场份额、降低成本、展示遵从性等),利用交易数据将会高度依赖参考数据提供的描述,通过提高参考数据的可用性和质量,有助于提升数据整体质量。

# 目标和原则

参考数据和主数据管理规划的目标包括:

  1. 确保组织在各个流程中都拥有完整、一致、最新且权威的参考数据和主数据。
  2. 促使企业在各业务单元和各应用系统之间共享参考数据和主数据。
  3. 通过采用标准的、通用的数据模型和整合模式,降低数据使用和数据整合的成本和复杂性。

参考数据和主数据管理应遵循以下指导原则:

  • 共享数据。要能够在组织中实现参考数据和主数据的共享。
  • 所有权。参考数据和主数据术语所有权属于整个组织,而不是属于某个应用系统或部门,其需要广泛共享,全局组织管理。
  • 质量。参考数据和主数据需要持续的进行质量监控和治理。
  • 管理职责。业务数据管理专员要对控制和保证参考数据的质量负责。
  • 控制变更。在给定的时间点,主数据值应该代表组织对准确和最新内容的最佳理解。任何合并或拆分参考数据和主数据的操作都应该是可追溯的,实施变更之前需要进行必要的沟通和批准。
  • 权限。主数据的操作权限应与记录系统保持一致。

# 基本概念

# 主数据和参考数据的区别

不同类型的数据在组织中扮演不同的角色,也有不同的管理要求,Malcolm Chisholm 提出了一种六层的数据分类法,其中包含元数据、参考数据、企业结构数据、交易结构数据、交易活动数据和交易审计数据。在这种分类方法中,他将主数据定义为参考数据、企业结构数据和交易结构数据的集合。

  1. 参考数据:典型代表为代码表和描述表,其用于描述组织中的典型参考数据,或用于将数据库中的数据与组织之外的信息联系起来。
  2. 企业结构数据:典型代表为会计科目表,其用于按业务职责描述业务活动。
  3. 交易结构数据:典型代表为客户标识符,其描述可交易过程中必须出现的一些要素。

主数据需要为概念实体(如产品、地点、账户、个人或组织)的每个实例识别和开发可信的实例版本,并维护该版本的时效性。主数据面临的主要挑战是实体解析,它是识别和管理来自不同系统和流程数据之间关联的过程。对于参考数据和主数据,他们的管理重点各不相同:

  • 参考数据管理:需要对定义的域值及其定义进行控制,参考数据管理的目标是确保组织能够了解每个数据的概念,及访问整套最新的数值。
  • 主数据管理:需要对主数据值和标识符进行控制,以便能够跨系统、一致的使用核心业务实体中最准确和及时的数据。主数据的目标是确保当前值的准确性和可用性,同时降低由不明确数据标识所引发的风险。

# 参考数据

参考数据是指用于描述或分类的其他数据,或者将数据与组织外部的信息联系起来的任何数据。最基本的参考数据由代码和描述组成,但是有些参考数据可能更复杂,还包含映射和层次结构。参考数据虚拟地存在于每个数据存储中,可以根据状态或类型进行分类(如订单状态:新订单、处理中的订单、已结束的订单、已取消的订单),也可以根据其他外部信息(如地理信息或标准信息)进行分类(如国家码:DE、US、TR)。

参考数据可以用不同的存储方式满足不同的需求,参考数据可能会在特定设备的用户界面上进行展示,其常用的存储技术包括:

  1. 代码表。通过外键与其他表链接,以保持数据库管理系统中参照完整性功能。
  2. 管理系统。维护参考数据中业务实体、状态、弃用值以及术语映射规则,以支持更广泛的应用和数据整合使用。
  3. 允许值。用于特定对象属性的元数据在应用程序的调用接口或用户界面访问,

参考数据管理需要控制和维护定义的域值、定义以及域值内和域值间的关系。参考数据管理的目标是确保不同功能之间引用值是一致的、最新的,并且组织内部均可以访问这些数据。参考数据的一个重要的元素属性包含其来源,例如行业标准参考数据的管理机构。下面是集中不同类型的参考数据:

简单参考列表

代码值 描述
US United States America
GB United Kingdom(Great Britain)

扩展的简单参考列表

代码 描述 定义
1 新建 表示一个新的服务单已经创建,但还未分配人员
2 已分配 表示该服务单已经分配了服务人员
3 进行中 表示分配的服务人员已经开始处理
4 已解决 表示服务人员已经处理完成
5 已取消 表示该服务单据交互情况是已经进行取消
6 待定 表示服务暂时无法处理
7 已完成 表示请求已经处理完成

交叉参考列表

USPS州代码 ISO州代码 FIPS州代码 缩写 名称 正式名称
CA US-CA 06 Calif California State of California
KY US-KY 21 Ky. Kentucky Commonwealth of Kentucky

多语言参考列表

国家代码 英文名 本地名 本地语言
CN Mason Han 韩陈昊 中文

分类参考列表

代码值 描述 父代码
440000 零售业 440000
445000 食品饮料商店 440000
445200 专业食品店 445000
445210 肉类食品店 445200
445290 其他特色食品店 445200
445291 特色烘烤店 445290

# 主数据

主数据是有关业务实体(如雇员、客户、产品、金融结构、资产和位置等)的数据,这些实体为业务交易和分析提供了语境信息。实体是客观世界的对象(人、组织、地方或事物等)。实体被实体、实例以数据/记录的方式表示。

主数据应该代表与关键业务实体有关的权威、准确的数据,主数据应该是可信的,业务规则通常规定了主数据格式以及允许的取值范围。一般组织的主数据包括下列事物的数据:

  • 参与方。个人和组织,以及他们扮演的角色,如客户、公民、病人、厂商、供应商、代理商、商业伙伴、竞争者、雇员或学生等。
  • 产品和服务。包括内部和外部的产品及服务。
  • 财务体系。如合同、总账、成本中心、利润中心等。
  • 位置信息。如地址和GPS坐标。

主数据管理只有做到主数据值和标识符的控制,才能保证在系统间实现对核心业务实体最准确、最及时数据的一致使用。目标包括确保准确的、最新值的可用性,同时不降低不明确标识符的风险。评估一个组织的主数据管理情况,需要识别以下几个点:

  1. 哪些角色、组织、地点和事物被反复引用。
  2. 哪些数据被用来描述人、组织、地点和事物。
  3. 数据是如何被定义或源于哪里,在哪里被储存、提供和访问。
  4. 数据通过组织的系统时是如何变化的。
  5. 谁使用这些数据,其核心目的是什么。
  6. 用什么标准来衡量数据及其来源的质量和可靠性。

主数据管理的挑战在于,人们选择不同的方式来表示类似的概念,并且这些表述之间的协调并不总是那么简单,同样重要的是,信息会随着时间推移而变化,系统的解释这些变化需要计划安排、数据知识和技术技能。在一个域内规划主数据管理包含以下步骤

  1. 识别能提供主数据实体全面视图的候选数据源。
  2. 为精准匹配和合并实体、实例定制规则。
  3. 建立识别和恢复未恰当匹配或合并数据的方法。
  4. 建立将可信数据分发到整个企业系统中的方法。

主数据管理也是一个数据全生命周期的管理过程,全生命周期中的关键活动包括

  • 建立主数据实体的上下文,包括相关属性的定义及其使用条件,并加以治理。
  • 识别出在单个数据源内以及过个数据源中代表同一实体的多个实例,构建并维护标识符和交叉引用,以支持信息整合。
  • 协调和整合不同来源的数据,以提供主记录数据的最佳版本,试图解决属性命名和数据值不一致的问题。
  • 识别未被正确匹配或合并的实例,确保其可以得到修正,并关联到正确的标识符。
  • 通过直接存取、使用数据服务,或通过复制反馈到交易系统、数据仓库或其他分析性数据存储系统,实现对可信数据的跨程序访问。
  • 在组织内强制使用主数据。这个过程需要数据治理和变更管理的支持,以确保可以共享企业视角。

主数据管理有如下关键步骤

  1. 数据模型管理。定义源系统中的术语以及数据范围,使数据值在一个适当的语境中,如单个数据源呈现多个属性,需要将其各自的数据值合并组成为企业级模型定义的某一个属性数据值。
  2. 数据采集。接受并应对数据源采集要求时,使用数据清洗和分析工具进行快速、即时、匹配的数据评估以分析成本效益。探索数据采集及其对匹配规则的影响,为新数据源确定数据质量指标,完成整体数据管理环境的集成。
  3. 数据验证及标准化。识别错误数据,确保数据内容符合标准参考数据值和标准格式。
  4. 实体解析。实体解析是一个决策过程,执行过程的模型根据实体解析确定两个引用之间相似性的方法的不同,实体解析包括:实例提取、实例准备、实例解析、身份管理、关系分析等。

# 主数据管理的工作

# 识别驱动因素和需求

每个组织都有不同的主数据管理障碍,可能是受系统的数量和类型、使用年限、支持的业务流程以及交易和分析中数据使用方式的影响。驱动因素通常包括改善客户服务或运营效率,以及减少与隐私和法规有关的影响。常常遇到的障碍包括系统之间在数据含义和结构上的差异。

在应用程序内部定义主数据的需求相对容易,跨应用程序定义主数据标准需求则比较难,大多数组织都希望一次只针对一个主题域甚至一个实体来实施主数据的工作,在实际的工作中,建议根据成本/收益以及主数据主题域的相对复杂性作为参考,对主数据进行优先级排序,从最简单的类别开始,在过程中逐步积累经验。

# 评估和评价数据源

现有应用中的数据构成了主数据管理的基础,主数据管理的工作中需要理解这些数据的结构和内容。主数据管理工作的结果之一是通过评估现有的数据质量来改进,评估数据源的目标之一是根据主数据的属性来了解数据的完整性。这个过程包括产品属性的定义和粒度。在定义属性时,需要注意语义问题,属性命名需要和企业级定义达成一致。

# 定义架构方法

主数据管理的架构方法取决于业务战略、现有的数据平台以及数据本身,特别是数据的血缘和波动性以及高延迟和低延迟的影响。架构必须要考虑数据消费和共享模型。

在选择整合方法时,需要考虑整合到主数据解决方案中的源系统数量和其所需平台。小型组织可以有效地利用交易中心模式,而具有多个系统的组织可以选择注册表模式。如果组织兼有独立的业务部门和各种各样的源系统,那么可以使用一种综合的方法进行统一整合。

# 建模主数据

主数据管理是一个数据整合的过程,为了实现一致的结果,并在组织扩展时管理新资源的整合,必须在主题域内为数据建模,可以在数据共享中心的主题域上定义逻辑或规范模型,这将建立主题域中实体和企业级定义。

# 定义管理职责和维护过程

技术解决方案制作的同时,还需要做一些管理工作,其要修复和改进可能造成数据遗失的流程,主数据管理项目应考虑主数据保持治理所需的资源,需要对记录进行分析,向源系统提供反馈,并提供可以被用来调整和改进驱动主数据管理解决方案方法的输入。

# 建立治理制度,推动主数据使用

主数据项目的初始工作往往富有挑战性,需要投入很多精力和财力,整个工作必须要有一个路线图,以便让各个系统可以把主数据和标识符作为流程的输入,在系统之间建立单向的闭环,以保持系统之间的一致性。