浅谈主数据管理



主数据管理不(该)是数据资产管理、数据治理或者数据仓库的代名词。

什么是主数据

Wikipedia:

Master data represents the business objects which are agreed on and shared across the enterprise. It can cover relatively static reference data, transactional, unstructured, analytical, hierarchical and meta data.

主数据(Master Data)可以简单理解为被一处以上的应用所使用到的数据。

主数据是满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基本信息。它是关键业务实体的数据,也有人认为它其实应该翻译为“核心数据”。比如对于房地产行业来说,楼盘信息就属于主数据。

如何识别主数据

一般识别主数据的的标准是:

  • 唯一性 : 主数据是不重复的。
  • 共享性 : 在企业各系统中都存在、使用的。
  • 静态性 : 变化频率相较交易数据要低,相对静态。

主数据识别的流程1通常分为4个步骤:

  1. 从业务角度出发,在不同粒度上分析整个企业的业务流程,得出在业务流程过程中涉及到的业务实体。
  2. 划分数据主题域,分析出核心业务类别。
  3. 构建数据概念模型。
  4. 制定识别评分模板。确定主数据的识别指标后,利用综合加权法确定识别指标的权重。

主数据评分指标一般通过主数据识别标准的分析而获得。综合项目经验及业界研究成果。

常见主数据评分指标:

  • 独立性 : 主数据可以独立存在,不依赖于其他对象。
  • 共享性 : 主数据通常会被多个业务系统访问,作为共享数据存在。
  • 场景相关 : 主数据是为具体业务场景服务的。
  • 企业范围 : 主数据不涉及与外部系统的数据交换。
  • 业务价值 : 主数据描述了企业最核心的业务,是企业最有价值的资产。
  • 多特征属性 : 主数据作为业务操作的主要对象,一般存在多个属性,用于区分不同的操作对象。
  • 基础性 : 主业务实体是基础的业务单元,它支持所有主要的业务行为和交易基础,一般不可再拆分。
  • 复杂性 : 主数据一般涉及多个业务系统,具有较高的复杂性。当业务实体的复杂性降低时,可以不再纳入主数据管理范畴。
  • 周期性 : 主数据一般会在很长一段时间内被使用,具有较长的生命周期。
  • 流动性:主数据变化频率一般不高,小于交易数据的变化频率;但完全不变化的数据不应该判定为主数据。

常用的的权重确定方法2包括主观赋权法和客观赋权法。

  • 主观赋权法 : 根据决策者的意向和专家的建议确定各指标的权重系数,最终结果具有一定的主观性。常用德尔菲法、层次分析法。
  • 客观赋权法 : 根据一定的数学公式或算法对各指标进行赋权,最终结果理论性较强,但不能反映决策者意向。常用主成分分析法、因子分析法。

现在也常将主观分析法与客观分析法结合使用。首先根据一定的理论得出各指标权重,之后再根据决策者和专家的依据对权重值进行适当修改,最终确定各指标权重值。

有了主数据识别指标和各指标权重后,就可以构建主数据识别模板,生成各业务系统分值;最后由分值高低确定某一业务数据是否可以纳入主数据管理范畴。

实际上,在做维度建模时,就可以从寻找到的一致性维度里找出主数据。

什么是主数据管理

主数据管理(Master Data Management)常常被错误地扩大外延,比如360度关系图、客户交互视图都不属于 MDM 。

主数据管理是在业务和 IT 协同工作下确保企业业务关键的主数据资产(如员工、组织、地理信息等)的权威、可靠、可持续、精确、安全的数据环境。

主数据管理通常需要从业务环节中识别出主数据、定义并管理主数据的生命周期、建立及发布数据标准、协调主数据的分发流通。

主数据管理的成熟度等级:

  • level 0 : 没有实施任何 MDM 。意味着企业各应用之间没有任何的数据共享,整个企业没有数据定义元素存在。
  • level 1 : 使用列表管理。企业通过管理流程(人工)来维护一个逻辑或物理的列表。各异构系统和用户从列表中查找主数据。
  • level 2 : 同等访问。企业通过建立数据标准,定义对存在 Central Repository 中详细数据的访问和共享,引入对主数据的(自动)管理。Central Repository 上存储的数据还是按照各系统分开存储,没有整合到一起。各系统与 Central Repository 直接互联。
  • level 3 : 集中总线处理。企业使用各系统都能接受的数据标准统一建立和维护主数据,通过一个公共的平台作为一个总线,从多个系统集中并用标准化的方法转换异构操作数据,整合为主题域数据。
  • level 4 : 业务规则和策略支持。主数据提供的主题域视图超越单独的应用并表现为一个企业视图。企业通过引入主数据来支持业务规则,并对 MDM 总线及外部系统进行完整性检查。
  • level 5 : 统一数据定义。企业采用统一数据定义、授权使用和变更传播。通过集成同步架构,模糊主数据和应用数据之间的分隔;当一个有权限的系统更新一个数据值时,企业内所有的系统将反映这个变更。

既然主数据是核心数据,当然会包含很多敏感数据。对主数据的访问就需要作安全控制。

MDM 通常都需要支持以下策略:

  • 支持对数据按行、按列控制访问权限。
  • 支持脱敏。
  • 尽量减少高敏感数据的分发和流通环节。
  • 支持管理元数据的权限。
  • 支持审核分析。

MDM 的未来

主数据管理更多的应该是一些数据治理的原则和方法,而不是一个系统。实际上数据仓库中除了事务数据、元数据外,几乎都是主数据和它们的辅助/引用/参考数据。过去 MDM 在物理上经常作为独立的系统来建设,是因为比起服务于分析的离线数据仓库,MDM 是服务于业务的 OLTP 系统。这是 MDM 和传统数据仓库最大的区别。其他老生常谈的很多 MDM 的“特性”和理由根本站不住脚,它们常常假设其他的数据系统(特别是数据仓库)仅仅是数据传输的工具,而没有任何数据治理,这纯粹是稻草人攻击。MDM 声称的建立数据标准、 Single source of true 、跨企业的数据一致性、集成、共享、数据质量、数据治理等等这些要素,和数据仓库的差别在哪里呢?

我相信未来不会再有物理上单独的 MDM 了。随着实时数据仓库的发展,原来由 MDM 实施的主数据的数据治理部分功能会在数据仓库中完成;原本服务于其他业务系统的功能,会作为数据服务的一部分来对外部系统提供。


参考
  1. 刘涛,李少波,唐向红. 基于综合加权法的主数据识别技术研究. 组合机床于自动化加工技术,2013(3):58-59.
  2. 唐不苦苦苦苦苦. 主数据管理识别第一步——识别主数据. zhihu.com,2019.
本文链接: https://paxinla.github.io/posts/2021/05/qian-tan-zhu-shu-ju-guan-li.html

知识共享许可协议 本作品采用知识共享署名-非商业性使用-相同方式共享 3.0 中国大陆许可协议进行许可,欢迎转载、演绎,
但是必须保留本文的署名 Charles(包含链接),且不得用于商业目的。