第2章 领域所有权原则

Data Mesh的核心是去中心化和将数据责任分配给最接近数据的人。这是为了支持横向扩展的结构和持续快速的变化周期。

那么问题来了:如何确定数据分解的边界?如何集成这些组件?如何分配责任?

为了找到数据分解的轴线,Data Mesh效仿了组织单元的接缝(seams of organizational units)这个方法。它遵循与业务一致的职责进行划分。它不遵循底层技术解决方案(如数据湖、数据仓库、数据流水线等)设定的边界,也不遵循功能线、数据团队或分析团队设定的边界。

在数据架构分治和数据责任的划分上,Data Mesh与现有方法是相反的。第8章演示了传统数据架构是如何围绕技术进行划分的(例如数据仓库),并将数据所有权授予了执行相关技术的团队(例如数据仓库团队、数据管道团队等)。传统架构是组织架构的映射,即把共享分析型数据的责任集中在了单一的数据团队。以前的方法是为了把处理分析型数据管理这一相对较新的领域的复杂性和成本局部化到专家小组而建立的。

过去组织划分数据责任的方法与现代数字化业务的组织结构不一致。今天的组织基于业务领域进行拆分。这种拆分在大部分情况下将持续变化和演进的影响局限于一个领域。以Daff为例,它把业务(以及促进和塑造业务的数字解决方案)拆分为不同领域,比如播客、事件、合作伙伴、听众等。

Data Mesh把数据共享的责任给了每一个业务领域。每个领域对其最熟悉的数据负责,这个领域要么是数据的一级用户,要么控制着数据源头。比如,听众团队负责听众的基本资料、统计特征、听众的订阅事件,以及任何他们最能理解、影响和控制的分析型数据。我将其称为“领域所有权原则”。

我使用“所有权”这个词作为“产品所有权”的简称,即把数据作为产品进行创建、建模、维护、演进和共享,以满足数据用户的需求的长期责任所有权。

本书中出现的所有“数据所有权”的意义都是有限的,范围仅限于组织在维护它们在与内部和外部实体(如用户、客户和其他组织)的交易中生成的数据的质量、寿命和合法可访问性的责任。

这不应该与数据主权(sovereignty)混淆,数据主权指数据的收集者对数据的控制权。数据的最终主权仍然属于用户、客户或其他需要获取和管理其数据的组织。组织充当数据产品所有者,而个体仍然是数据所有者。

自主权数据(个人拥有对其个人数据的完全控制和权力)的概念与我的想法接近,但这超出了本书的范畴。

我也避免使用数据监护这样的术语,因为它们与过去的数据管理和治理方法有着特定和不同的含义。这是为了避免与不兼容Data Mesh的现存数据治理职责混淆。

这种相当直观的责任划分解决了我将在第7章深入讨论的一系列问题,但是带来了新的挑战。它导向了分布式的逻辑数据架构——可伸缩的分布式架构,更加难以管理。它需要以新的方式处理领域之间的数据互操作性和连接性。

在下面的内容中,我分析了如何应用领域驱动设计(Domain-Driven Design,DDD)策略来分解数据和它的所有权,介绍了组织转型为面向领域的数据所有权所需要的转变。