金融业正处在数据分析的十字路口
这是一个典型的工作日,在一个典型的银行总部的会议室里。"在这个国家,我们银行的所有产品拥有多少不同客户?"一个跨国消费者银行(Global Consumer Bank - 一个虚构银行)的地区业务经理问。他认为这是一个简单的问题,数据科学负责人敲敲手指就能找到答案。参加会议的是一些业务领导:总经理、地区负责人、零售银行负责人、信用卡和个人贷款负责人、住房贷款负责人和高级地区运营官。在接下来的几分钟里,多个数字被当作潜在的答案被抛了出来。
他们很快就发现,没有办法找到一个一致的数字,也没有一个可以达成共识的数字。
这家银行有一个精心设计的数据仓库。尽管该金融机构的数据仓库有全球客户标识号码(GCIN)、家庭号码(HH号码)、客户标识号码(CIF号码)和账户号码等数据,但领导层仍然无法得出各产品的不同客户数量。主要的痛点是:企业中客户数据的所有权在哪里?为什么数据平台团队不能掌握所有权?有没有人负责这个问题域?解决任何问题的第一步就是要提出正确的问题。所以第一步是提出:有没有人负责这个问题域?
没有?那么,我们怎么才能做到呢?
大多数金融机构的数据骨干系统都是几十年前的。现在,它们是由最古老的银行加上长期以来发生的所有兼并和收购组成的联合体。极有可能的是,一些较小的实体为他们的客户带来了具有不同形式的银行系统。不只是指系统,也包括管理理念。这些银行系统被并排聚集到大公司中。他们可能在同一个网络上,但他们的数据就像森林中的两棵树彼此独立。
为了理解这种现状,我们需要看看大多数金融机构所面临的现实挑战--让他们忙得焦头烂额,阻碍他们在根本和战略问题上下功夫的这些事情:
数据标识认证。你的分析人员拥有多个自成一体的系统,这些系统使用不同的名字来表示客户的身份。每当你需要制定一个客户获取策略,一个客户收入或利润率分析报告,或启动一个客户360计划时,这个问题会在你的组织中引起持久的不便,需要不断花精力在交叉检查和过滤。
例如,报告中的统计数据的准确性主要取决于所选的数据和其质量。当所选的数据在这些自带的系统中找不到时,就会出现用其他数据代替的倾向。这就是影响报告准确性的原因。
对数据进行多级审批。等级森严且陈旧的许多传统银行仍在使用70年代版本的分析管理理念进行运作,而没有进行敏感性培训。银行业是非常动态的--那么,为什么由于流程或产品的增加而产生新的数据时,需要金融机构各部门的多级审批?想想这造成的摩擦和对上市时间的延误。
通过跨业务部门和产品线(如信用卡)、跨零售银行和私人银行使用数据,金融机构能够更有效、更主动地锁定客户需求。不幸的是,目前这可能需要业务领导的许多时间来批准。为什么呢?例如--在交叉销售计划中,需要审批来清除不一致的地方,以及确认在销售产品时如何在各业务部门分成的不同方法。
线下数据。在你的组织中,高薪的、数量有限的、专业的数据分析师正在花费大量的时间,以手工方式清理、整理和汇总数据,而这些工作应该是自动化的。这几乎和去当地银行分行让分行经理填写你的支票簿一样痛苦。 当你的分析数据交付时间不断被推迟时,你可以打赌,你的团队正在手动清理数据,而不是分析。
第三方数据用于增强组织数据,使其更完整,便于分析。例如,在二线或三线城市开展活动以获取高净值个人财富管理时,需要确定哪些地区是目标。第三方研究数据被用来确定市场规模,帮助得出潜在客户的账户规模和份额。然而,这些数据以完全不同的格式、不同的术语和定义获取。将数据标准化并翻译成组织统一的格式是一项资源密集型任务。
组织上的挑战。分析小组是否知道他们拥有和控制哪些数据?是否有任何小组拥有领域数据?例如,客户档案信息是否由一组人拥有,他们管理其内容、安全和权限?如果不是,那就意味着没有人可以确定--这就造成了组织内多个部门和科室之间各种形式的相互依赖和内部沟通,成为了一个可能没有权威答案的沟通困境。
数据的所有者保证了更好的数据完整性和对数据的有效使用。当数据所有者没有被识别的时候,维护、记录、更新和确保完整性的一系列工作是无效的。例如:一个银行的新账户运营团队审查了一个新的公司账户创建表格,并将细节输入到核心银行系统。 如果随着时间的推移,企业客户的人口信息发生了变化(比如更改地址,替换首席执行官),那么组织中谁将负责更新数据?对于一个活跃的客户来说,在交易的验证互动中会更容易管理。然而,我们知道有很大比例的客户是被动的,或者有些是不活跃的。如果确定了数据所有者,定期更新客户的详细信息将是可能的。
更深入的分析通常表明,上述大多数问题都是由于缺乏业务术语或词汇表造成的。业务词汇表是一个组织在数据治理开发工作中产生的重要资产。术语表是在技术和社会层面上,对一个领域中的关键业务概念、术语以及它们相互关系的共识。事实上,它是银行业务架构中的一个关键部分。
在我们的银行领域的例子中,一个很好的参考是一个叫做金融业商业本体论(Financial Industry Business Ontology - FIBO)的本体论。FIBO是一个由企业数据管理委员会(Enterprise Data Management Council - EDMC)开发的金融行业的概念模型。 它确定了在金融商业应用中的重点本体,以及它们之间的关联关系。
通过引入FIBO领域术语表,可以识别数据的不一致性,避免数据的多级审批,因为数据定义在术语表中是预先设定的。由于有一个共同的目标数据集,线下数据处理可以自动化。最后,组织可以通过为词汇表中介绍的对象和术语分配数据所有权,把管理难度降到最低。
金融业商业本体论(FIBO),金融商业应用中重要的金融术语和概念的分层结构,同时也包括这些概念相互之间的关联关系。
顶层被称为域,在这个域下,可以找到商业实体、金融和商业合同以及指数和指标。
子域,包括FIBO合同本体可能包括贷款,抵押贷款,证券等。
底层是定价、分析和收益率。
一个标准化的业务术语表无疑是改善金融机构分析结果的第一个关键步骤。但是,为了真正加快价值实现的时间,并且利用通用数据术语表的力量,我们必须考虑超越目前数据系统的实施技术。这些系统和软件使用集中式数据湖和仓库的(内部部署或云端), 我们必须采用自动化和治理的方法:Data Mesh。
Data Mesh
在我们合作的另一家银行,数据领域的所有权是分散的,并且没有集中的术语表。 他们有多代的客户数据系统,还使用了云技术。当我们结束了第一次Data Mesh实施后,分析性业务 "数据产品"的价值交付时间迅速加快了30倍,并确定了未来的数据所有权和管理所有数据产品的业务术语表。
请注意从数据领域(比如客户信息)到数据产品的这个术语的变化。它也是一个关键的步骤,负责确定数据所有权和价值交付时间。很简单,把数据消费者当作客户。一个团队为特定客户的需求创建数据产品或数据集。这个团队也拥有数据领域,可以为任何其他消费者生产数据产品。
价值实现时间的加速具体来自于数据所有权、数据自动化工具和统一的业务术语的组合,缺一不可,由此数据提供者-消费者的理解才能是快速的。
要理解Data Mesh,就要改变你目前的思维模式,从一个单一的、集中的数据湖,到一个能很好配合的数据产品的生态系统。与其为每个人定制一个数据湖,不如把特定领域的用户聚集在一起,满足他们的小团体需求。与其定制大量的数据加载管道,不如创建一个自动化管道,从相关的数据源中读取,为该组产生一个数据产品。这样不再需要手工处理数据导出,而是使用一种语言来自动生成数据管道,以尽快完成数据产品。这三个元素:一个特定领域的用户组,一个建立好的自动管道,以及一个针对该用户组的数据产品,组成了Data Mesh上的一个节点。
面向Data Mesh的云计算开发使用了知名的数据基础设施工具(如Kubernetes和Terraform),比数据湖和数据仓库解决方案的开发要快得多。根据我们的经验,获得有价值的见解所需的时间从几个季度、几个月,减少到几周。
对于金融行业的人来说,这类方法可以支持流程和运营的改进,从而更好地预测客户的结果。
当数据所有权明确时,问责机制就增强,从而导致更高的数据质量。由于经常更新业务术语/词汇表,它使整个组织的术语更标准化。
以数据产品为导向的领域团队将推动整个企业的数据使用,以开展企业范围的全产品线活动。他们已经对自己领域的数据字段以及与第三方数据字段的相关关系有了深入的了解。这将增强组织其他成员的信心去使用那些由面向数据产品的领域团队认证过的第三方数据。
现在,当一个银行高管想知道跨产品有多少的不同客户时,他们将得到准确、可靠和快速的回应;最重要的是,这个数字在整个组织内是一致的。
所以,Data Mesh的重要产出是数据产品。它为商业社区内一个或多个业务场景服务。它的建立非常迅速--只需几天到几周的时间。之后,数据产品通常由需要它的消费者访问--分析师、商业智能、机器学习应用--并且接口可以由Data Mesh工具自动生成。Data Mesh能够改进价值实现时间的一个重要指标是:
在每个时间段内部署到客户群的产生分析投资回报率或业务影响的数据产品的数量。例如,创建一个与业务相关的Data Mesh数据集的上线时间。
摆脱多年的传统数据仓库架构并不容易。在你 "改变了你目前的思考模式,离开了单一的、集中的数据湖 "之后,你该如何继续?Data Mesh的一些良好实践可以指导你构建更好的数据解决方案。它们是由三个阶段组成的:
建立一个平台战略,确定一个或多个领域的端到端用例
数据探索,根据术语表,确定并验证要读取的数据源
迭代构建、运行数据管道,并分享数据产品供用户使用。
在迭代构建和交付的过程中,请牢记Data Mesh架构的这些原则,以帮助确保你的数据产品是完整的:
分布式领域驱动的架构。保障数据产品都有规范的领域术语表
自助服务平台的设计。创建数据产品的软件是公开的--在你的安全保障内。确保其他人可以 "运行和扩展 "数据传输管道,以用于创建新的数据产品。
对数据进行产品思考。确立数据产品的所有权。
更多的数据和集中化是更好的,也就是 "单一可信任源(single version of the truth)",这种普世的认知将继续阻碍建立可扩展的和可关联的分析系统。它是一种错误的做法。金融领域的数据分析可以带来高投资回报率或者提供客户360分析,但资产应该被定义并分布在与当前业务使用场景相关的地方,最重要的是,需要数据的消费者,可以用它及时捕捉市场机会的出现。