在数据方面,许多企业仍然处于脱节状态。企业已经充分认识到了数据的潜在价值,尽管如此,他们还未能充分利用数据。企业拥有的工具和能力比以往任何时候都多,却未必有能力将信息转化为商业智能。许多组织将数据视为战略资源,但却尚未制定数据战略。
数据脱节
来源: PwC
同时,风险似乎在逐年增加。Thoughtworks 德国公司首席数据专家兼数据负责人 Emily Gorcenski 说:“这场疫情大大推动了数字化和自助能力的发展。“在此之前,大量数据分析都是在走廊上、饮水机旁和早会上完成的,因此人们很容易就能获得想法和概念的反馈。”
同时,Gorcenski 补充道:“传统的数据工程和数据架构模式基本上都未能兑现大数据革命发生时所做的承诺。部分原因在于,这些集中的结构根本不会随着使用案例数量的增加而扩展。我们不受想象力的束缚,不受限于寻求洞察力能力。限制我们的,是找到可信的高质量数据的能力。”
Thoughtworks 的印度公司技术负责人 Prasanna Pendse 对此表示赞同,他说:“无论是政府还是其他服务,人们对数字渠道的需求以及支持这种需求的数据基础设施都呈指数增长。在金融服务业,这种现象甚至在疫情之前就已经出现了,包括对数据治理进行更详细的审查,监管机构对信息进行追溯。人们看到数据能力并尚未扩展到所需的范围,意识到需要修复某些东西。”
作为当今时代最基本的技术转变之一,“合作竞争”的兴起带动了一系列新的数据需求,也促使商业平台(不论是够已经准备好)加入更广泛的生态系统。
“组织进入这些生态系统后,共享数据变得愈加重要而困难,因为数据必须跨越信任边界。管理内部数据本就是一大挑战,而现在,你还需要超越特定组织范围的解决方案。”
Zhamak Dehghani
Thoughtworks 北美公司新兴技术主管
Thoughtworks 北美公司新兴技术主管 Zhamak Dehghani 表示:“我们看到超融合随着医疗等行业生态系统的迅速出现而出现。医疗行业中,新冠肺炎疫情已经促进了供应商、支付者和虚拟医疗技术之间的密切合作。组织进入这些生态系统后,共享数据变得愈加重要而困难,因为数据必须跨越信任边界。管理内部数据本就是一大挑战,而现在,你还需要超越特定组织范围的解决方案。”
这些压力使得快速获取和利用大量相关可信数据进行尝试的能力显得至关重要,但大多数企业仍然缺乏这种能力。
Dehghani 指出:“半个世纪以来,我们一直困于实现数据驱动的启动阶段,也就是首先大规模获取数据,以此建立依赖数据的解决方案。我总是能在会议上碰到这样的现象:作为数据主要用户的数据专家在演讲中谈论这个模型或那个模型,最后又说“但我们无法大规模获取数据”。
Gorcenski 表示,企业逐渐意识到(而且许多企业是经历种种困难才意识到)“除了数据的用途和基于数据作出反应以外,数据本身没有价值。这些决定需要有人来做。疫情之前,这项工作很容易就会被分配到数据分析员身上,让他们得出这些结论。但是现在更需要有能力自行得出结论。”
企业有清晰的路径来充分挖掘数据潜力,但 Gorcenski 指出,这需要实施技术和组织变革,并拥有追随数据的意愿。
她说:“数据应能不时挑战我们的假设和直觉,否则就是出问题了。如果我们只凭直觉去收集数据,为什么还要费心去收集?我们需要给数据一点掌控我们命运机会,这个做法也许会引起恐慌,而且如果你不信任数据,你永远也不会这样做。要信任数据,你需要有明确的责任链来展示谁生成数据、谁处理数据、数据的内含、来源、历史意义以及当前背景。为了达到让数据提出建议并推动决策的程度,所有这些都是有必要的。”
“数据应能不时挑战我们的假设和直觉,否则就是出问题了。”
Emily Gorcenski
Thoughtworks 德国公司首席数据专家兼数据负责人
典型的数据湖/组织结构
来源: Martin Fowler
实际上,集中化使数据与经常生成数据并最需要数据的运营单位分离。Pendse 说:“数据团队在组织结构中处于不受重视的地位。的确,一切都可能通过,但从组织角度来看,这样的团队与增长的优先事项并不太匹配。出现这种情况的部分原因在于这些团队被定义为商业情报组或类似组织。这是一种“告诉我发生了什么”的描述性分析思维,这种思维使得企业难以向预测性和指令性的行事方式转变。
“数据团队在组织结构中处于不受重视的地位。的确,一切都可能通过,但从组织角度来看,这样的团队与增长的优先事项并不太匹配。”
Prasanna Pendse
Thoughtworks 印度公司技术负责人
这种操作模式本质上也是不灵活的。Gorcenski 说:“如果你拥有庞大的中央数据体系,那么这个系统利用方法上的任何变化本身就成为一项庞大的工作。数据其实就是对世界上发生的事情做出反应。数据会发生变化,你也希望数据发生变化,你希望获得新客户和新市场,因此你需要建立能够应对变化和有适应性的结构。当你要出台新的控制措施时,实施这些措施的工作量应该是最少的。
要从“拥有”数据向使数据成为产品、个性化和提升客户体验的基础,能够自由尝试是至关重要的。庞大的数据架构可以使这种转变成为一项艰巨的任务,扩大理论与行动之间的差距。Pendse 解释说:“工具方面的原因决定了决策所需的周期时间。“许多传统企业中,一次尝试就需要花费六个月的时间,而且可能只是在特定有限区域内开展,而不是与其他尝试并行开展。”
ii. 向网格转变
业务用例很清楚:组织不应创建数据湖或数据孤岛,而应该对数据采取更灵活的方法,使其更接近直接相关的业务部分。
这可以通过应用“面向领域的数据”和“数据即产品”这两个核心原则来实现。面向领域的所有权和分布在保持总体连接性和完整性的同时,按照个别功能分解数据架构。将数据用作产品(而不仅仅是资源)成为有趣的消费和使用方式。支持快速行动的弹性数字化业务的数据架构以这些实践为基础:数据网格。
数据网格
来源: Thoughtworks
Dehghani 解释说:“数据网格关注无法大规模使用数据的根本原因,并试图解决这一问题。多年来,我们决定在一定技术范围内将这个大的数据问题分解成一个个整体解决方案和团队,但是我们还无法做到更快地增长或更快地扩展尝试。数字企业已经根据领域分解了业务,并利用数据继续开展这项工作,将控制权和主权交给最有能力生成和分享数据的人。数据网格就借鉴了这种运营方式。这是一种自然的进步。”
Gorcenski 指出,采用数据网格并不一定就要抛弃集中式数据库。她说:“数据湖和数据仓库可能永远不会完全消失。“未来的趋势以及数据网格概念的内涵都将使这些顾虑分解为不同的领域。领域会负责解耦产品和基础设施,从而在消除瓶颈的同时,使你能够创建合理的数据产品。数据网格并不关注为数据访问方式创建宏大的模型,而是要使各处的数据都易于访问,并建立基础设施来支持这一原则。”
“数据网格并不关注为数据访问方式创建宏大的模型,而是要使各处的数据都易于访问,并建立基础设施来支持这一原则。”
Emily Gorcenski
Thoughtworks 德国公司首席数据专家兼数据负责人
分布式方法有许多内在优势。一是降低将所有数据存储在同一个地方的风险。当数据被大量请求或遭受攻击时,所有数据存储在同一地点可能会迅速导致单点故障。
Pendse 指出:“如果你专注于防止服务器因请求过多而被击溃,实际上你自己的成功就成了坏消息。你不仅因为关上门而损失了进不来的钱,而且还打开了安全漏洞,带来其他风险。”
Dehghani 解释说,分布式可以将数据直接传送给团队,自然会使得数据更易于访问,并且“让了解数据且最有能力控制数据的人拥有数据”。Dehghani 表示:“当然,你也必须让这些人在某种同盟结构下互相交流,因为你不仅仅能从单个数据领域中获取价值,还能通过连接和关联不同领域的数据创建高阶智能。”
“数据即产品与作为资产的数据截然不同。你如何处理资产?你收集并储存资产。产品的处理方式就大不相同了。你需要分享数据,让数据体验更加愉快。”
Zhamak Dehghani
Thoughtworks 北美公司新兴技术主管
将产品思维应用于数据是确保领域团队保持联系和激励共享的关键。Dehghani 说:“数据即产品与作为资产的数据截然不同。你如何处理资产?你收集并储存资产。产品的处理方式就大不相同了。你需要分享数据,让数据体验更加愉快。你还希望赢得更多客户。”
Gorcenski 补充道:“典型模型中,任何制造技术产品的人都将生成作为副产品的数据。我们希望改变这一点,在每个阶段真正将数据视为产品。当我们为产品提供更深刻的见解和更好的数据时,我们不能简单地将数据视为几个小事务位的积累。数据不再是接受输入并给出输出的系统,而是做完这些工作,生成反映现实和可用于生成组织内反馈环路,进而回答以下问题的数据集的系统:我们销售的东西合适吗?我们是否覆盖了合适的消费者?我们是否以恰当的效率生产合适的产品?”
Dehghani 指出,这需要开发“自助”数据基础设施作为平台,将自主权转交给领域团队,并使不同的数据池能够安全合规和分布式地按需访问和共享。
iii. 奠定技术基础
自助平台将数据定位为可即时使用的数据,而非像在数据湖中那样在进入其他流程之前被被动存储和访问。Gorcenski 解释说:“现代平台架构非常擅长消除数据工程中的许多流程和噪音,使我们能够更接近数据并更快地得出见解。事实证明,如果企业允许团队访问可组装成不同产品的标准化数据能力,这种架构将会是强有力的促进因素。
“现代平台架构非常擅长消除数据工程中的许多流程和噪音,使我们能够更接近数据并更快地得出见解。”
Emily Gorcenski
Thoughtworks 德国公司首席数据专家兼数据负责人
企业并非总是从零开始开发数据平台。Dehghani 指出,现有云技术可以作为“实用层”,提供存储以及流功能和标准,并在此基础上构建更成熟的平台层来支持与分布式架构和分散团队的交互。
她解释说,大多数组织中“都存在实用层,但都是基于数据将集中化的假设而构建的,并且缺少用于编排数据分布的技术层。如果你决定将数据的所有权交给不同的领域,而不是由高度专业化数据工程师组成的集中式小组,你需要将平台进一步抽象化,使通用开发人员也可以获得建立微服务或应用程序所需的分析数据。将权力由专业人员转交给能生成有意义、有用数据的通才需要工程投入。
数据平台模型
来源: Martin Fowler
Pendse 表示:“数据网格使用的数据并没有太大的不同,但是管理和查看数据的方式肯定会改变。”
许多组织仍认为存储是一种昂贵和有限的资源,必须不惜一切代价避免重复,以及创建新的数据库可能需要花费两三年的时间。但是,基础设施和实践方面的进步已经使得这些问题不再是企业进行数据基础设施相关决策的主要关注点了。
Pendse 说:“组织必须转变心态,去思考:什么样的目的机制适合实现我的目标,我如何以解耦的方式创建这样的机制从而使效率最高?Pendse 说:“基础设施加速、工具化和自动化使你可以建立新的数据领域,让这个数据领域自我服务,甚至可以很快增加访问控制之类的。第一次这样做可能需要几个月的时间,但之后只需几分钟。”
iv. 调整人员和战略
数据架构可能很复杂,但是,在变得更数据驱动的道路上,最大的瓶颈并非技术或工程层面的,而在于文化和人员层面。
Pendse 说:“事实上,人们在查看数据,尤其是进行数据治理时,一般的反应都是抱怨。人们认为数据很无聊,必须进行管理,是个负担。领导者可能相信这一点,但他们无法让他们的团队相信。这些观念必须改变,从而使得人们对数据感兴趣,想要使用和消费数据,并为可能的情况而感到兴奋。”
“事实上,人们在查看数据,尤其是进行数据治理时,一般的反应都是抱怨。这些观念必须改变,从而使得人们对数据感兴趣,想要使用和消费数据,并为可能的情况而感到兴奋。”
Prasanna Pendse
Thoughtworks 印度公司技术负责人
为了证明这一点,Gorcenski 说:“首先需要制定清晰全面的数据策略。这需要培养宣传数据意味着什么以及为什么得出更多见解或开发更多产品能为组织创造价值的文化(不论是于监管原因、流程控制还是为实现目标)。这种文化也许是由最高管理层提出,但必须得到组织中包括代码编写人员在内所有关键参与者的支持。”
定义数据的战略目的也使得决定优先考虑哪些数据和相关解决方案变得容易。Dehghani 解释说:“我们一直建议采用逆向思维,即从下赌注开始(企业的战略目标),把这些战略目标转化为实际的用例和项目,然后确定解锁这些用例所需的数据产品和数据集,这些数据产品和数据集来自哪里,为哪些团队所有。”
为了鼓励这些团队以正确的方式利用数据,可能还需要改变激励结构,以反映对数据即产品的关注。应该衡量这类数据产生的价值或最终用户消耗这类数据的频率,而非处理或生成了多少数据。这类变化和失去控制的情况可能会令之前的数据监护人或“所有者”感到不适,但 Dehghani 认为他们可以很快转而支持这些变化。
她解释说:“一直负责数据平台的人往往也在忍受痛苦。他们一直困在努力取悦客户或者努力让人们访问数据的模式中,他们所使用的数据来自上游那些可能并没有动力使数据变得有意义或可信的人。你可以为他们提供工具,让他们明白自己不需要亲自上手以及他们将因为有很多人使用数据产品而获得回报。当这些人意识数据拥有优化业务、产品或应用程序的能力时,就会有内在动力来实现整个组织的真正智能化。这个时候,他们就成为了解决方案的一部分。”
Pendse 表示赞同,他说:“在此过程中,你需要向人们展示其中的好处,而非采取强制措施。比如,我们之前为一家银行设置了访问控制系统,这家银行曾担心这套系统会因减少员工的数据访问权或者需要员工提出申请才能访问数据而引起所有员工的不满。但最终情况并非如此,因为新系统提供了一致数据,更具响应性,而且不会像旧系统那样出故障。人们自然而然地愿意接受这套系统,因为这套系统能发挥作用。”
Gorcenski 建议先在个别部门或领域测试新的数据模型,这些个别部门或领域可以帮助调整新数据模型的实施方法并最终充当面向企业内部其他部门的“大使”。
她解释说:“你需要从非常小的小事做起,挑选学习内容,并建立非常紧密的反馈环路来确定哪些内容是有效的,哪些是需要调整的。让这些团队可以自由创造和绕过现有的变更管理政策。然后你需要看看他们正致力实现的目标,这些目标是否与你的战略相符,并能实现效益。你需要找到合适的人选作为变革的拥护者,给予他们时间和空间来创造这种变革,然后再在组织内部推广。”
“你需要从非常小的小事做起,挑选学习内容,并建立非常紧密的反馈环路来确定哪些内容是有效的,哪些是需要调整的。你需要找到合适的人选作为变革的拥护者,给予他们时间和空间来创造这种变革,然后再在组织内部推广。”
Emily Gorcenski
Thoughtworks 德国公司首席数据专家兼数据负责人
v. 嵌入安全和治理
考虑到企业领导者对数据安全和治理方面的任何潜在的不足仍然高度担忧,且这种担忧的确是有道理的,允许上述所说的自由似乎是有问题的。去中心化移除了单个网关或控制点,因此可能被认为有风险。
息技术领导者最关注的数据安全问题
来源: Egnyte
但 Thoughtworks 专家认为,更靠近团队的数据分布实际上会对治理产生积极影响。Pendse 指出:“传统方法中,由于数据治理工具具有集中性,因此存在数据性能和流程长度方面的问题。有了数据网格,这些问题就不存在了,人们感觉效率提高了。数据网格通过对实际创建数据的人(也是最了解数据的人)进行更加细致的控制,提高了生产者侧的质量,从而使生产者标记数据的准确性提升到了合规层面。数据网格还让消费者自行控制数据消费方式,而不必怀疑数据标记的真实性,从而提高了消费者获得的数据质量。”
“数据网格通过对实际创建数据的人(也是最了解数据的人)进行更加细致的控制,提高了生产者侧的质量,从而使生产者标记数据的准确性提升到了合规层面。”
Prasanna Pendse
Thoughtworks 印度公司技术负责人
Dehghani 清楚地看到,数据网格与将计算从数据中心转移到云端时采用的安全和治理方法存在相似之处。后者是从边界和“围起来的花园”转型为零信任架构,零信任架构中,一切基本上都是开放的,但每个终端都有内置的安全措施,并且所有参与者的身份都要经过不断验证。
Dehghani 说:“数据网格也是同样的道理。过去,企业采用统一集中的机构来负责数据的安全性、可用性和建模,但这个机构成了一个官僚主义、运转失灵的单位,不仅阻碍创新,也无法真正保护数据。相反模式是,治理功能成为一个联合体,因为一旦你将所有权分散,那么全体所有者都要负责执行数据管理政策和贡献这类政策的内容。同时,拥有非常强大的平台和自动化元素也是非常重要的。”
Gorcenski 指出:“治理应该是一种促进因素,而非限制因素。许多企业将隐私、合规和安全视为成本中心,而非价值驱动因素,如此专注于确保数据的合规性和安全性,以至于忽略了正在产生的影响以及人们被限制而无法完成的事情。我们首先要有这样一个观点:的确,合规是一项挑战,但是我们有好用的工具可以利用,我们可以构建系统,使其变得合规和可信,这样我们的团队就可以自由地开发更好的产品。你不仅需要培训数据人员,还需要培训所有使用数据的人员,让他们有能力发现问题。你还需要创建论坛,让他们在其中提出问题和得到答案。建立组织的数据隐私文化至关重要。”
她补充说:“如果你的风险管理策略只是为了永远不承担风险。的确,你可能可以避开风险。但你无法创新,也无法认识到数据的价值。”
“如果你的风险管理策略只是为了永远不承担风险。的确,你可能可以避开风险。但你无法创新,也无法认识到数据的价值。”
Emily Gorcenski
Thoughtworks 德国公司首席数据专家兼数据负责人
vi. 解决数据人才紧缺问题
企业在执行数据相关的安全政策和其他政策时,往往担心缺乏专业知识。的确,研究表明,数据技能仍然处于供小于求的状态。
然而,正如 Gorcenski 所说,企业通常“并没有意识到自己其实拥有数据人才”——这些人可能对数据非常感兴趣,但是由于与系统交互或与开发人员合作并不在其职责范围内,因此他们无法完成这类工作。
企业最紧缺的技术技能
来源: Quanthub
她说:“数据网格的概念是将责任更多地集合到领域团队中,让团队成员在这样的沙箱环境中工作,并给他们访问权限。他们的成果将会给你带来惊喜。我们只需要让员工多亲身体验数据系统,消除数据系统的神秘感,让数据系统变得不那么可怕,降低数据系统的严格管控程度。现在创造新的环境很容易——让我们放手去做,让员工尽情发挥。打破测试环境也没问题。这就是数据网格的目的。”
Pendse 指出,培养现有人才或让现有人才学习新技能往往比争先恐后地聘请新的数据专家带来更大的投资回报。他解释说:“数据工程与应用程序开发的思维方式不同,但并不令人费解。你只需要找一些导师来给你传授经验,参加一些培训,犯一些错误,最终你就学会的。我们已经通过培养应用程序开发人员的数据工程技能取得了成果。”
同样地,数据科学“并不是什么高深的学问”。Pendse 补充道:“我们过去常常寻找拥有博士学位的人,但是对于你想完成的目标来说,其中的基础实际上只需要大学水平的数学技能就能做到,因此我们正在研究如何通过刚毕业的大学生来取得进步。”
最后,Dehghani 相信,数据平台将会发展成为更简单的平台,从而降低对专业数据技能的需求,而数据科学的进步也将减少企业从头开始建模的情况。
她表示:“未来将有许多可重复使用的模型,你只需要通过定制和调整这些模型来了解你的业务数据即可。如果你拥有平台能力,可以用不同的数据集快速训练这些模型和观察模型行为,那么数据科学就会成为普通的工程实践,像其他任何工程问题一样得到解决。这将有助于调动更多的工程师和从业人员,而不是试图培养出更专业的数据科学家。我并不是看不起专家。我是希望随着越来越多的人具备数据能力,而且意外复杂性的抽象化将使更广泛的劳动力群体能够提高技能和具备交叉技能,最终,即使是数据工程师标签也会消失。这就是数据平台,是一种数据丰富的范式。”
vii. 为采用勇敢的新方法做好准备
新兴的平台范式并不是我们对企业未来如何应对数据挑战保持乐观态度的唯一理由。
Dehghani 说:“当然,希望技术和数据可用性更民主化的人与当前的掌权者之间会发生一场斗争。但我已经看到了技术变化,与不同的硬件供应商讨论了适应大量分散数据集的新计算模式。我非常希望我们能够拥有下一代真正完全改变数据问题,采用与以往截然不同的方式解决问题的技术。绝大多数企业对于数据网格以及企业如何应用数据网格的反应是非常积极的。”
“我非常希望我们能够拥有下一代真正完全改变数据问题,采用与以往截然不同的方式解决问题的技术。绝大多数企业对于数据网格以及企业如何应用数据网格的反应是非常积极的。”
Zhamak Dehghani
Thoughtworks 北美公司新兴技术主管
Pendse 认为,虽然重点往往集中在软件和服务上,但最近许多更令人兴奋的进展都出现硬件方面。他说:“有了定制化的芯片设计,整个计算结构都在发生变化。此外,非钱包 IO 内存等技术进展基本上意味着如果关闭计算机,RAM 不会消失。换句话说,这就是永久存储器。如果即使服务器关闭,应用程序仍然存在,那么数据库的概念会发生什么变化?”
同时,Gorcenski 认为,物联网 (IoT) 空间中还有大量未被利用的数据。同时,有些企业正努力用数据开展真正创新,而不是模仿谷歌或 Facebook 等大企业的方法。这两者都有巨大的潜力。
她说:“我们需要研究如何利用数据颠覆我们自己的行业,我们不是要效仿谷歌正在做的事情,而是做以前没人做过的事情。我们不能再将其他企业视为另一个世界的群体,我们应该开始将这些企业视为潜在的合作伙伴,寻找为彼此丰富数据的方法。许多情况下,合作能创造出比竞争更好的商业生态系统。愿意做具有挑战性的复杂事情并为之付出的思想家才会认识到这些好处。变革不会在一个季度或一年内就发生,但肯定是可能发生的。未解决的数据问题比已解决的更多。”
订阅视野
为数字领导者提供及时的商业和行业洞察。
《视野》订阅为您提供我们专家的最佳播客、文章、视频和活动,以扩展我们广受欢迎的《视野》出版物。