Great Expectations 已经成为了我们的团队在数据质量领域的默认选择,这也是为什么我们建议采纳它 — 不仅仅是因为没有更好的替代方案,更多的是因为我们的团队在几个客户项目中都报告了它非常好的表现。 Great Expectations 作为框架,允许用户搭建用于标记数据流水线中的异常或质量问题的内置控件。正如单元测试在构建流水线中运行一样,Great Expectations 在数据流水线的执行过程中进行断言。我们喜欢它的简单性和易用性 — 无需数据工程技能,保存在 JSON 里面的规则都可以被我们的数据领域专家修改。
在之前的技术雷达中,我们就关注到了Great Expectations,我们继续看好它,并在本期技术雷达中将它挪入试验阶段。Great Expectations这个框架可以搭建内置控件,来标记数据流水线中的异常或质量问题。正如单元测试在构建流水线中运行一样,Great Expectations在执行数据流水线时也会进行断言。它的简单性和易用性深得我们喜爱——断言的规则用JSON文件存储,可以由我们的数据科学家来修改,所以不需要数据工程技能。
随着 CD4ML 的兴起,数据工程和数据科学的运维方面获得了更多的关注。自动化数据治理是发展的结果之一。Great Expectations 是一款可以帮助你在数据流水线中,编制内建控件用于标记异常和质量问题的框架。就像运行在构建流水线中的单元测试,Great Expectations 在数据流水线的执行过程中作出断言。这不仅对于为数据流水线实现某种 Andon,或是确保基于模型的算法保持在训练数据决定的操作范围内,都有帮助。像这样的自动化控件可以帮助分发以及民主化数据访问和保管。Great Expectations 还配有一个探查工具,帮助理解特定数据集的质量,并设置合适的约束。