发布于 : May 19, 2020
不在本期内容中
这一条目不在当前版本的技术雷达中。如果它出现在最近几期中,那么它很有可能仍然具有相关参考价值。如果这一条目出现在更早的雷达中,那么它很有可能已经不再具有相关性,我们的评估将不再适用于当下。很遗憾我们没有足够的带宽来持续评估以往的雷达内容。
了解更多
May 2020
评估
在数据工程中使用良好的软件工程实践,也仍然存在一些工具空白。我们的一个团队尝试在数据管道中的不同步骤之间自动执行数据质量检查时,惊讶地发现,在该领域中只有很少的工具。他们选择了 Deequ ,这是一个用来为数据集编写类似单元测试的库。 Deequ 建立在 Apache Spark 之上,虽然它是由AWS 实验室发布的,但也可以被用在 AWS 以外的环境。