Enable javascript in your browser for better experience. Need to know to enable it? Go here.

声明式数据管道定义

更新于 : Oct 28, 2020
不在本期内容中
这一条目不在当前版本的技术雷达中。如果它出现在最近几期中,那么它很有可能仍然具有相关参考价值。如果这一条目出现在更早的雷达中,那么它很有可能已经不再具有相关性,我们的评估将不再适用于当下。很遗憾我们没有足够的带宽来持续评估以往的雷达内容。 了解更多
Oct 2020
试验 ?

许多数据管道都是在一个巨大的、或多或少是由 Python 或 Scala 编写的命令式脚本中定义的。该脚本包含各个步骤的逻辑以及将这些步骤链接在一起的代码。在 Selenium 测试中遇到类似的情况时,开发人员发现了 Page Object 模式,此后许多行为驱动开发(BDD)框架都实现了将步骤定义与整合代码进行分离。一些团队正在尝试将同样的思想引入数据工程。单独的声明式数据管道定义(也许是用 YAML 编写的)只包含声明和步骤顺序。它声明输入和输出数据集,在需要更复杂逻辑时引用脚本。A La模式 是一个相对较新的工具,它采用 DSL 方法来定义管道,不过 airflow-declarative 工具似乎是这个领域中最有前景的工具,它是一个将 YAML中定义的有向无环图转换为 Airflow 任务调度的工具。

May 2020
评估 ?

许多数据管道都或多或少地使用了 Python 或 Scala 编写的命令式脚本来定义。这样的脚本中包含了各个步骤的逻辑以及将这些步骤串联起来的代码。在使用 Selenium 测试时, 出现过类似的情况,而后开发人员发现了 Page Object 模式,后来许多行为驱动开发(BDD)框架都实现了步骤定义与步骤组合之间的分离。 现在,一些团队正在尝试为数据工程引入相同的思路。一个独立的 声明式数据管道定义 (可能是用 YAML 编写的)仅包含一些步骤的声明和顺序。 它定义了输入和输出的数据集,并且在需要更复杂的逻辑时决定是否需要以及何时引入脚本。 我们发现了该领域的第一个开源工具——A La Mode

发布于 : May 19, 2020

下载 PDF

 

English | Español | Português | 中文

订阅技术雷达简报

 

立即订阅

查看存档并阅读往期内容