Enable javascript in your browser for better experience. Need to know to enable it? Go here.
更新于 : Apr 26, 2023
不在本期内容中
这一条目不在当前版本的技术雷达中。如果它出现在最近几期中,那么它很有可能仍然具有相关参考价值。如果这一条目出现在更早的雷达中,那么它很有可能已经不再具有相关性,我们的评估将不再适用于当下。很遗憾我们没有足够的带宽来持续评估以往的雷达内容。 了解更多
Apr 2023
采纳 ?

DVC 一直是我们在数据科学项目中管理实验的首选工具。由于 DVC 是基于 Git 的,因此对于软件开发人员来说,DVC 无疑是一个备感熟悉的环境,他们可以很容易地将以往的工程实践应用于数据科学生态中。DVC 使用其特有的模型检查点视图对训练数据集、测试数据集、模型的超参数和代码进行了精心的封装。通过把可再现性作为首要关注点,它允许团队在不同版本的模型之间进行“时间旅行”。我们的团队已经成功地将 DVC 用于生产环境,实现了机器学习的持续交付(CD4ML)。DVC 可以与任何类型的存储进行集成(包含但不限于 AWS S3、Google Cloud Storage、MinIO 和 Google Drive)。然而,随着数据集变得越来越大,基于文件系统的快照可能会变得特别昂贵。当底层数据发生快速变化时,DVC 借由其良好的版本化存储特性可以追踪一段时间内的模型漂移。我们的团队已经成功地将 DVC 应用于像 Delta Lake 这样的数据存储格式,利用它优化了写入时复制(COW)的版本控制。我们大多数的数据科学团队会把 DVC 加入到项目的“Day 0”任务列表中。因此,我们很高兴将 DVC 移至采纳。

May 2020
试验 ?

在2018年,我们在可重复分析的版本化数据中提到了 DVC。时至今日,它已成为机器学习(ML)项目中管理实验的热门工具。由于 DVC 是基于 Git 的,因此对于软件开发人员来说,DVC 无疑是一个备感熟悉的环境,他们可以很容易地将以往的工程实践应用于 ML 实践中。由于 DVC 实现了对处理数据的代码以及数据本身的版本管理,而且还实现了对流水线的各个阶段的追踪,因此能在建立建模活动秩序的同时可以不扰乱分析师的工作流程。

发布于 : May 19, 2020

下载 PDF

 

English | Español | Português | 中文

订阅技术雷达简报

 

立即订阅

查看存档并阅读往期内容