平台
采纳
试验
-
24. Databricks Unity Catalog
Databricks Unity Catalog 是一种用于数据治理的解决方案,适用于在lakehouse 中的资产,例如文件、表或机器学习模型。它是开源 Unity Catalog的托管版本,可用于管理和查询存储在外部存储或由 Databricks 管理的数据。过去,我们的团队使用了多种数据管理解决方案,如 Hive metastore或 Microsoft Purview。然而,Unity Catalog 对治理、元数据存储管理和数据发现的综合支持,使其颇具吸引力,因为它减少了管理多个工具的需求。我们团队发现的一个问题是 Databricks 托管的 Unity Catalog 缺乏自动灾难恢复功能。虽然他们能够自行配置备份和恢复功能,但由 Databricks 提供的解决方案会更加便捷。需要注意的是,虽然这些治理平台通常会实施集中化的解决方案,以确保工作空间和工作负载之间的一致性,但可以通过让各个团队管理自己的资产,将治理责任下放,从而实现联邦化的治理模式。
-
25. FastChat
FastChat 是一个开放平台,用于训练、服务和评估大型语言模型。我们的团队利用其模型服务能力来托管多个模型 — Llama 3.1 (8B and 70B) 、Mistral 7B 和 Llama-SQL — 出于不同的目的,所有模型均以一致的 OpenAI API 格式运行。FastChat 采用控制器-工作者架构,允许多个工作者托管不同的模型。它支持不同类型的工作者,如 vLLM、LiteLLM 和 MLX。我们选择使用 vLLM 模型工作者,以利用其在高吞吐量的优势。根据使用案例的不同(比如延迟或吞吐量),可以创建和扩展不同类型的 FastChat 模型工作者。例如,用于开发者 IDE 中代码建议的模型需要低延迟,这就可以通过多个 FastChat 工作者进行扩展,以有效处理并发请求。相反,用于 Text-to-SQL 的模型由于需求较低或性能要求不同,则不需要多个工作者。我们的团队利用 FastChat 的扩展能力进行 A/B 测试。我们用相同的模型但不同的超参数(Hyperparameter)值配置 FastChat 工作者,并向每个工作者提出相同的问题,从而识别最佳的超参数(Hyperparameter)值。在在线服务中切换模型时,我们进行 A/B 测试以确保平滑迁移。 例如,我们最近将代码建议的模型从 CodeLlama 70B 迁移到 Llama 3.1 70B。通过同时运行这两个模型并比较输出,我们验证了新模型在性能上达到了或超过了之前的模型,同时没有打断开发者的使用体验。
-
26. GCP Vertex AI Agent Builder
GCP Vertex AI Agent Builder 提供了一个灵活的平台,可以通过自然语言或代码优先的方式创建 AI 代理。该工具通过第三方连接器无缝集成企业数据,并且拥有构建、原型设计和部署 AI 代理所需的全部工具。随着对 AI 代理需求的增加,许多团队在理解其优势和实施上面临困难。GCP Vertex AI Agent Builder 使开发者能够更快地进行代理的原型设计,并以最小的设置处理复杂的数据任务。我们的开发者发现它特别适用于构建基于代理的系统,例如知识库或自动化支持系统,这些系统可以高效地管理结构化和非结构化数据。因此,这是一款开发 AI 驱动解决方案的有价值工具。
-
27. Langfuse
LLM(大型语言模型)像黑箱一样运作,非常难以确定它的行为。可观察性对于打开这个黑箱并理解 LLM 应用程序在生产环境中的运作至关重要。我们团队在使用 Langfuse 方面有过积极的体验,我们曾用它来观察、监控和评估基于 LLM 的应用程序。它的追踪、分析和评估能力使我们能够分析完成性能和准确性,管理成本和延迟,并理解生产使用模式,从而促进持续的数据驱动改进。仪器数据提供了请求-响应流和中间步骤的完整可追溯性,这可以作为测试数据,在部署新变更之前验证应用程序。我们已将 Langfuse 与 RAG(检索增强生成) 等 LLM 架构,以及 大语言模型驱动的自主代理 一起使用。 例如,在基于 RAG 的应用程序中,分析低评分的对话追踪有助于识别架构的哪个部分(如预检索、检索或生成)需要改进。当然,在这一领域,另一个值得考虑的选项是 Langsmith。
暂缓
无法找到需要的信息?
每期技术雷达中的条目都在试图反映我们在过去六个月中的技术洞见,或许你所搜索的内容已经在前几期中出现过。由于我们有太多想要谈论的内容,有时候不得不剔除一些长期没有发生变化的条目。技术雷达来自于我们的主观经验,而非全面的市场分析,所以你可能会找不到自己最在意的技术条目。