FastChat

技术雷达

发布于 : Oct 23, 2024

不在本期内容中

这一条目不在当前版本的技术雷达中。如果它出现在最近几期中，那么它很有可能仍然具有相关参考价值。如果这一条目出现在更早的雷达中，那么它很有可能已经不再具有相关性，我们的评估将不再适用于当下。很遗憾我们没有足够的带宽来持续评估以往的雷达内容。了解更多

Oct 2024

试验

FastChat 是一个开放平台，用于训练、服务和评估大型语言模型。我们的团队利用其模型服务能力来托管多个模型 — Llama 3.1 (8B and 70B) 、Mistral 7B 和 Llama-SQL — 出于不同的目的，所有模型均以一致的 OpenAI API 格式运行。FastChat 采用控制器-工作者架构，允许多个工作者托管不同的模型。它支持不同类型的工作者，如 vLLM、LiteLLM 和 MLX。我们选择使用 vLLM 模型工作者，以利用其在高吞吐量的优势。根据使用案例的不同（比如延迟或吞吐量），可以创建和扩展不同类型的 FastChat 模型工作者。例如，用于开发者 IDE 中代码建议的模型需要低延迟，这就可以通过多个 FastChat 工作者进行扩展，以有效处理并发请求。相反，用于 Text-to-SQL 的模型由于需求较低或性能要求不同，则不需要多个工作者。我们的团队利用 FastChat 的扩展能力进行 A/B 测试。我们用相同的模型但不同的超参数（Hyperparameter）值配置 FastChat 工作者，并向每个工作者提出相同的问题，从而识别最佳的超参数（Hyperparameter）值。在在线服务中切换模型时，我们进行 A/B 测试以确保平滑迁移。例如，我们最近将代码建议的模型从 CodeLlama 70B 迁移到 Llama 3.1 70B。通过同时运行这两个模型并比较输出，我们验证了新模型在性能上达到了或超过了之前的模型，同时没有打断开发者的使用体验。