更新于 : Sep 27, 2023
不在本期内容中
这一条目不在当前版本的技术雷达中。如果它出现在最近几期中,那么它很有可能仍然具有相关参考价值。如果这一条目出现在更早的雷达中,那么它很有可能已经不再具有相关性,我们的评估将不再适用于当下。很遗憾我们没有足够的带宽来持续评估以往的雷达内容。
了解更多
Sep 2023
评估
大语言模型(LLMs)通常需要大量的 GPU 基础设施才能运行,但目前有强烈的推动力使它们可以在更简单的硬件上运行。对大语言模型进行量化可以减少内存需求,使高保真度模型可以在成本更低廉的硬件甚至是 CPU 上运行。像 llama.cpp 这样的工作使大语言模型可以在包括树莓派、笔记本电脑和通用服务器在内的硬件上运行成为可能。
许多组织正在部署 自托管式大语言模型 。这往往是出于安全或隐私方面的考虑,有时是因为需要在边缘设备上运行模型。开源示例包括 GPT-J、GPT-JT 和 Llama。这种方法提供了更好的模型控制,以进行特定用途的微调,提高了安全性和隐私性,以及离线访问的可能性。尽管我们已经帮助一些客户自托管开源大语言模型用于代码生成,但我们建议在决定自托管之前仔细评估组织的能力和运行这类大语言模型的成本。
发布于 : Apr 26, 2023