Modelos de linguagem de grande porte (LLMs) geralmente requerem infraestrutura significativa de GPU para operar, porém há uma forte imposição para fazê-los funcionar em um hardware mais modesto. A quantização de um modelo de grande porte pode reduzir os requisitos de memória, permitindo que um modelo de alta fidelidade seja executado em hardware de custo menor ou até mesmo em uma CPU. Esforços como o llama.cpp tornam possível executar LLMs em hardware, incluindo Raspberry Pis, laptops e servidores de commodities. Muitas organizações estão implantando LLMs auto-hospedados. Isso geralmente ocorre devido a preocupações de segurança ou privacidade, ou, às vezes, à necessidade de executar modelos em dispositivos de borda. Exemplos de código aberto incluem GPT-J, GPT-JT, e Llama. Essa abordagem oferece melhor controle do modelo durante o ajuste fino para um caso de uso específico, segurança e privacidade aprimoradas, bem como acesso offline. Embora tenhamos ajudado alguns de nossos clientes a hospedar LLMs de código aberto para completar código, recomendamos que você avalie cuidadosamente as capacidades organizacionais e o custo de executar esses LLMs, antes de tomar a decisão de hospedá-los.
Grandes Modelos de Linguagem (LLMs) geralmente requerem infraestrutura de GPU significativa para operar. Agora estamos começando a ver ferramentas para outras plataformas, como o llama.cpp, que possibilitam a execução de LLMs em plataformas de hardware diferentes – incluindo Raspberry Pis, laptops e servidores comuns. Assim, os LLMs auto-hospedados agora são uma realidade. Atualmente, há vários LLMs de código aberto como o GPT-J, o GPT-JT e o LLaMA que podem ser auto-hospedados. Essa abordagem traz vários benefícios, como melhor controle no ajuste fino para o caso de uso específico, segurança e privacidade aprimoradas, bem como, obviamente, acesso offline. No entanto, você deve avaliar cuidadosamente os recursos dentro da organização e o custo de rodar tais LLMs antes de decidir auto-hospedar.