Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Atualizado em : Oct 23, 2024
Oct 2024
Experimente ?

vLLM é um motor de inferência de alto rendimento e eficiente em termos de memória para LLMs que pode rodar na nuvem ou localmente. Suporta perfeitamente múltiplas arquiteturas de modelos e modelos populares de código aberto. Nossos times implementam agentes vLLM em contêineres Docker em plataformas GPU como NVIDIA DGX e Intel HPC, hospedando modelos como Llama 3.1(8B e 70B), Mistral 7B e Llama-SQL para assistência de desenvolvimento de código, busca de conhecimento e interação com banco de dados de linguagem natural. O vLLM é compatível com o padrão SDK da OpenAI, facilitando uma consistente entrega de modelos. O catálogo de modelos de IA da Azure usa um contêiner de inferência personalizado para aprimorar a performance na entrega de modelos, com o vLLM como motor de inferência padrão devido a sua alta taxa de transferência e eficiente gerenciamento de memória. O framework vLLM está se consolidando como padrão para implantações de modelos em larga escala.

Apr 2024
Avalie ?

O vLLM é um motor de inferência e serviço de alta performance e eficiência de memória para modelos de linguagem de grande porte (LLMs). Sua eficiência se deve principalmente à implementação de continuous batching para requisições recebidas. Ele suporta diversas opções de implantação, incluindo inferência e serviço distribuído com paralelismo de tensores usando o runtime Ray, implantação em nuvem com SkyPilot e implantação com NVIDIA Triton, Docker e LangChain. Nossos times tiveram boas experiências executando workers vLLM dockerizados em máquinas virtuais on-prem, integrando com um servidor de API compatível com OpenAI - o qual, por sua vez, é utilizado por diversas aplicações, incluindo plugins de IDE para auxílio à codificação e chatbots. Nossas equipes utilizam o vLLM para rodar modelos como CodeLlama 70B, CodeLlama 7B e Mixtral. Outro destaque é a capacidade de escala do motor: bastam algumas alterações na configuração para rodar um modelo de 7B para 70B. Se você busca colocar LLMs em produção, o vLLM merece ser explorado.

Publicado : Apr 03, 2024

Baixe o PDF

 

 

 

English | Español | Português | 中文

Inscreva-se para receber o boletim informativo Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores