vLLM es un motor de inferencia de alto rendimiento y gestión de memoria eficiente para LLM que puede ejecutarse en la nube o en servidores propios. Admite perfectamente múltiples modelos de arquitectura y modelos populares de código abierto. Nuestros equipos despliegan tareas vLLM en plataformas GPU como NVIDIA DGX e Intel HPC, alojando modelos como por ejemplo Llama 3.1(8B and 70B), Mistral 7B, y Llama-SQL para la asistencia en desarrollo de código, búsqueda de conocimiento e interacciones de bases de datos en lenguaje natural. vLLM es compatible con el estándar de OpenAI SDK, facilitando un servicio de modelo consistente. El catálogo de modelos de IA de Azure utiliza un contenedor de inferencia personalizado para mejorar el rendimiento del servicio de modelos, con vLLM como motor de inferencia predeterminado debido a su alto rendimiento y gestión eficiente de la memoria. El framework vLLM está emergiendo como el modelo predeterminado de despliegues a larga escala.
vLLM es un motor de servicio e inferencia de alto rendimiento y memoria eficiente para modelos lingüísticos grandes (LLM), que es particularmente eficiente gracias a su implementación de procesamiento por lotes continuos para solicitudes entrantes. Admite varias opciones de despliegue, incluyendo el despliegue de inferencia distribuida con tensores en paralelo usando Ray como servidor en tiempo de ejecución, despliegue en la nube con SkyPilot y despliegue con NVIDIA Triton, Docker y LangChain. Nuestros equipos han tenido una buena experiencia ejecutando servicios de trabajo de vLLM dockerizados en una máquina virtual on-prem, integrando un servidor API de OpenAI compatible, que a su vez se aprovecha de una variedad de aplicaciones, incluyendo complementos de IDE para asistencia en codificación y chatbots. Nuestros equipos utilizan vLLM para ejecutar modelos como CodeLlama 70B, CodeLlama 7B y Mixtral. Además es notable la capacidad de escalamiento del motor: solo son necesarios un par de cambios de configuración para pasar de ejecutar un modelo 7B a uno 70B. Si está buscando generar LLM, vale la pena explorar vLLM.