Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Oct 23, 2024
Oct 2024
Probar ?

FastChat es una plataforma abierta para entrenar, servir y evaluar grandes modelos de lenguaje. Nuestros equipos usan la funcionalidad de servir modelos para alojar distintos modelos — Llama 3.1 (8B y 70B), Mistral 7B y Llama-SQL — con distintos propósitos, todos en el formato consistente de OpenAI API. FastChat opera en una arquitectura ejecutor-controlador, permitiendo a múltiples ejecutores alojar modelos diferentes. Soporta tipos de ejecutores como vLLM, LiteLLM y MLX. Nosotros usamos los ejecutores del modelos vLLM por su alto rendimiento. Dependiendo del caso de uso — latencia o rendimiento — se pueden crear o escalar distintos tipos de ejecutores del modelo FastChat. Por ejemplo, el modelo usado para sugerencias de código en los entornos de desarrollo requiere una latencia baja y puede escalarse con múltiples ejecutores de FastChat para gestionar peticiones concurrentes eficientemente. Por el contrario, el modelo usado para Text-to-SQL no necesita muchos ejecutores por su baja demanda o requisitos de rendimiento distintos. Nuestros equipos se valen de la escalabilidad de FastChat para hacer pruebas A/B. Configuramos ejecutores FastChat con el mismo modelo pero con distintos valores para los hiper parámetros y planteamos las mismas preguntas a cada uno, identificando así hiper parámetros óptimos. Cuando migramos modelos de servicios en producción, llevamos a cabo pruebas A/B para asegurar que no haya interrupciones del servicio. Por ejemplo, migramos hace poco de CodeLlama 70B a Llama 3.1 70B para sugerencias de código. Ejecutando ambos modelos concurrentemente y comparando sus salidas, verificamos que el nuevo modelo cumplía o excedía el rendimiento del modelo anterior sin afectar la experiencia de desarrollo.

Descarga el PDF

 

 

 

English | Español | Português | 中文

Suscríbete al boletín informativo de Technology Radar

 

 

 

 

Suscríbete ahora

Visita nuestro archivo para leer los volúmenes anteriores