Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Oct 23, 2024
Oct 2024
Experimente ?

FastChat é uma plataforma aberta para treinamento, disponibilização e avaliação de grandes modelos de linguagem (LLMs). Nossas equipes usam seus recursos de fornecimento de modelos para hospedar vários modelos — Llama 3.1 (8B e 70B), Mistral 7B e Llama-SQL — para diferentes finalidades, tudo em um formato consistente de API OpenAI. O FastChat opera em uma arquitetura de controlador-agente, permitindo que vários agentes hospedem modelos diferentes. Ele oferece suporte a tipos de agentes, como vLLM, LiteLLM e MLX. Usamos vLLM model workers por seus recursos de alta taxa de transferência. Dependendo do caso de uso (latência ou taxa de transferência), diferentes tipos de agentes modelo do FastChat podem ser criados e dimensionados. Por exemplo, o modelo usado para sugestões de código em IDEs de desenvolvedoras exige baixa latência e pode ser dimensionado com vários agentes FastChat para lidar com solicitações simultâneas de forma eficiente. Por outro lado, o modelo usado para Text-to-SQL não precisa de vários agentes devido à menor demanda ou a diferentes requisitos de desempenho. Nossas equipes aproveitam os recursos de dimensionamento do FastChat para testes A/B. Configuramos os agentes do FastChat com o mesmo modelo, mas com valores de hiperparâmetro diferentes, e fazemos perguntas idênticas a cada um deles, identificando os valores ideais de hiperparâmetro. Ao fazer a transição de modelos em tempo real, realizamos testes A/B para garantir uma migração perfeita. Por exemplo, recentemente migramos do CodeLlama 70B para o Llama 3.1 70B para sugestões de código. Executando os dois modelos simultaneamente e comparando os resultados, verificamos que o novo modelo atendia ou excedia o desempenho do modelo anterior sem interromper a experiência da pessoa desenvolvedora.

Baixe o PDF

 

 

 

English | Español | Português | 中文

Inscreva-se para receber o boletim informativo Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores