FastChat

Technology Radar

Publicado : Oct 23, 2024

NÃO ENTROU NA EDIÇÃO ATUAL

Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais

Oct 2024

Experimente

FastChat é uma plataforma aberta para treinamento, disponibilização e avaliação de grandes modelos de linguagem (LLMs). Nossas equipes usam seus recursos de fornecimento de modelos para hospedar vários modelos — Llama 3.1 (8B e 70B), Mistral 7B e Llama-SQL — para diferentes finalidades, tudo em um formato consistente de API OpenAI. O FastChat opera em uma arquitetura de controlador-agente, permitindo que vários agentes hospedem modelos diferentes. Ele oferece suporte a tipos de agentes, como vLLM, LiteLLM e MLX. Usamos vLLM model workers por seus recursos de alta taxa de transferência. Dependendo do caso de uso (latência ou taxa de transferência), diferentes tipos de agentes modelo do FastChat podem ser criados e dimensionados. Por exemplo, o modelo usado para sugestões de código em IDEs de desenvolvedoras exige baixa latência e pode ser dimensionado com vários agentes FastChat para lidar com solicitações simultâneas de forma eficiente. Por outro lado, o modelo usado para Text-to-SQL não precisa de vários agentes devido à menor demanda ou a diferentes requisitos de desempenho. Nossas equipes aproveitam os recursos de dimensionamento do FastChat para testes A/B. Configuramos os agentes do FastChat com o mesmo modelo, mas com valores de hiperparâmetro diferentes, e fazemos perguntas idênticas a cada um deles, identificando os valores ideais de hiperparâmetro. Ao fazer a transição de modelos em tempo real, realizamos testes A/B para garantir uma migração perfeita. Por exemplo, recentemente migramos do CodeLlama 70B para o Llama 3.1 70B para sugestões de código. Executando os dois modelos simultaneamente e comparando os resultados, verificamos que o novo modelo atendia ou excedia o desempenho do modelo anterior sem interromper a experiência da pessoa desenvolvedora.