Mixtral faz parte da família de modelos de linguagem de grande porte aberta Mistral recém-lançada, que utiliza a arquitetura sparse Mixture of Experts. A família de modelos está disponível tanto na forma pré-treinada quanto fine-tuned, com tamanhos de parâmetros de 7B e 8x7B. Seu tamanho, natureza de pesos abertos, desempenho em benchmarks e comprimento de contexto de 32.000 tokens o tornam uma boa opção para LLMs auto-hospedados. É importante destacar que esses modelos de pesos abertos não são ajustados para segurança por padrão, e as pessoas usuárias precisam refinar a moderação com base em seus próprios casos de uso. Temos experiência com essa família de modelos no desenvolvimento do Aalap.1-bf16, um modelo Mistral 7B ajustado e treinado em dados relacionados a tarefas jurídicas indianas específicas, que teve um desempenho bastante satisfatório em comparação a um custo acessível.
