Um dos avanços mais significativos da IA desde o último Radar foi o surgimento e proliferação dos modelos de raciocínio. Também comercializados como modelos de pensamento, esses modelos alcançaram desempenho de alto nível humano em benchmarks como matemática avançada e programação.
Modelos de raciocínio são geralmente treinados por meio de aprendizado por reforço ou ajuste fino supervisionado, aprimorando capacidades como pensamento passo a passo (CoT), exploração de alternativas (ToT) e autocorreção. Exemplos incluem o1/o3 da OpenAI, DeepSeek R1 e Gemini 2.0 Flash Thinking. No entanto, esses modelos devem ser vistos como uma categoria distinta de modelos de linguagem de grande porte (LLMs), em vez de simplesmente versões mais avançadas.
Essa capacidade aumentada tem um custo. Modelos de raciocínio exigem maior tempo de resposta e maior consumo de tokens, levando-nos a chamá-los jocosamente de IA mais lenta (como se a IA atual já não fosse lenta o suficiente). Nem todas as tarefas justificam essa troca. Para tarefas mais simples, como sumarização de texto, geração de conteúdo ou chatbots de resposta rápida, LLMs de uso geral continuam sendo a melhor escolha. Aconselhamos o uso de modelos de raciocínio em áreas STEM (ciência, tecnologia, engenharia e matemática), resolução de problemas complexos e tomada de decisões — por exemplo, ao usar LLMs como juízes ou melhorar a explicabilidade por meio de saídas CoT explícitas. No momento em que escrevemos este texto, o Claude 3.7 Sonnet, um modelo de raciocínio híbrido, havia acabado de ser lançado, sugerindo uma possível fusão entre LLMs tradicionais e modelos de raciocínio.
