Uno de los avances más significativos en IA desde el último Radar es el descubrimiento y proliferación de los modelos de razonamiento. También comercializados comomodelos de pensamiento, estos modelos han alcanzado un rendimiento a nivel humano en benchmarks como matemáticas avanzadas y programación. Los modelos de razonamiento suelen entrenarse mediante aprendizaje por refuerzo o fine-tuning supervisado, mejorando capacidades como el raciocinio paso a paso (CoT), la exploración de alternativas (ToT) o la auto-corrección. Algunos ejemplos incluyen o1/o3 de OpenAI, DeepSeek R1 y Gemini 2.0 Flash Thinking. Sin embargo, estos modelos deben considerarse una categoría propia de LLMs en lugar de simples versiones más avanzadas. Estas prestaciones mejoradas tienen un costo. Los modelos de razonamiento requieren un tiempo de respuesta y consumo de tokens mayor, lo que ha llevado a llamarlos de manera jocosaIA más lenta, del inglés “Slower AI” (como si la IA actual no fuera ya lo suficientemente lenta). No todas las tareas justifican este sacrificio. Para tareas más simples como la sumarización de texto, generación de contenido o chatbots de respuesta rápida, los LLMs de propósito general siguen siendo la mejor opción. Recomendamos usar modelos de razonamiento en campos del STEM, y en resolución de problemas complejos y toma de decisiones como, por ejemplo, usando LLMs como jueces o para mejorar la explicabilidad mediante salidas explícitas de CoT. Al momento de escribir esto, Claude 3.7 Sonnet, un modelo híbrido de razonamiento, acaba de ser lanzado, adelantando una posible fusión entre los LLMs tradicionales y los modelos de razonamiento.
