Ragas es un framework diseñado para evaluar el rendimiento de los pipelines de [generación aumentada por recuperación (RAG por sus siglas en inglés)], abordando el desafío de evaluar tanto los componentes de recuperación como los de generación en estos sistemas. Proporciona métricas estructuradas como fidelidad, relevancia de la respuesta y utilización del contexto, que ayudan a evaluar la efectividad de los sistemas basados en RAG. Nuestros desarrolladores lo encontraron útil para realizar evaluaciones periódicas con el fin de afinar parámetros como las recuperaciones top-k y los modelos de incrustación. Algunos equipos han integrado Ragas en pipelines que se ejecutan diariamente, siempre que cambie la plantilla de prompts o el modelo. Aunque sus métricas ofrecen información valiosa, nos preocupa que el framework no capture todas las sutilezas e interacciones complejas de los pipelines RAG, y recomendamos considerar otros frameworks de evaluación adicionales. No obstante, Ragas destaca por su capacidad de optimizar la evaluación de RAG en entornos de producción, ofreciendo valiosas mejoras basadas en datos.