DeepEval Es un framework de evaluación de código abierto basado en Python, utilizado para evaluar el rendimiento de los LLM. Puedes usarlo para evaluar la generación aumentada por recuperación (RAG) y otros tipos de aplicaciones creadas con frameworks populares como LlamaIndex o LangChain. También sirve para establecer líneas base y benchmark al comparar diferentes modelos de acuerdo a tus necesidades. DeepEval proporciona un conjunto completo de métricas y funciones para evaluar el rendimiento de los LLM, incluida la detección de alucinaciones, la relevancia de las respuestas y la optimización de híper parámetros. Ofrece integración con pytest y, junto con sus aserciones, puedes fácilmente integrar el conjunto de pruebas en un pipeline de integración continua (CI). Si trabajas con LLM, considera probar DeepEval para mejorar tu proceso de pruebas y garantizar la fiabilidad de tus aplicaciones.