Desde la última vez que hablamos de BERT (Bidirectional Encoder Representations from Transformers) en el Radar, nuestros equipos lo han utilizado exitosamente en unos cuantos proyectos de procesamiento del lenguaje natural (NLP por sus iniciales en inglés). En una de nuestras colaboraciones, observamos mejoras significativas al cambiar el tokenizador por defecto de BERT por un tokenizador word-piece entrenado por el dominio, para preguntas que contenían nombres de marcas o dimensiones. Aunque NLP tiene varios modelos nuevos de transformador, BERT es bien conocido, con una buena documentación y una vibrante comunidad, y continuamos considerándolo efectivo en un contexto de NLP empresarial.
BERT (Bidirectional Encoder Representations from Transformers) es un nuevo método de representación de lenguaje pre-entrenado publicado por investigadores de Google en Octubre de 2018. BERT ha modificado significativamente el ecosistema del procesamiento del lenguaje natural (PLN) obteniendo resultados vanguardistas en una amplia gama de tareas de PLN. Basado en una arquitectura Transformer, durante el entrenamiento aprende del contexto de un token tanto por la derecha como por la izquierda. Google también ha publicado modelos pre-entrenados de propósito general para BERT que han sido entrenados en un gran corpus de texto no etiquetado, incluyendo la Wikipedia. Developers pueden usar y ajustar estos modelos pre-entrenados para los datos específicos de su tarea y conseguir grandes resultados. Hablamos acerca de transferencia de aprendizaje en PLN en nuestra edición de Abril de 2019 del Radar; BERT y sus sucesores continúan haciendo que la transferencia de aprendizaje para PLN sea un campo muy interesante, reduciendo significativamente el esfuerzo para usuarios que lidian con la clasificación de texto.