Desde a última vez que falamos sobre BERT (Representações de Codificador Bidirecional de Transformadores, ou Bidirectional Encoder Representations from Transformers em inglês) no Radar, nossos times o usaram com sucesso em alguns projetos de processamento de linguagem natural (PLN). Em uma de nossas clientes, observamos melhorias significativas quando mudamos do tokenizador BERT padrão para um tokenizador de pedaços de palavras treinado por domínio para consultas que contêm substantivos como nomes de marcas ou dimensões. Embora o PLN tenha vários novos modelos de transformadores, o BERT é bem compreendido, conta com boa documentação e uma comunidade vibrante, e continuamos a considerá-lo eficiente em um contexto de PLN empresarial.
BERT significa Bidirectional Encoder Representations from Transformers. É um novo método de pré-treino de representações de linguagem que foi publicado por pesquisadores do Google, em outubro de 2018. BERT alterou significativamente o panorama do processamento de linguagem natural (NLP, em inglês) ao obter resultados de ponta em NLP. Baseado na arquitetura Transformer, ele aprende com contexto do lado esquerdo e do lado direito de um token durante o treinamento. O Google também lançou modelos BERT de uso geral pré-treinados em um grande corpo de texto sem tags, incluindo a Wikipedia. Pessoas desenvolvedoras podem usar e ajustar esses modelos pré-treinados em seus dados para tarefas específicas e conseguir grandes resultados. Falamos sobre transferir aprendizado para NLP em nossa edição de abril de 2019 do Radar. O BERT e seus sucessores continuam a fazer da transferência de aprendizado para NLP uma área muito empolgante, com significativa redução do esforço para usuários lidando com classificação de texto.