A geração aumentada por recuperação (RAG) é o padrão preferido por nossas equipes para melhorar a qualidade das respostas geradas por um modelo de linguagem de grande porte (LLM). A técnica tem sido utilizada com sucesso em diversos projetos, incluindo a popular plataforma de IA Jugalbandi AI. Com a RAG, informações sobre documentos relevantes e confiáveis - em formatos como HTML e PDF - são armazenadas em bancos de dados que suportam um tipo de dados vetoriais ou pesquisa eficiente de documentos, como pgvector, Qdrant ou Elasticsearch Relevance Engine. Para um comando específico, o banco de dados é consultado para recuperar documentos relevantes, que são então combinados com o prompt para fornecer um contexto mais rico para o LLM. Isso resulta em saídas de alta qualidade e numa grande redução de alucinações (respostas irrelevantes). A janela de contexto - que determina o tamanho máximo da entrada do LLM - é limitada, o que significa que selecionar os documentos mais relevantes é crucial. Melhoramos a relevância do conteúdo que é adicionado ao comando por meio de uma nova classificação. Da mesma forma, os documentos geralmente são grandes demais para calcular um embedding, o que significa que eles devem ser divididos em partes menores. Esse costuma ser um problema complexo, e uma abordagem é fazer com que as partes se sobreponham até certo ponto.
Retrieval-Augmented Generation (RAG) é uma técnica para combinar memória paramétrica e não paramétrica pré-treinada para geração de linguagem. Ela permite que você aumente o conhecimento existente de LLMs pré-treinados com conhecimento privado e contextual do seu domínio ou setor. Com RAG, você primeiro recupera um conjunto de documentos relevantes da memória não paramétrica (geralmente por meio de uma busca de similaridade a partir de um datastore vetorial) e, em seguida, usa a memória paramétrica dos LLMs para gerar uma saída que seja consistente com os documentos recuperados. Nós achamos que RAG é uma técnica eficaz para uma variedade de tarefas de processamento de linguagem natural (PLN) que requerem conhecimento profundo, incluindo respostas a perguntas, resumo e geração de histórias.