GPTCache é uma biblioteca de cache semântica para modelos de linguagem de grande porte (LLMs). Percebemos a necessidade de uma camada de cache na frente dos LLMs por dois motivos principais: melhorar o desempenho geral, reduzindo as chamadas de API externas; e reduzir o custo de operação, fazendo cache de respostas semelhantes. Ao contrário das abordagens de cache tradicionais que procuram por correspondências exatas, as soluções de cache baseadas em LLMs requerem correspondências semelhantes ou relacionadas para as consultas de entrada. O GPTCache aborda isso com a ajuda de algoritmos de embedding para converter as consultas de entrada em embeddings e, em seguida, usar um datastore vetorial para a busca de similaridades nessas embeddings. Uma desvantagem desse design, é a possibilidade de encontrar falsos positivos durante os hits de cache ou falsos negativos durante as misses de cache, razão pela qual recomendamos que você avalie cuidadosamente o GPTCache para suas aplicações baseadas em LLMs.