TurboQuant promete comprimir memória de agentes de IA sem perda de qualidade

Método de compressão sem treinamento reduz vetores a 3-4 bits e mantém a precisão das respostas em sistemas RAG.

O aumento do consumo de memória em agentes de inteligência artificial impulsionou o desenvolvimento do TurboQuant, um método de compressão que reduz o tamanho dos vetores sem exigir treinamento adicional. A técnica foi apresentada por Shashi Jagtap, fundador da Superagentic AI, como uma solução para otimizar o uso de hardware já existente, diminuindo a necessidade de armazenamento em sistemas de recuperação de dados.

De acordo com a apresentação, embeddings e tokens no cache KV (Key-Value) são tradicionalmente armazenados em precisão de 32 bits, um peso quatro vezes maior do que o necessário para operações de busca. O TurboQuant comprime cada vetor para aproximadamente 3 a 4 bits. A preservação da qualidade das respostas é garantida por uma etapa de reordenação (rerank) após a recuperação dos dados, mantendo a hierarquia de relevância dos resultados em relação à consulta do usuário.

A proposta é que a tecnologia seja integrada de forma neutra em relação a fornecedores, encaixando-se tanto no cache KV do modelo quanto em bancos de vetores usados em arquiteturas de Geração Aumentada por Recuperação (RAG). Segundo Jagtap, desenvolvedores podem manter seus frameworks de agentes e bancos de dados vetoriais atuais, substituindo apenas o recuperador de dados pela solução comprimida.

Durante a demonstração prática, o mesmo agente de IA gerou respostas idênticas operando em um índice cerca de cinco vezes menor. O código-fonte e os slides utilizados na apresentação foram disponibilizados publicamente em repositórios no GitHub, permitindo a reprodução do experimento pela comunidade de desenvolvedores.

A pesquisa original por trás do método é atribuída ao Google Research, com publicação prevista na conferência ICLR 2026. O foco da iniciativa é oferecer uma alternativa prática para que aplicações de IA consigam armazenar mais informações de memória sem incorrer em custos elevados de infraestrutura de RAM.