Método de compressão sem treinamento reduz vetores a 3-4 bits e mantém a precisão das respostas em sistemas RAG.
O aumento do consumo de memória em agentes de inteligência artificial impulsionou o desenvolvimento do TurboQuant, um método de compressão que reduz o tamanho dos vetores sem exigir treinamento adicional. A técnica foi apresentada por Shashi Jagtap, fundador da Superagentic AI, como uma solução para otimizar o uso de hardware já existente, diminuindo a necessidade de armazenamento em sistemas de recuperação de dados.
De acordo com a apresentação, embeddings e tokens no cache KV (Key-Value) são tradicionalmente armazenados em precisão de 32 bits, um peso quatro vezes maior do que o necessário para operações de busca. O TurboQuant comprime cada vetor para aproximadamente 3 a 4 bits. A preservação da qualidade das respostas é garantida por uma etapa de reordenação (rerank) após a recuperação dos dados, mantendo a hierarquia de relevância dos resultados em relação à consulta do usuário.
A proposta é que a tecnologia seja integrada de forma neutra em relação a fornecedores, encaixando-se tanto no cache KV do modelo quanto em bancos de vetores usados em arquiteturas de Geração Aumentada por Recuperação (RAG). Segundo Jagtap, desenvolvedores podem manter seus frameworks de agentes e bancos de dados vetoriais atuais, substituindo apenas o recuperador de dados pela solução comprimida.
Durante a demonstração prática, o mesmo agente de IA gerou respostas idênticas operando em um índice cerca de cinco vezes menor. O código-fonte e os slides utilizados na apresentação foram disponibilizados publicamente em repositórios no GitHub, permitindo a reprodução do experimento pela comunidade de desenvolvedores.
A pesquisa original por trás do método é atribuída ao Google Research, com publicação prevista na conferência ICLR 2026. O foco da iniciativa é oferecer uma alternativa prática para que aplicações de IA consigam armazenar mais informações de memória sem incorrer em custos elevados de infraestrutura de RAM.
TurboQuant é um método de compressão sem treinamento que reduz o tamanho dos vetores de memória em agentes de IA de 32 bits para aproximadamente 3 a 4 bits. Ele mantém a precisão das respostas utilizando uma etapa de reordenação (rerank) após a recuperação dos dados.
Não. Durante as demonstrações, o mesmo agente de IA gerou respostas idênticas operando em um índice cerca de cinco vezes menor. A qualidade é preservada graças à reordenação dos resultados, que mantém a hierarquia de relevância em relação à consulta do usuário.
A tecnologia é neutra em relação a fornecedores e pode ser integrada tanto no cache KV do modelo quanto em bancos de vetores de sistemas RAG. Desenvolvedores podem manter seus frameworks atuais, substituindo apenas o recuperador de dados pela solução comprimida.