Sistemas de agentes de IA enfrentam gargalo de memória entre execuções, aponta especialista

Método de memória ranqueada por utilidade propõe usar histórico de sucesso e falha para melhorar desempenho em tempo de execução.

A maioria dos sistemas de agentes de inteligência artificial em produção opera com uma deficiência estrutural: cada nova execução começa do zero, sem aproveitar o aprendizado de tentativas anteriores. Segundo Sonam Pankaj, CEO e cofundadora da StarlightSearch, as ferramentas de observabilidade registram rastros de execução e os sistemas de avaliação registram sucessos e falhas, mas o agente que roda em um dia não retém memória sobre por que as execuções do dia anterior funcionaram ou falharam.

As abordagens atuais de memória têm limitações específicas que impedem o fechamento do ciclo de aprendizado. Buffers de conversa consideram apenas a recência das informações, sistemas semânticos recuperam conteúdos por similaridade textual em vez de utilidade comprovada, e métodos baseados em reflexão capturam lições sem distinguir quais delas realmente funcionam na prática. A lacuna entre observação e ação permanece aberta.

A proposta apresentada por Pankaj é o conceito de memória ranqueada por utilidade, que trata cada memória como um score de crédito. Quando uma memória é recuperada e a execução do agente é bem-sucedida, sua utilidade aumenta; quando a execução falha, a utilidade diminui. A fórmula de ranqueamento combina similaridade semântica com o histórico de resultados.

Segundo a apresentação, o método foi demonstrado com um agente de SQL que atualiza o contexto em tempo de execução com base no desfecho de cada operação. Toda a atualização acontece durante a execução, sem intervenção manual. Pankaj também é cocriadora do embedanything, um pipeline em Rust para RAG (Retrieval-Augmented Generation) com mais de 450 mil downloads e contribuições de empresas como Elastic, Milvus e Qdrant.

A questão central exposta é que a utilidade deve ser o critério principal para a memória de agentes, em vez de apenas similaridade ou recência. O argumento é que sem um mecanismo que pondere memórias pelo histórico de resultados, os agentes repetem erros e não consolidam acertos, limitando a evolução do desempenho ao longo do tempo.