Método de memória ranqueada por utilidade propõe usar histórico de sucesso e falha para melhorar desempenho em tempo de execução.
A maioria dos sistemas de agentes de inteligência artificial em produção opera com uma deficiência estrutural: cada nova execução começa do zero, sem aproveitar o aprendizado de tentativas anteriores. Segundo Sonam Pankaj, CEO e cofundadora da StarlightSearch, as ferramentas de observabilidade registram rastros de execução e os sistemas de avaliação registram sucessos e falhas, mas o agente que roda em um dia não retém memória sobre por que as execuções do dia anterior funcionaram ou falharam.
As abordagens atuais de memória têm limitações específicas que impedem o fechamento do ciclo de aprendizado. Buffers de conversa consideram apenas a recência das informações, sistemas semânticos recuperam conteúdos por similaridade textual em vez de utilidade comprovada, e métodos baseados em reflexão capturam lições sem distinguir quais delas realmente funcionam na prática. A lacuna entre observação e ação permanece aberta.
A proposta apresentada por Pankaj é o conceito de memória ranqueada por utilidade, que trata cada memória como um score de crédito. Quando uma memória é recuperada e a execução do agente é bem-sucedida, sua utilidade aumenta; quando a execução falha, a utilidade diminui. A fórmula de ranqueamento combina similaridade semântica com o histórico de resultados.
Segundo a apresentação, o método foi demonstrado com um agente de SQL que atualiza o contexto em tempo de execução com base no desfecho de cada operação. Toda a atualização acontece durante a execução, sem intervenção manual. Pankaj também é cocriadora do embedanything, um pipeline em Rust para RAG (Retrieval-Augmented Generation) com mais de 450 mil downloads e contribuições de empresas como Elastic, Milvus e Qdrant.
A questão central exposta é que a utilidade deve ser o critério principal para a memória de agentes, em vez de apenas similaridade ou recência. O argumento é que sem um mecanismo que pondere memórias pelo histórico de resultados, os agentes repetem erros e não consolidam acertos, limitando a evolução do desempenho ao longo do tempo.
Porque cada nova execução começa do zero, sem reter o aprendizado de tentativas anteriores. As ferramentas atuais registram sucessos e falhas, mas o agente não utiliza essa memória para entender por que execuções passadas funcionaram ou falharam.
É um método que trata cada memória como um score de crédito. Quando uma memória é recuperada e a execução do agente é bem-sucedida, sua utilidade aumenta; se a execução falha, a utilidade diminui, combinando similaridade semântica com o histórico de resultados.
Porque métodos baseados apenas em recência ou similaridade textual não distinguem quais lições realmente funcionam na prática. Sem ponderar as memórias pelo histórico de resultados, os agentes repetem erros, não consolidam acertos e limitam a evolução do seu desempenho.