Especialistas apontam que a representação compacta do estado da página e o feedback contínuo são mais determinantes para o sucesso de agentes do que apenas a troca por modelos de linguagem mais avançados.
Apesar dos recentes avanços em modelos de linguagem, agentes de inteligência artificial voltados para navegação web continuam apresentando falhas em fluxos de trabalho básicos. A tendência atual no setor tem sido resolver essas limitações por meio de melhorias nos próprios modelos, como visão mais aguçada, contextos mais longos e planejamento mais inteligente. No entanto, a análise do mercado indica que o principal gargalo de desempenho não está na capacidade cognitiva do modelo, mas na interface que o conecta ao navegador.
Segundo o engenheiro de machine learning Kushan Raj, da ARK, o desenvolvimento de agentes de navegador exige foco em três pilares fundamentais: o que o modelo enxerga, o que ele pode executar e o que ele aprende com o processo. Raj, que também atua como engenheiro fundador na Sarvam AI onde construiu uma stack de IA de voz em tempo real, defende que a solução passa pela construção de um runtime adequado para esses agentes.
Em vez de fornecer um descarregamento bruto de dados da página para o modelo, a abordagem sugerida envolve uma representação compacta do estado da página. Além disso, as ações executadas pelo agente devem contar com identificadores estáveis e rápidos, evitando a ineficiência de um único clique por chamada. O terceiro ponto crítico é a substituição de um sistema de avaliação binário de sucesso ou falha ao final da tarefa por um mecanismo de feedback passo a passo durante a execução.
Testes iniciais demonstraram que a alteração isolada dessa interface de interação foi suficiente para que um mesmo modelo passasse de um estado de confusão para a execução correta de múltiplas etapas, mesmo em páginas web consideradas hostis. A evidência sugere que otimizar o estado do navegador oferecido ao modelo atua como uma alavanca de desempenho muito mais eficaz do que a simples substituição por uma base de inteligência artificial mais robusta.
As falhas ocorrem porque o principal gargalo de desempenho não está na capacidade cognitiva do modelo de linguagem, mas na interface que o conecta ao navegador. Fornecer um descarregamento bruto de dados da página ineficiencia o processo.
Segundo especialistas, os pilares são: o que o modelo enxerga (representação compacta do estado da página), o que ele pode executar (ações com identificadores estáveis e rápidos) e o que ele aprende (feedback contínuo passo a passo durante a execução).
A alteração isolada da interface para oferecer um estado do navegador otimizado permite que até mesmo modelos menos avançados executem múltiplas etapas corretamente em páginas hostis, sendo mais eficaz do que apenas trocar por uma IA mais robusta.