Apresentação no YouTube argumenta que a dificuldade de modelos de linguagem com tarefas espaciais é falha de ferramentas, não de capacidade.
Agentes de inteligência artificial baseados em código demonstram proficiência na escrita de programação, mas enfrentam críticas recorrentes quanto à sua compreensão geoespacial. O benchmark ARC-AGI, por exemplo, é fundamentado na premissa de que modelos de IA falham em raciocínio visual e espacial. Da mesma forma, solicitações diretas a modelos como Claude ou ChatGPT para gerar imagens complexas, como um pelicano andando de bicicleta, frequentemente resultam em saídas distorcidas ou incorretas.
Segundo o desenvolvedor Amol Kapoor, criador da plataforma de IA Nori, o problema não reside na capacidade intrínseca do modelo, mas nas ferramentas utilizadas para a geração de conteúdo visual. Em apresentação intitulada "HTML is All You Need", Kapoor argumenta que a indústria tem investido em soluções excessivamente complexas, como integrações com Figma e interfaces de linha de comando para o Photoshop, apenas para permitir que agentes de IA criem apresentações de slides simples.
Kapoor classifica essas abordagens elaboradas como erro do usuário. A solução proposta pelo desenvolvedor é o uso direto de HTML. Segundo ele, a linguagem de marcação padrão da web fornece toda a estrutura necessária para que os agentes de IA gerem gráficos e interfaces visuais de forma eficaz, eliminando a necessidade de camadas intermediárias de software complexo.
A proposta se alinha com o desenvolvimento da Nori, empresa fundada por Kapoor. A plataforma é descrita como um funcionário de IA de baixo custo e altamente customizável, focado em automações de desenvolvimento, operações e vendas. A ênfase no uso de HTML sugere uma tendência de simplificação da pilha tecnológica necessária para que agentes autônomos atuem na criação de conteúdo visual.
O debate sobre as limitações espaciais dos modelos de linguagem continua central na avaliação de suas capacidades rumo à inteligência artificial geral. Enquanto benchmarks rigorosos mantêm o foco nas falhas de raciocínio visual, abordagens pragmáticas como a apresentada por Kapoor indicam que ajustes na forma de interação e nas ferramentas de saída podem mitigar restrições operacionais atuais.
Segundo o desenvolvedor Amol Kapoor, a dificuldade não reside na capacidade intrínseca do modelo de IA, mas nas ferramentas utilizadas. A indústria tem investido em soluções complexas, como integrações com Figma e Photoshop, em vez de usar ferramentas mais adequadas.
O desenvolvedor propõe o uso direto de HTML. Ele argumenta que a linguagem de marcação fornece toda a estrutura necessária para que os agentes de IA gerem gráficos e interfaces visuais de forma eficaz, eliminando camadas intermediárias de software.
A Nori é uma plataforma criada por Amol Kapoor, descrita como um funcionário de IA de baixo custo e altamente customizável. Ela é focada em automações de desenvolvimento, operações e vendas, utilizando HTML para a criação de conteúdo visual.