Próximo paradigma de IA foca em aprendizado durante a execução de tarefas

Laboratórios de pesquisa apostam que modelos futuros evoluirão por meio de reforço com verificação e atualização contínua de pesos.

Os principais laboratórios de inteligência artificial estão direcionando seus esforços de pesquisa para um novo paradigma de desenvolvimento: a capacidade dos modelos aprenderem enquanto executam tarefas. Em vez de depender exclusivamente do treinamento prévio com dados estáticos, a próxima geração de IA deverá incorporar mecanismos de aprendizado em tempo real. Segundo o podcast Dwarkesh, essa mudança representa a principal aposta científica do setor para alcançar avanços significativos nos próximos anos.

Para que esse aprendizado durante o trabalho seja eficaz, a viabilidade técnica do processo é um fator tão crucial quanto a verificação das respostas. O desenvolvimento contínuo depende fortemente do Reinforcement Learning with Verifiable Rewards (RLVR), ou aprendizado por reforço com recompensas verificáveis. No entanto, há um debate em andamento sobre se a técnica de RLVR por si só será capaz de generalizar o conhecimento de forma adequada para lidar com cenários complexos não previstos durante o treinamento.

Um dos maiores desafios técnicos dessa abordagem é conseguir transferir o aprendizado adquirido em tempo de execução de volta para os pesos do modelo. Essa atualização dos parâmetros estruturais da IA é o que permite que o conhecimento se consolide de fato, em vez de permanecer apenas em interações temporárias. Os pesquisadores também exploram conceitos relacionados a processos de "sonho", nos quais os modelos poderiam simular e processar informações internamente para otimizar seu desempenho futuro.

A expectativa dos pesquisadores ouvidos pelo Dwarkesh Podcast é que essas inovações se consolidem em um horizonte de aproximadamente três anos. Caso as apostas atuais se concretizem, o cenário de 2027 poderá marcar a transição para sistemas de IA dinâmicos, capazes de se adaptar e melhorar continuamente através da própria operação.