Laboratórios de pesquisa apostam que modelos futuros evoluirão por meio de reforço com verificação e atualização contínua de pesos.
Os principais laboratórios de inteligência artificial estão direcionando seus esforços de pesquisa para um novo paradigma de desenvolvimento: a capacidade dos modelos aprenderem enquanto executam tarefas. Em vez de depender exclusivamente do treinamento prévio com dados estáticos, a próxima geração de IA deverá incorporar mecanismos de aprendizado em tempo real. Segundo o podcast Dwarkesh, essa mudança representa a principal aposta científica do setor para alcançar avanços significativos nos próximos anos.
Para que esse aprendizado durante o trabalho seja eficaz, a viabilidade técnica do processo é um fator tão crucial quanto a verificação das respostas. O desenvolvimento contínuo depende fortemente do Reinforcement Learning with Verifiable Rewards (RLVR), ou aprendizado por reforço com recompensas verificáveis. No entanto, há um debate em andamento sobre se a técnica de RLVR por si só será capaz de generalizar o conhecimento de forma adequada para lidar com cenários complexos não previstos durante o treinamento.
Um dos maiores desafios técnicos dessa abordagem é conseguir transferir o aprendizado adquirido em tempo de execução de volta para os pesos do modelo. Essa atualização dos parâmetros estruturais da IA é o que permite que o conhecimento se consolide de fato, em vez de permanecer apenas em interações temporárias. Os pesquisadores também exploram conceitos relacionados a processos de "sonho", nos quais os modelos poderiam simular e processar informações internamente para otimizar seu desempenho futuro.
A expectativa dos pesquisadores ouvidos pelo Dwarkesh Podcast é que essas inovações se consolidem em um horizonte de aproximadamente três anos. Caso as apostas atuais se concretizem, o cenário de 2027 poderá marcar a transição para sistemas de IA dinâmicos, capazes de se adaptar e melhorar continuamente através da própria operação.
O novo paradigma de IA é a capacidade dos modelos aprenderem e evoluírem enquanto executam tarefas, em tempo real, em vez de dependerem exclusivamente do treinamento prévio com dados estáticos.
RLVR (Reinforcement Learning with Verifiable Rewards) é o aprendizado por reforço com recompensas verificáveis. É a técnica fundamental para viabilizar o desenvolvimento contínuo da IA, embora haja debates sobre sua capacidade de generalizar conhecimento para cenários complexos.
O maior desafio é transferir o aprendizado adquirido em tempo de execução de volta para os pesos do modelo. Essa atualização estrutural é o que permite que o conhecimento se consolide permanentemente, e não apenas em interações temporárias.