Debate sobre escala em IA mira uso eficiente de GPUs, não só compra de chips

Em entrevista ao latent.space, Anjney Midha argumenta que a próxima etapa da infraestrutura de IA dependerá mais de engenharia de sistemas, utilização e confiabilidade de clusters do que apenas de expansão de CapEx.

A discussão sobre infraestrutura de IA costuma girar em torno da escassez de GPUs, mas uma entrevista publicada pelo latent.space coloca outro gargalo no centro: a baixa conversão de capacidade teórica de computação em progresso real de treinamento. Segundo a publicação, Anjney Midha, da AMP, defende que a corrida por modelos maiores não será resolvida apenas com a compra de mais aceleradores.

O texto aponta que parte relevante do problema está em métricas como MFU (Model FLOPs Utilization), que mede quanto da capacidade de cálculo disponível é efetivamente usada no treinamento. Segundo o latent.space, Midha afirma que operações de ponta hoje podem chegar a algo na faixa de 60% a 70% de MFU, enquanto a publicação cita estimativas menores para execuções históricas de grandes modelos, como GPT-3, Gopher, Megatron-Turing NLG e PaLM.

A entrevista também menciona, segundo o latent.space, que um laboratório de fronteira como a xAI poderia estar operando abaixo de 10% de MFU. O ponto apresentado não é tratar isso como falha isolada de uma empresa, mas como sintoma de uma mudança no tipo de desafio: a escala em IA passa a depender de agendamento de cargas, redes, kernels, frameworks, pipelines de dados, paralelismo e confiabilidade de clusters.

Midha, descrito pela publicação como ex-líder ligado à plataforma de desenvolvedores do Discord e investidor em empresas como Anthropic, Mistral, Black Forest Labs e Periodic Labs, agora trabalha na AMP em uma proposta de grade independente de computação. Segundo o latent.space, a ideia é tornar o acesso e o uso de FLOPs mais coordenados e eficientes, em vez de depender apenas de grandes compras de hardware.

A leitura geral da entrevista é que a infraestrutura de IA está se tornando um problema de engenharia operacional. Se a capacidade instalada não for bem utilizada, mais gasto em chips pode não se traduzir proporcionalmente em modelos melhores ou treinamentos mais rápidos — uma hipótese que, na entrevista, Midha associa à necessidade de sistemas mais alinhados, eficientes e confiáveis.