Em entrevista ao latent.space, Anjney Midha argumenta que a próxima etapa da infraestrutura de IA dependerá mais de engenharia de sistemas, utilização e confiabilidade de clusters do que apenas de expansão de CapEx.
A discussão sobre infraestrutura de IA costuma girar em torno da escassez de GPUs, mas uma entrevista publicada pelo latent.space coloca outro gargalo no centro: a baixa conversão de capacidade teórica de computação em progresso real de treinamento. Segundo a publicação, Anjney Midha, da AMP, defende que a corrida por modelos maiores não será resolvida apenas com a compra de mais aceleradores.
O texto aponta que parte relevante do problema está em métricas como MFU (Model FLOPs Utilization), que mede quanto da capacidade de cálculo disponível é efetivamente usada no treinamento. Segundo o latent.space, Midha afirma que operações de ponta hoje podem chegar a algo na faixa de 60% a 70% de MFU, enquanto a publicação cita estimativas menores para execuções históricas de grandes modelos, como GPT-3, Gopher, Megatron-Turing NLG e PaLM.
A entrevista também menciona, segundo o latent.space, que um laboratório de fronteira como a xAI poderia estar operando abaixo de 10% de MFU. O ponto apresentado não é tratar isso como falha isolada de uma empresa, mas como sintoma de uma mudança no tipo de desafio: a escala em IA passa a depender de agendamento de cargas, redes, kernels, frameworks, pipelines de dados, paralelismo e confiabilidade de clusters.
Midha, descrito pela publicação como ex-líder ligado à plataforma de desenvolvedores do Discord e investidor em empresas como Anthropic, Mistral, Black Forest Labs e Periodic Labs, agora trabalha na AMP em uma proposta de grade independente de computação. Segundo o latent.space, a ideia é tornar o acesso e o uso de FLOPs mais coordenados e eficientes, em vez de depender apenas de grandes compras de hardware.
A leitura geral da entrevista é que a infraestrutura de IA está se tornando um problema de engenharia operacional. Se a capacidade instalada não for bem utilizada, mais gasto em chips pode não se traduzir proporcionalmente em modelos melhores ou treinamentos mais rápidos — uma hipótese que, na entrevista, Midha associa à necessidade de sistemas mais alinhados, eficientes e confiáveis.
MFU é uma métrica que mede quanto da capacidade teórica de cálculo disponível é efetivamente usada no treinamento de modelos. É importante porque indica a eficiência real da infraestrutura; um MFU baixo significa que a capacidade instalada está sendo subutilizada, tornando a compra de mais hardware insuficiente para escalar a IA.
Segundo Anjney Midha, da AMP, a compra de mais aceleradores não resolve gargalos de baixa conversão de capacidade teórica em progresso real. Sem otimização de engenharia de sistemas — como agendamento de cargas, redes, paralelismo e confiabilidade de clusters —, o gasto com chips não se traduz em modelos melhores ou treinamentos mais rápidos.
É necessário focar em engenharia operacional. Isso inclui melhorar o agendamento de cargas, redes, kernels, frameworks, pipelines de dados, paralelismo e a confiabilidade dos clusters, garantindo que a capacidade instalada seja usada de forma coordenada e eficiente.