AWS adiciona observabilidade para inferência generativa no SageMaker AI

Novo recurso centraliza métricas de tokens, GPUs e autoscaling para workloads de IA generativa em produção, segundo a AWS.

A AWS anunciou uma nova capacidade de observabilidade para endpoints de inferência do Amazon SageMaker AI, voltada a cargas de trabalho de IA generativa em produção. Segundo a empresa, o recurso foi criado para reduzir o trabalho manual de investigar métricas separadas no CloudWatch e relacionar problemas de latência a fatores como saturação de GPU, esgotamento de cache KV ou lentidão em operações de escalabilidade.

De acordo com a AWS, a novidade acompanha métricas de desempenho em tempo real, incluindo tempo até o primeiro token, latência entre tokens, profundidade de fila e tokens por segundo. Esses indicadores são exibidos junto a informações de infraestrutura, como saúde de GPUs, posicionamento de componentes de inferência e comportamento do autoscaling.

A empresa afirma que o recurso inclui um painel pré-configurado, chamado SageMaker AI Insights, dentro do Amazon CloudWatch. Segundo a AWS, ele reúne em uma única visão dados como latência de tokens, uso de GPU, quantidade de cópias de componentes de inferência, eventos de escalabilidade e detalhes de cold start, com métricas nativas em OpenTelemetry publicadas automaticamente, sem instrumentação adicional.

Para equipes que já usam outras ferramentas de observabilidade, a AWS diz que o SageMaker AI Inference pode ser conectado a soluções como Grafana por meio de um endpoint regional PromQL, com opção de importar um modelo de dashboard pré-configurado. A empresa também afirma que a capacidade pode ajudar times a diagnosticar degradação no tempo até o primeiro token, verificar conformidade entre zonas de disponibilidade e ajustar políticas de autoscaling.

Segundo a AWS, a observabilidade para inferência do SageMaker AI está disponível em várias regiões, incluindo Leste dos EUA, Oeste dos EUA, Canadá Central, Europa, Ásia-Pacífico e América do Sul em São Paulo.