Novo recurso centraliza métricas de tokens, GPUs e autoscaling para workloads de IA generativa em produção, segundo a AWS.
A AWS anunciou uma nova capacidade de observabilidade para endpoints de inferĂȘncia do Amazon SageMaker AI, voltada a cargas de trabalho de IA generativa em produção. Segundo a empresa, o recurso foi criado para reduzir o trabalho manual de investigar mĂ©tricas separadas no CloudWatch e relacionar problemas de latĂȘncia a fatores como saturação de GPU, esgotamento de cache KV ou lentidĂŁo em operaçÔes de escalabilidade.
De acordo com a AWS, a novidade acompanha mĂ©tricas de desempenho em tempo real, incluindo tempo atĂ© o primeiro token, latĂȘncia entre tokens, profundidade de fila e tokens por segundo. Esses indicadores sĂŁo exibidos junto a informaçÔes de infraestrutura, como saĂșde de GPUs, posicionamento de componentes de inferĂȘncia e comportamento do autoscaling.
A empresa afirma que o recurso inclui um painel prĂ©-configurado, chamado SageMaker AI Insights, dentro do Amazon CloudWatch. Segundo a AWS, ele reĂșne em uma Ășnica visĂŁo dados como latĂȘncia de tokens, uso de GPU, quantidade de cĂłpias de componentes de inferĂȘncia, eventos de escalabilidade e detalhes de cold start, com mĂ©tricas nativas em OpenTelemetry publicadas automaticamente, sem instrumentação adicional.
Para equipes que jĂĄ usam outras ferramentas de observabilidade, a AWS diz que o SageMaker AI Inference pode ser conectado a soluçÔes como Grafana por meio de um endpoint regional PromQL, com opção de importar um modelo de dashboard prĂ©-configurado. A empresa tambĂ©m afirma que a capacidade pode ajudar times a diagnosticar degradação no tempo atĂ© o primeiro token, verificar conformidade entre zonas de disponibilidade e ajustar polĂticas de autoscaling.
Segundo a AWS, a observabilidade para inferĂȘncia do SageMaker AI estĂĄ disponĂvel em vĂĄrias regiĂ”es, incluindo Leste dos EUA, Oeste dos EUA, CanadĂĄ Central, Europa, Ăsia-PacĂfico e AmĂ©rica do Sul em SĂŁo Paulo.
Ă uma nova capacidade da AWS que centraliza mĂ©tricas de desempenho de IA generativa em produção, como latĂȘncia de tokens, uso de GPUs e comportamento do autoscaling, em um painel prĂ©-configurado no Amazon CloudWatch chamado SageMaker AI Insights.
O recurso monitora em tempo real mĂ©tricas como tempo atĂ© o primeiro token, latĂȘncia entre tokens, profundidade de fila, tokens por segundo, saĂșde das GPUs, eventos de escalabilidade e detalhes de cold start.
Sim, o SageMaker AI Inference pode ser conectado a soluçÔes de observabilidade de terceiros, como o Grafana, por meio de um endpoint regional PromQL, com opção de importar um modelo de dashboard pré-configurado.