Descubre el Ecosistema IT [Information Technology] y todo sobre Inteligencia Artificial

Home » IT/INFRASTRUCTURE » AMD Instinct impulsa la inferencia de IA con MI300X y MI325X en MLPerf 5.0

AMD Instinct impulsa la inferencia de IA con MI300X y MI325X en MLPerf 5.0

by José Zegarra
4 minutes read
A+A-
Reset

AMD Instinct impulsa la inferencia de IA con MI300X y MI325X en MLPerf 5.0 y modelos como Llama 3.1 405B y DeepSeek-R1. AMD refuerza su posición en IA con resultados competitivos en MLPerf 5.0, soporte inmediato para modelos avanzados y mejoras en su ecosistema ROCm. AMD Instinct acelera su presencia en IA con benchmarks líderes y soporte para modelos de última generación

Lima, Perú, 3 de abril de 2025. —AMD continúa consolidando su liderazgo en el campo de la inteligencia artificial (IA) a través de su línea de GPUs AMD Instinct™, al lograr avances significativos en la ronda MLPerf Inference 5.0, además de destacar en el rendimiento de modelos como Llama 3.1 405B y DeepSeek-R1.

La estrategia de AMD integra un enfoque doble: rendimiento validado mediante benchmarks estándar como MLPerf y optimización real para modelos utilizados en producción. Gracias a ello, los clientes pueden implementar soluciones escalables y eficientes desde el primer día, con soporte inmediato para modelos emergentes, y una arquitectura capaz de reducir el costo total de propiedad.

En esta edición de MLPerf, AMD logró varios hitos, entre ellos la primera participación del Instinct MI325X, soporte multi-nodo en colaboración con socios como MangoBoost y la validación del rendimiento consistente en entornos diversos con fabricantes como Supermicro, ASUS, Gigabyte y MangoBoost.

Comparativas MLPerf 5.0: AMD vs NVIDIA en Llama 2 y SDXL

Los resultados de rendimiento presentados por AMD y sus socios revelan cifras competitivas frente a los estándares actuales del mercado:

Figura 1: Rendimiento de inferencia MLPerf 5.0 (1 nodo)

Modelo GPU Rendimiento (relativo)
Llama 2 70B AMD MI325X (1x) Competitivo con H200
SDXL AMD MI325X (1x) Competitivo con H200
Llama 2 70B NVIDIA H200 (1x) Referencia

El uso de técnicas avanzadas como la partición de GPU permitió a AMD lograr estos resultados utilizando un solo nodo, con todos los datos —incluyendo la caché KV— almacenados completamente en la memoria HBM3e de alta capacidad del MI325X.

Escalabilidad probada: récord con múltiples nodos MI300X

AMD también demostró la escalabilidad de su plataforma con el soporte multi-nodo de MangoBoost, utilizando cuatro nodos MI300X para establecer un nuevo récord de rendimiento offline en MLPerf para el modelo Llama 2 70B:

Figura 2: Rendimiento de inferencia multi-nodo

Configuración GPU Benchmark Rendimiento
MangoBoost (4 nodos) AMD MI300X Llama 2 70B Máximo
AMD (1 nodo, v4.1) AMD MI300X Llama 2 70B Referencia

Este resultado valida no solo el rendimiento, sino también la eficiencia en despliegues a escala de centro de datos.


Optimización acelerada para modelos emergentes: DeepSeek-R1 y Llama 3.1 405B

AMD también optimizó dos de los modelos más demandados del momento:

  1. DeepSeek-R1: Logró una mejora de 4× en velocidad de inferencia en solo 14 días gracias a optimizaciones con ROCm.
  2. Llama 3.1 405B: Fue optimizado desde el día 0 para MI300X, convirtiendo a AMD en la plataforma exclusiva para inferencia de este modelo de Meta.

Figura 3: DeepSeek-R1 benchmark

GPU Rendimiento
AMD MI300X (1x) Alto (4× mejora)
NVIDIA H200 (1x) Similar

Figura 4: Llama 3.1 405B — Latencia vs Throughput FP8

GPU Rendimiento FP8 Latencia
AMD MI300X (1x) Superior Menor
NVIDIA H100 (1x) Inferior Mayor

Ecosistema ROCm y nuevas herramientas que potencian AMD Instinct

El ecosistema ROCm es clave para alcanzar este rendimiento. Las mejoras recientes incluyen:

  • AITER (AI Tensor Engine for ROCm): Hasta 17× más rápido en decodificadores, 14× en atención, y más de 2× en throughput para LLMs.
  • Quark Tool: Conversión FP16 a FP8.
  • vLLM Optimizations: Manejo mejorado de memoria para LLMs.
  • OPEA (Open Performance and Efficiency Architecture): Telemetría avanzada para optimización en PyTorch, Triton y Kubernetes.
  • GPU Operator: Soporte para despliegue Kubernetes-native con automatización y MIG.

Beneficios que propone AMD

Con la línea de GPUs AMD Instinct MI300X y MI325X, AMD propone una plataforma de inferencia de IA competitiva, escalable y eficiente en costo. Sus ventajas principales incluyen:

  • Rendimiento comparable o superior a NVIDIA H100 y H200 en modelos líderes.
  • Capacidad para ejecutar modelos complejos en un solo nodo, reduciendo infraestructura.
  • Ecosistema de software en constante evolución, con soporte para despliegue a gran escala.
  • Compromiso con el código abierto y la transparencia, permitiendo replicabilidad de benchmarks.

AMD se posiciona como una alternativa sólida para centros de datos que buscan impulsar sus cargas de trabajo de IA con soluciones confiables, abiertas y de alto rendimiento.

Para más información visita este enlace

Apoya al Periodismo Independiente

Ad-apoya-PLIN-itusers-portal

¿Te sirvió en algo este contenido?, ayúdanos a combatir la Desinformación, dona desde S/ 1.00 a nuestro PLIN 943-438-457

Social Share or Summarize with AI

¿De cuánta utilidad te ha parecido este contenido?

¡Haz clic en una estrella para puntuarlo!

Promedio de puntuación 5 / 5. Recuento de votos: 1

Hasta ahora, ¡no hay votos!. Sé el primero en puntuar este contenido.

Spread the love

You may also like

Leave a Comment

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Translate »

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More