AMD Instinct impulsa la inferencia de IA con MI300X y MI325X en MLPerf 5.0 y modelos como Llama 3.1 405B y DeepSeek-R1. AMD refuerza su posición en IA con resultados competitivos en MLPerf 5.0, soporte inmediato para modelos avanzados y mejoras en su ecosistema ROCm. AMD Instinct acelera su presencia en IA con benchmarks líderes y soporte para modelos de última generación
Lima, Perú, 3 de abril de 2025. —AMD continúa consolidando su liderazgo en el campo de la inteligencia artificial (IA) a través de su línea de GPUs AMD Instinct™, al lograr avances significativos en la ronda MLPerf Inference 5.0, además de destacar en el rendimiento de modelos como Llama 3.1 405B y DeepSeek-R1.
La estrategia de AMD integra un enfoque doble: rendimiento validado mediante benchmarks estándar como MLPerf y optimización real para modelos utilizados en producción. Gracias a ello, los clientes pueden implementar soluciones escalables y eficientes desde el primer día, con soporte inmediato para modelos emergentes, y una arquitectura capaz de reducir el costo total de propiedad.
En esta edición de MLPerf, AMD logró varios hitos, entre ellos la primera participación del Instinct MI325X, soporte multi-nodo en colaboración con socios como MangoBoost y la validación del rendimiento consistente en entornos diversos con fabricantes como Supermicro, ASUS, Gigabyte y MangoBoost.
Table of Contents
Comparativas MLPerf 5.0: AMD vs NVIDIA en Llama 2 y SDXL
Los resultados de rendimiento presentados por AMD y sus socios revelan cifras competitivas frente a los estándares actuales del mercado:
Figura 1: Rendimiento de inferencia MLPerf 5.0 (1 nodo)
Modelo | GPU | Rendimiento (relativo) |
---|---|---|
Llama 2 70B | AMD MI325X (1x) | Competitivo con H200 |
SDXL | AMD MI325X (1x) | Competitivo con H200 |
Llama 2 70B | NVIDIA H200 (1x) | Referencia |
El uso de técnicas avanzadas como la partición de GPU permitió a AMD lograr estos resultados utilizando un solo nodo, con todos los datos —incluyendo la caché KV— almacenados completamente en la memoria HBM3e de alta capacidad del MI325X.
Escalabilidad probada: récord con múltiples nodos MI300X
AMD también demostró la escalabilidad de su plataforma con el soporte multi-nodo de MangoBoost, utilizando cuatro nodos MI300X para establecer un nuevo récord de rendimiento offline en MLPerf para el modelo Llama 2 70B:
Figura 2: Rendimiento de inferencia multi-nodo
Configuración | GPU | Benchmark | Rendimiento |
---|---|---|---|
MangoBoost (4 nodos) | AMD MI300X | Llama 2 70B | Máximo |
AMD (1 nodo, v4.1) | AMD MI300X | Llama 2 70B | Referencia |
Este resultado valida no solo el rendimiento, sino también la eficiencia en despliegues a escala de centro de datos.
Optimización acelerada para modelos emergentes: DeepSeek-R1 y Llama 3.1 405B
AMD también optimizó dos de los modelos más demandados del momento:
- DeepSeek-R1: Logró una mejora de 4× en velocidad de inferencia en solo 14 días gracias a optimizaciones con ROCm.
- Llama 3.1 405B: Fue optimizado desde el día 0 para MI300X, convirtiendo a AMD en la plataforma exclusiva para inferencia de este modelo de Meta.
Figura 3: DeepSeek-R1 benchmark
GPU | Rendimiento |
---|---|
AMD MI300X (1x) | Alto (4× mejora) |
NVIDIA H200 (1x) | Similar |
Figura 4: Llama 3.1 405B — Latencia vs Throughput FP8
GPU | Rendimiento FP8 | Latencia |
---|---|---|
AMD MI300X (1x) | Superior | Menor |
NVIDIA H100 (1x) | Inferior | Mayor |
Ecosistema ROCm y nuevas herramientas que potencian AMD Instinct
El ecosistema ROCm es clave para alcanzar este rendimiento. Las mejoras recientes incluyen:
- AITER (AI Tensor Engine for ROCm): Hasta 17× más rápido en decodificadores, 14× en atención, y más de 2× en throughput para LLMs.
- Quark Tool: Conversión FP16 a FP8.
- vLLM Optimizations: Manejo mejorado de memoria para LLMs.
- OPEA (Open Performance and Efficiency Architecture): Telemetría avanzada para optimización en PyTorch, Triton y Kubernetes.
- GPU Operator: Soporte para despliegue Kubernetes-native con automatización y MIG.
Beneficios que propone AMD
Con la línea de GPUs AMD Instinct MI300X y MI325X, AMD propone una plataforma de inferencia de IA competitiva, escalable y eficiente en costo. Sus ventajas principales incluyen:
- Rendimiento comparable o superior a NVIDIA H100 y H200 en modelos líderes.
- Capacidad para ejecutar modelos complejos en un solo nodo, reduciendo infraestructura.
- Ecosistema de software en constante evolución, con soporte para despliegue a gran escala.
- Compromiso con el código abierto y la transparencia, permitiendo replicabilidad de benchmarks.
AMD se posiciona como una alternativa sólida para centros de datos que buscan impulsar sus cargas de trabajo de IA con soluciones confiables, abiertas y de alto rendimiento.
Para más información visita este enlace
Apoya al Periodismo Independiente
¿Te sirvió en algo este contenido?, ayúdanos a combatir la Desinformación, dona desde S/ 1.00 a nuestro PLIN 943-438-457