Madrid, España, 31 de mayo de 2024.— JARVICE AI simplifica el trabajo de los científicos de datos y los administradores de infraestructuras de IA al proporcionar un acceso de orquestación «único y seguro» a clústeres de GPU o proveedores de nube dispersos geográficamente.

La solución es una extensión integral de la plataforma HPC empresarial JARVICE™ XE de Eviden. Con nuevas capacidades, esta plataforma está diseñada para la IA y puede orquestar marcos de MLOps(1) con un solo clic en infraestructuras avanzadas de IA, ya sea en las instalaciones, en la nube o en arquitecturas federadas. La oferta cuenta con rendimiento bare metal y flexibilidad para ejecutar GPU, CPU, IPU o cualquier otro recurso de aceleración de IA emergente. JARVICE AI aprovecha el amplio mercado de aplicaciones HyperHub™ y lo amplía con un catálogo de aplicaciones y marcos específicos de IA en los ámbitos de IA generativa, operaciones de modelos y LLM. Además, puede admitir aplicaciones y marcos de IA personalizados.

Con su programador de cargas de trabajo avanzado integrado, JARVICE AI da cabida a un conjunto diverso de necesidades de programación de IA concurrentes desde una única plataforma, incluida la formación a gran escala para marcos de IA generativa, tareas de inferencia de baja latencia y flujos de trabajo MLOps complejos, ofreciendo altos niveles de eficiencia para la utilización del clúster y la movilidad de la carga de trabajo.

Al combinar y simplificar la gestión y el despliegue de aplicaciones de IA y HPC bajo un único panel de vidrio en todos los puntos finales de computación de la organización, JARVICE AI proporciona una experiencia de usuario segura y escalable para científicos, investigadores e ingenieros. Con JARVICE AI e HyperHub, las organizaciones pueden responder a las necesidades de rápida evolución de las cargas de trabajo de IA con confianza y facilidad, sin importar lo que traiga el futuro», dijo Leo Reiter, CTO de Nimbix Cloud. «JARVICE AI me entusiasma como usuario de JARVICE desde hace 6 años para la formación de modelos de aprendizaje profundo a gran escala. Es fácil de usar, unifica los flujos de trabajo de MLOps en cualquier infraestructura en un único panel de vidrio e introduce una nueva programación avanzada de cargas de trabajo: es una oferta muy atractiva para la empresa», afirma Tanmay Bakshi, ML & Software Architect, IBM Automation y Google Developer Expert for Machine Learning en IBM.

Disponibilidad:

JARVICE AI estará ampliamente disponible en el tercer trimestre de 2024, con acceso anticipado a los clientes a partir de ahora. Eviden lo expuso en ISC24 en Hamburgo, Alemania.

(1) Nota de Redacción

Los MLOps (Machine Learning Operations) en entornos de HPC (High-Performance Computing) son esenciales para escalar y gestionar eficientemente las cargas de trabajo de aprendizaje automático en infraestructuras de alto rendimiento. Aquí te dejo algunos puntos clave sobre este tema:

  1. Integración de Slurm y Kubernetes:
    • Slurm es una plataforma de código abierto ampliamente utilizada en clústeres HPC para la programación y gestión de trabajos computacionales. Permite distribuir cargas de trabajo complejas y gestionar eficientemente los recursos del clúster.
    • Kubernetes se ha convertido en la plataforma estándar para ejecutar cargas de trabajo de AI/ML a gran escala. La integración de Kubernetes con Slurm a través de operadores o plugins permite aprovechar las capacidades de ambos sistemas, facilitando la ejecución de trabajos tanto tradicionales de HPC como de aprendizaje profundo y ML​ (DKubeX)​​ (The Cloud Platform Tech Zone)​.
  2. Plataformas y Herramientas de MLOps:
    • DKube es una plataforma de MLOps basada en Kubeflow y MLFlow que permite el desarrollo, entrenamiento y despliegue de modelos de aprendizaje automático en Kubernetes. DKube se integra con clústeres HPC usando Slurm, proporcionando una infraestructura común para manejar tanto cargas de trabajo de HPC como de ML​ (DKubeX)​​ (The Cloud Platform Tech Zone)​.
    • Kubeflow Pipelines es otra herramienta destacada que facilita la orquestación y automatización de flujos de trabajo de ML en Kubernetes. Permite a las organizaciones automatizar el ciclo de vida completo de los modelos de ML, desde la preparación de datos hasta el despliegue y monitorización​ (Red Hat Developer)​.
  3. Beneficios y Desafíos:
    • Los entornos HPC ofrecen capacidades de computación y almacenamiento escalables y de alto rendimiento, ideales para entrenar modelos complejos de aprendizaje profundo.
    • La integración de MLOps en entornos HPC permite a las organizaciones aprovechar su infraestructura existente, mejorar la eficiencia y acelerar el tiempo de desarrollo y despliegue de modelos.
    • Sin embargo, hay desafíos en la integración, como la necesidad de sincronizar herramientas y flujos de trabajo de distintos dominios (HPC y AI/ML), y asegurar la compatibilidad y escalabilidad de las soluciones implementadas​ (HPCwire)​​ (NVIDIA)​.

Para una implementación exitosa de MLOps en entornos HPC, se recomienda una arquitectura que combine lo mejor de ambos mundos, utilizando herramientas como DKube y Kubeflow sobre Kubernetes, y gestionando los recursos de HPC con Slurm para obtener la máxima eficiencia y rendimiento.

Si deseas más detalles sobre estas tecnologías y cómo implementarlas, puedes consultar las fuentes en los sitios de DKube, Red Hat, y VMware.

Apoya al Periodismo Independiente

¿Te sirvió en algo este contenido?, ayúdanos a combatir la Desinformación, dona desde S/ 1.00 a nuestro PLIN 943-438-457

Ad-apoya-PLIN-itusers-portal

Dona con PayPal (escanea este QR)

Donación-para-itusers-qrcode