NVIDIA abre MRC para escalar redes Ethernet en fábricas de IA
MRC mejora Ethernet para entrenamientos masivos con múltiples rutas resilientes. | Créditos: NVIDIA

NVIDIA abre MRC para escalar redes Ethernet en fábricas de IA

NVIDIA presentó Multipath Reliable Connection, MRC, como un protocolo RDMA para redes Ethernet de IA a gran escala. La tecnología permite que una sola conexión distribuya tráfico por múltiples rutas de red para mejorar rendimiento, balanceo de carga y disponibilidad en entrenamiento de modelos.

¿Qué es una AI Factory?
Las AI Factory son entornos operativos que convierten datos en modelos y modelos en decisiones automatizadas, con infraestructura acelerada y MLOps. .

MRC ya fue probado sobre hardware NVIDIA Spectrum-X Ethernet y queda disponible como especificación abierta a través de Open Compute Project. El desarrollo contó con colaboración de AMD, Broadcom, Intel, Microsoft y OpenAI.

Spectrum-X Ethernet suma resiliencia para entrenamiento a gran escala

MRC responde al crecimiento de fábricas de IA con miles o cientos de miles de GPU. En ese entorno, una interrupción breve puede afectar trabajos completos de entrenamiento, por lo que la red necesita redistribuir tráfico sin intervención manual.

El protocolo balancea tráfico entre rutas disponibles, evita caminos congestionados y usa retransmisión inteligente cuando hay pérdida de datos. Spectrum-X también incorpora detección de fallas y desvío automático en hardware, con tiempos de respuesta medidos en microsegundos.

NVIDIA y ServiceNow llevarán agentes autónomos a flujos empresariales con más control operativo
Project Arc combina agentes de escritorio, control empresarial y modelos Nemotron para automatizar tareas con mayor trazabilidad.

Sachin Katti, head of industrial compute en OpenAI, vinculó el despliegue de MRC con la generación Blackwell y con la necesidad de sostener eficiencia en entrenamientos de frontera a gran escala.

"Implementar MRC en la generación Blackwell fue muy exitoso y fue posible gracias a una fuerte colaboración con NVIDIA. El enfoque extremo a extremo de MRC nos permitió evitar gran parte de las ralentizaciones e interrupciones típicas relacionadas con la red, y mantener la eficiencia de los entrenamientos de frontera a escala".

Microsoft Fairwater y Oracle Cloud Infrastructure Abilene figuran entre las fábricas de IA que usan MRC para cumplir requisitos de rendimiento, escala y eficiencia. NVIDIA también destaca diseños de red multiplano, donde varios tejidos independientes entregan rutas alternativas entre GPU.

En despliegues de IA a gran escala, Ethernet debe sostener alto uso de GPU, baja latencia predecible, recuperación ante fallas y operación distribuida. MRC queda presentado como una pieza de Spectrum-X para reducir congestión y fallas de ruta en entrenamientos masivos.

Avances de NVIDIA y Google Cloud para inteligencia artificial física
Ambas tecnológicas integran hardware corporativo y servicios en la nube para procesar gemelos digitales bajo entornos seguros y de alta escalabilidad.