NVIDIA presentó Multipath Reliable Connection, MRC, como un protocolo RDMA para redes Ethernet de IA a gran escala. La tecnología permite que una sola conexión distribuya tráfico por múltiples rutas de red para mejorar rendimiento, balanceo de carga y disponibilidad en entrenamiento de modelos.

MRC ya fue probado sobre hardware NVIDIA Spectrum-X Ethernet y queda disponible como especificación abierta a través de Open Compute Project. El desarrollo contó con colaboración de AMD, Broadcom, Intel, Microsoft y OpenAI.
Spectrum-X Ethernet suma resiliencia para entrenamiento a gran escala
MRC responde al crecimiento de fábricas de IA con miles o cientos de miles de GPU. En ese entorno, una interrupción breve puede afectar trabajos completos de entrenamiento, por lo que la red necesita redistribuir tráfico sin intervención manual.
El protocolo balancea tráfico entre rutas disponibles, evita caminos congestionados y usa retransmisión inteligente cuando hay pérdida de datos. Spectrum-X también incorpora detección de fallas y desvío automático en hardware, con tiempos de respuesta medidos en microsegundos.

Sachin Katti, head of industrial compute en OpenAI, vinculó el despliegue de MRC con la generación Blackwell y con la necesidad de sostener eficiencia en entrenamientos de frontera a gran escala.
"Implementar MRC en la generación Blackwell fue muy exitoso y fue posible gracias a una fuerte colaboración con NVIDIA. El enfoque extremo a extremo de MRC nos permitió evitar gran parte de las ralentizaciones e interrupciones típicas relacionadas con la red, y mantener la eficiencia de los entrenamientos de frontera a escala".
Microsoft Fairwater y Oracle Cloud Infrastructure Abilene figuran entre las fábricas de IA que usan MRC para cumplir requisitos de rendimiento, escala y eficiencia. NVIDIA también destaca diseños de red multiplano, donde varios tejidos independientes entregan rutas alternativas entre GPU.
En despliegues de IA a gran escala, Ethernet debe sostener alto uso de GPU, baja latencia predecible, recuperación ante fallas y operación distribuida. MRC queda presentado como una pieza de Spectrum-X para reducir congestión y fallas de ruta en entrenamientos masivos.



