Amazon detalla Project Rainier, su clúster de cómputo con cientos de miles de chips

Admin 26 de jun. de 2025 Lectura de 3 minutos

Este proyecto fue presentado inicialmente durante el evento Re:Invent realizado en Las Vegas a fines del año pasado. Su objetivo es construir un clúster de UltraServers Trainium2 interconectados mediante tecnología de red de baja latencia y escala petabit, conocida como EFA de tercera generación, así lo detalló DCD.

Project Rainier es un superclúster de cómputo masivo que busca acelerar el entrenamiento de modelos avanzados de IA. AWS lo diseñó para ofrecer capacidades de procesamiento a una escala nunca antes implementada por la compañía.

¿Para qué se usará el superclúster Project Rainier?

El motivo por el cual AWS y Anthropic están desarrollando Project Rainier es potenciar el entrenamiento y despliegue de futuros modelos de inteligencia artificial, en particular nuevas versiones del modelo Claude.

El clúster estará distribuido en múltiples centros de datos en Estados Unidos. Hasta ahora, solo se ha confirmado la ubicación de uno de ellos, en el condado de St. Joseph, Indiana.

Datos clave de Project Rainier:

Proyecto desarrollado por AWS en colaboración con Anthropic.
Presentado oficialmente en Re:Invent, Las Vegas, fines de 2024.
Diseñado para entrenar futuros modelos de IA como Claude.
Distribuido en varios centros de datos en Estados Unidos.
Ubicación confirmada: Condado de St. Joseph, Indiana.
Inversión anunciada para el campus de Indiana: USD 11.000 millones.
Inicio de construcción del campus: octubre de 2024.
Las nuevas instalaciones priorizan:
- Eficiencia energética.
- Sostenibilidad.
- Uso mínimo de agua.

AWS busca que esta infraestructura permita atender la demanda de procesamiento que exigen los modelos de IA generativa de gran escala.

Gadi Hutt, director de producto e ingeniería de clientes en Annapurna Labs, afirmó:

“Project Rainier permitirá quintuplicar la capacidad de cómputo que actualmente tiene Anthropic en su mayor clúster de entrenamiento”.

Desde AWS explicaron que ese aumento de capacidad es clave para que los modelos de IA puedan mejorar su precisión y rendimiento.

La idea detrás de esta infraestructura es dotar a los modelos de IA de los recursos que necesitan para mejorar su rendimiento.

“Mientras más potencia se destine al entrenamiento de modelos como Claude, mejores serán sus resultados. Estamos desplegando esta capacidad a un nivel y velocidad que no tienen precedentes”.

Detalles técnicos de Project Rainier:

Arquitectura: EC2 UltraCluster de UltraServers Trainium2.
Cada UltraServer incluye:
- 64 chips Trainium2.
- Hasta 83,2 petaflops de potencia en formato FP8.
- Cuatro instancias combinadas en un solo nodo.
- Conexión interna mediante NeuronLinks.
Interconexión entre UltraServers a través de:
- Tecnología Elastic Fabric Adaptor (EFA) de tercera generación.
- Red petabit de baja latencia.

Esta arquitectura está diseñada para que miles de servidores trabajen de forma conjunta como si fueran un único sistema de procesamiento.

Chips Trainium2

Los Trainium2 son procesadores diseñados por AWS específicamente para acelerar el entrenamiento de modelos de inteligencia artificial. Según información de la empresa, estos chips:

Utilizan arquitectura de matriz sistólica.
Están optimizados para realizar operaciones de álgebra lineal.
No reemplazan las GPUs tradicionales, pero son altamente eficientes para cargas específicas de IA.
Aceleran el aprendizaje profundo y otros procesos intensivos en datos.
Permiten alta utilización y eficiencia en infraestructuras de cómputo para IA.