Amazon detalla Project Rainier, su clúster de cómputo con cientos de miles de chips
Photo by Lightsaber Collection / Unsplash

Amazon detalla Project Rainier, su clúster de cómputo con cientos de miles de chips

Este proyecto fue presentado inicialmente durante el evento Re:Invent realizado en Las Vegas a fines del año pasado. Su objetivo es construir un clúster de UltraServers Trainium2 interconectados mediante tecnología de red de baja latencia y escala petabit, conocida como EFA de tercera generación, así lo detalló DCD.

Project Rainier es un superclúster de cómputo masivo que busca acelerar el entrenamiento de modelos avanzados de IA. AWS lo diseñó para ofrecer capacidades de procesamiento a una escala nunca antes implementada por la compañía.

¿Para qué se usará el superclúster Project Rainier?

El motivo por el cual AWS y Anthropic están desarrollando Project Rainier es potenciar el entrenamiento y despliegue de futuros modelos de inteligencia artificial, en particular nuevas versiones del modelo Claude.

AWS refuerza su colaboración con Anthropic con una inversión de 4.000 millones de dólares
AWS apuesta por Anthropic con una inversión millonaria y un enfoque en infraestructura innovadora para entrenar modelos avanzados de IA generativa.

El clúster estará distribuido en múltiples centros de datos en Estados Unidos. Hasta ahora, solo se ha confirmado la ubicación de uno de ellos, en el condado de St. Joseph, Indiana.

Datos clave de Project Rainier:

  • Proyecto desarrollado por AWS en colaboración con Anthropic.
  • Presentado oficialmente en Re:Invent, Las Vegas, fines de 2024.
  • Diseñado para entrenar futuros modelos de IA como Claude.
  • Distribuido en varios centros de datos en Estados Unidos.
  • Ubicación confirmada: Condado de St. Joseph, Indiana.
  • Inversión anunciada para el campus de Indiana: USD 11.000 millones.
  • Inicio de construcción del campus: octubre de 2024.
  • Las nuevas instalaciones priorizan:
    • Eficiencia energética.
    • Sostenibilidad.
    • Uso mínimo de agua.

AWS busca que esta infraestructura permita atender la demanda de procesamiento que exigen los modelos de IA generativa de gran escala.

Gadi Hutt, director de producto e ingeniería de clientes en Annapurna Labs, afirmó:

“Project Rainier permitirá quintuplicar la capacidad de cómputo que actualmente tiene Anthropic en su mayor clúster de entrenamiento”.

Desde AWS explicaron que ese aumento de capacidad es clave para que los modelos de IA puedan mejorar su precisión y rendimiento.

La idea detrás de esta infraestructura es dotar a los modelos de IA de los recursos que necesitan para mejorar su rendimiento.

“Mientras más potencia se destine al entrenamiento de modelos como Claude, mejores serán sus resultados. Estamos desplegando esta capacidad a un nivel y velocidad que no tienen precedentes”.
AWS busca startups de Latinoamérica para el Generative AI Accelerator 2025
GAIA de AWS es un programa global de ocho semanas diseñado para impulsar startups en etapas tempranas que desarrollen tecnologías fundacionales de IA generativa.

Detalles técnicos de Project Rainier:

  • Arquitectura: EC2 UltraCluster de UltraServers Trainium2.
  • Cada UltraServer incluye:
    • 64 chips Trainium2.
    • Hasta 83,2 petaflops de potencia en formato FP8.
    • Cuatro instancias combinadas en un solo nodo.
    • Conexión interna mediante NeuronLinks.
  • Interconexión entre UltraServers a través de:
    • Tecnología Elastic Fabric Adaptor (EFA) de tercera generación.
    • Red petabit de baja latencia.

Esta arquitectura está diseñada para que miles de servidores trabajen de forma conjunta como si fueran un único sistema de procesamiento.

Amazon presenta Nova AI: una nueva generación de modelos básicos para inteligencia artificial
Amazon amplía su ecosistema de IA con Nova, una línea de modelos básicos y generativos, junto a un clúster de computación para Anthropic.

Chips Trainium2

Los Trainium2 son procesadores diseñados por AWS específicamente para acelerar el entrenamiento de modelos de inteligencia artificial. Según información de la empresa, estos chips:

  • Utilizan arquitectura de matriz sistólica.
  • Están optimizados para realizar operaciones de álgebra lineal.
  • No reemplazan las GPUs tradicionales, pero son altamente eficientes para cargas específicas de IA.
  • Aceleran el aprendizaje profundo y otros procesos intensivos en datos.
  • Permiten alta utilización y eficiencia en infraestructuras de cómputo para IA.