[Especial] Marcio Aguiar de NVIDIA: “La IA que piensa y actúa necesita simulación, datos sintéticos y memoria contextual”
Marcio Aguiar, director de la División Enterprise para NVIDIA Latinoamérica | Fotografía Créditos: NVIDIA

[Especial] Marcio Aguiar de NVIDIA: “La IA que piensa y actúa necesita simulación, datos sintéticos y memoria contextual”

En esta serie especial conversamos con Marcio Aguiar, director de la División Enterprise de NVIDIA para América Latina, sobre los avances más relevantes en inteligencia artificial aplicada a la robótica. A lo largo de seis entrevistas temáticas, abordamos desde la infraestructura y el software hasta las capacidades cognitivas emergentes que marcarán el rumbo de los sistemas autónomos.

En el primer capítulo repasamos cómo las fábricas de inteligencia artificial (AI Factories) están acelerando la autonomía física. Estas permiten entrenar y desplegar robots en entornos reales con flujos continuos de simulación, inferencia y retroalimentación. Puedes leer ese episodio aquí: [insertar enlace].

[Especial] Marcio Aguiar de NVIDIA: “Las fábricas de inteligencia artificial están dando forma a la autonomía física en el mundo real”
Marcio Aguiar detalla cómo las AI Factories y la IA física permiten entrenar y desplegar robots autónomos en entornos reales con simulación.

En esta segunda entrega, profundizamos en el impacto de los modelos fundacionales en la evolución de la robótica. Nos enfocamos en aquellos diseñados para dotar a los robots de razonamiento, planificación y adaptabilidad.

Puntos clave de la entrevista

  • GR00T N1 es un modelo fundacional para robots humanoides que combina razonamiento estratégico e intuición, permite manipulación bimanual y se entrena con datos reales y sintéticos generados en Omniverse.
  • Cosmos es una plataforma para entrenar inteligencia artificial física, basada en 20 millones de horas de datos reales y modelos especializados en percepción, predicción y razonamiento contextual.
  • Omniverse es una plataforma de simulación 3D que permite crear entornos digitales realistas y gemelos virtuales para entrenar y validar sistemas autónomos en condiciones físicas simuladas.
  • Replicator es el motor de Omniverse que genera datos sintéticos etiquetados automáticamente, simulando condiciones extremas y acelerando el entrenamiento de modelos sin depender del mundo real.
  • Nemotron es un modelo agentico enfocado en razonamiento, matemáticas y programación, con alta eficiencia y versiones adaptadas a distintos niveles de hardware.
  • Hymba es un modelo de lenguaje híbrido optimizado para dispositivos pequeños, que mejora el rendimiento en tareas de razonamiento usando atención y memoria estructurada.
  • Casos de éxito como Siemens, Foxconn y Agility Robotics demuestran el impacto de estas herramientas en la industria, re

Modelos de IA para Robótica

En el marco del desarrollo de inteligencia artificial aplicada a la robótica, NVIDIA ha dado un paso significativo con el modelo fundacional GR00T N1, especialmente diseñado para robots humanoides. Este modelo tiene como propósito cerrar la brecha entre el razonamiento abstracto y la acción física, habilitando nuevas capacidades de autonomía y adaptación.

“Este modelo representa un avance significativo en la robótica, permitiendo a los robots realizar tareas complejas con habilidades generales y razonamiento avanzado.”

La base del GR00T N1 se encuentra en una arquitectura inspirada en la cognición humana. Está compuesto por un sistema dual que imita los procesos mentales del ser humano, dividiéndose entre un sistema de respuesta intuitiva y otro de razonamiento planificado.

Funcionalidades del modelo GR00T N1 en robots humanoides:

  • Arquitectura de sistema dual inspirada en la cognición humana
  • Manipulación bimanual y tareas complejas
  • Entrenamiento con datos reales y sintéticos
  • Personalización para tareas específicas
  • Acceso abierto para la comunidad de desarrolladores.

La arquitectura de sistema dual, inspirada en la cognición humana, se compone de dos subsistemas claramente definidos:

"Sistema 1: modelo de acción rápida que imita los reflejos humanos o la intuición, permitiendo respuestas ágiles y precisas".
"Sistema 2: modelo de razonamiento lento que interpreta instrucciones y planifica acciones complejas, como organizar un espacio desordenado”.

A esta capacidad cognitiva se suma su competencia física: el modelo está preparado para ejecutar tareas complejas mediante manipulación bimanual, integrando precisión y contexto en su acción.

Manipulación bimanual y tareas complejas: El modelo permite a los robots realizar tareas como agarrar y mover objetos con una o ambas manos, transferir artículos entre manos y ejecutar tareas que requieren una comprensión contextual prolongada y la combinación de habilidades generales”.
GROOT N1, el modelo fundacional de NVIDIA para robots humanoides, combina razonamiento avanzado y manipulación física para tareas colaborativas en distintos entornos, desde el hogar hasta la industria. | Fotografía Créditos: NVIDIA.

La robustez del GR00T N1 también se refleja en la diversidad de datos con los que fue entrenado, incluyendo experiencias humanas reales y simulaciones generadas por la propia plataforma de NVIDIA.

Entrenamiento con datos reales y sintéticos: GR00T N1 fue entrenado con un conjunto de datos diverso que incluye videos humanos en primera persona, trayectorias reales de robots y datos sintéticos generados mediante la plataforma Omniverse de NVIDIA. Esto le permite generalizar eficazmente a través de diferentes tareas y entornos”.

A pesar de ser un modelo generalista, GR00T N1 permite personalización para contextos específicos mediante un proceso de post-entrenamiento que aprovecha tanto demostraciones humanas como simulaciones.

Personalización para tareas específicas: Aunque GR00T N1 es un modelo generalista, puede adaptarse a tareas particulares mediante un proceso de post-entrenamiento, utilizando datos de demostraciones humanas o simulaciones. Esto facilita su implementación en diversas aplicaciones, como manejo de materiales, embalaje e inspección”.

Finalmente, uno de los aspectos más destacados del modelo es su disponibilidad abierta. NVIDIA ha liberado el acceso al GR00T N1 bajo licencias permisivas, fomentando así su integración y adaptación por parte de la comunidad de desarrolladores.

Acceso abierto para la comunidad de desarrolladores: NVIDIA ha puesto a disposición de la comunidad GR00T N1 con licencias permisivas, permitiendo a investigadores y desarrolladores acceder, modificar y adaptar el modelo para diversas aplicaciones. Los datos de entrenamiento y los escenarios de evaluación de tareas están disponibles en plataformas como Hugging Face y GitHub”.
NVIDIA Announces Isaac GR00T N1 — the World’s First Open Humanoid Robot Foundation Model — and Simulation Frameworks to Speed Robot Development
NVIDIA today announced a portfolio of technologies to supercharge humanoid robot development, including NVIDIA Isaac GR00T N1, the world’s first open, fully customizable foundation model for generalized humanoid reasoning and skills.

2. Modelos agénticos y razonamiento autónomo

El desarrollo de robots autónomos requiere modelos de inteligencia artificial capaces de percibir su entorno, razonar en función de sus objetivos y actuar estratégicamente. En este contexto, los modelos agénticos permiten una evolución significativa en la manera en que los robots toman decisiones y se adaptan.

"Estos modelos avanzados permiten que los robots no solo ejecuten tareas, sino que también razonen, planifiquen y se adapten de manera autónoma en entornos dinámicos".

Este tipo de modelos se definen por integrar tres componentes esenciales: percepción, razonamiento y acción. Esa combinación les permite interactuar eficazmente con el mundo físico y tomar decisiones en función del contexto.

"Un modelo agéntico es una inteligencia artificial diseñada para razonar, planificar, actuar y adaptarse como si fuera un agente autónomo en un entorno dinámico. Estos modelos combinan percepción, razonamiento y acción, permitiendo a los robots interactuar eficazmente con su entorno, analizar objetivos y desarrollar estrategias para alcanzarlos".
Ciberdelincuentes comienzan a usar IA Agéntica para ataques automatizados y adaptativos
El nuevo informe de la Unidad 42 reveló el sistema de ataque en la ciberseguridad global.

NVIDIA Nemotron

Uno de los ejemplos más destacados es la familia Nemotron, diseñada para abordar tareas complejas que requieren razonamiento estructurado y toma de decisiones. Sus aplicaciones van desde centros de datos hasta PCs, cubriendo distintos niveles de infraestructura.

"Nemotron: es una familia de modelos avanzados diseñados para tareas de razonamiento y toma de decisiones en entornos complejos. Estos modelos están optimizados para plataformas que van desde centros de datos hasta PCs, y destacan en razonamiento científico avanzado, matemáticas complejas, programación, seguimiento de instrucciones y uso de herramientas".

Entre sus características más relevantes, se destacan la eficiencia, la arquitectura híbrida de razonamiento y la escalabilidad.

Características clave:

  • Precisión y eficiencia computacional: Nemotron ofrece alta precisión en tareas de razonamiento, con una eficiencia computacional excepcional, reduciendo los costos de ejecución en producción.
  • Arquitectura híbrida de razonamiento: Los modelos permiten activar o desactivar el razonamiento según la complejidad de la tarea, optimizando el uso de recursos.
  • Escalabilidad: Disponibles en versiones Nano, Super y Ultra, adaptándose a diferentes necesidades de implementación, desde PCs hasta aplicaciones a escala de centro de datos.
NVIDIA Nemotron
Modelos avanzados para el razonamiento abierto.

NVIDIA destaca que estos modelos están diseñados para trabajar con diferentes cargas de trabajo, y su diseño les permite sobresalir en el área de:

  • Reconocimiento óptico de caracteres (OCR) empresarial.
  • Razonamiento para la creación de IA de agentes.
Nvidia y ServiceNow presentan LLM para desarrollar agentes de inteligencia artificial
Apriel, que estará disponible durante el segundo trimestre de 2025, simplificará la creación de agentes de IA que puedan tomar decisiones sobre TI

Hymba

También se incluye en este campo el modelo Hymba, desarrollado con un enfoque optimizado para funcionar en dispositivos pequeños, sin sacrificar capacidades de razonamiento.

"Hymba: es una arquitectura de modelo de lenguaje que mejora el rendimiento de modelos pequeños mediante una arquitectura híbrida de atención. Esta arquitectura permite una mayor eficiencia en el procesamiento de tareas, lo que es crucial para aplicaciones en dispositivos con recursos limitados".
Hymba Hybrid-Head Architecture Boosts Small Language Model Performance | NVIDIA Technical Blog
Transformers, with their attention-based architecture, have become the dominant choice for language models (LMs) due to their strong performance, parallelization capabilities, and long-term recall…

Su diseño permite ampliar el alcance de la robótica inteligente, incluso en condiciones de hardware restringido.

Puntos clave:

  • Arquitectura híbrida de atención: Mejora la eficiencia computacional y el rendimiento en tareas de razonamiento.
  • Optimización para dispositivos pequeños: Diseñado para ofrecer un alto rendimiento en dispositivos con recursos limitados, ampliando las posibilidades de implementación de IA en robótica.
Diagrama del bloque híbrido de Hymba. Cada capa combina cabezas de atención y módulos de espacio de estado (SSM) en paralelo, lo que permite procesar información con precisión y eficiencia. | Imagen créditos: NVIDIA

Esta estructura permite a Hymba pensar y responder con rapidez. Mientras una parte del modelo se encarga de entender detalles puntuales del texto, otra lo ayuda a mantener el sentido general. Esa combinación lo hace especialmente útil cuando se necesita velocidad y claridad en tiempo real.

En pruebas comparativas, Hymba-1.5B superó a modelos como Llama 3 y Mistral en tareas estándar de lenguaje, manteniendo precisión con menor consumo de recursos. Esto lo convierte en una herramienta ideal para llevar capacidades agénticas a dispositivos móviles, robots livianos o sistemas embebidos que antes no podían ejecutar IA compleja.

¿Qué hace único a Cosmos en el entrenamiento de robots inteligentes?

En el esfuerzo por construir una inteligencia artificial verdaderamente autónoma, uno de los grandes desafíos no está solo en el procesamiento de datos. También está en lograr que esa inteligencia comprenda el entorno físico de forma contextual y adaptativa.

Para abordar ese problema, NVIDIA desarrolló Cosmos. Este modelo fundacional busca transformar la forma en que los robots aprenden a desenvolverse, no solo observando, sino también razonando sobre el mundo que los rodea.

“Este modelo ha sido diseñado para abordar los desafíos específicos de la IA física, permitiendo a los robots aprender y adaptarse a su entorno de manera más eficiente y realistaa”.

Esta afirmación sienta las bases de un enfoque que no solo considera el aprendizaje profundo desde una perspectiva algorítmica, sino que también lo extiende a la interacción contextual y realista con el entorno. Pero, ¿qué hay detrás de esta promesa?

Cosmos es una plataforma de modelos fundacionales mundiales (World Foundation Models, WFM) desarrollada para la IA física. Proporciona a los desarrolladores acceso a modelos multimodales pre-entrenados, canales de datos y herramientas de alto rendimiento para entrenar y personalizar modelos de IA física especializados en tareas de robótica y conducción autónoma”.
Modelos fundacionales mundiales de NVIDIA Cosmos
Plataforma de modelos fundacionales mundiales para acelerar el desarrollo de la IA física.

Capacidades técnicas que habilitan el realismo físico

Cosmos no parte desde cero. En su núcleo hay una infraestructura pensada para ofrecer escalabilidad, precisión y adaptación a diferentes escenarios. Esta base sólida permite a los desarrolladores avanzar sin necesidad de construir desde lo más básico, acelerando el proceso de integración en entornos productivos.

  • Entrenamiento en datos del mundo real: Los modelos Cosmos han sido entrenados con 20 millones de horas de datos de robótica y conducción, permitiendo generar estados del mundo basados en la física.
  • Modelos multimodales pre-entrenados: Incluyen modelos como Predict, Transfer y Reason, que permiten la generación de mundos, predicción de movimiento y razonamiento multimodal, respectivamente.
  • Generación de datos sintéticos controlados: Al integrarse con NVIDIA Omniverse, Cosmos permite la creación de datos sintéticos de alta calidad para entrenar modelos de percepción de robots y vehículos autónomos.
  • Entrenamiento de modelos de políticas: Los modelos Cosmos permiten el entrenamiento y evaluación escalables y reproducibles de modelos de políticas, que definen estrategias para sistemas de IA física.
  • Licencia abierta: Los modelos Cosmos, barreras y tokenizadores están licenciados bajo la Licencia de Modelo Abierto de NVIDIA, permitiendo el acceso a todos los desarrolladores de IA física.

Al abrir el acceso a estas herramientas, NVIDIA extiende su propuesta a toda la comunidad. Eso habilita que universidades, startups y centros de innovación puedan experimentar sin barreras tecnológicas ni licencias restrictivas.

Casos de uso de cosmos

Para entender cómo se aplica Cosmos en entornos reales, basta con mirar tres etapas clave del flujo de trabajo que los desarrolladores ya están usando en combinación con NVIDIA Omniverse.

Generación de datos sintéticos | Imagen créditos: NVIDIA

Generación de datos sintéticos: Omniverse crea escenas 3D realistas que funcionan como entrada para Cosmos Transfer. Luego, estas escenas se amplifican en distintos entornos, iluminaciones y condiciones físicas para entrenar modelos más robustos. Esto permite superar cuellos de botella típicos en la recolección de datos reales, generando información escalable y diversa.

Inicialización de modelos de políticas: Una vez que los datos están disponibles, Cosmos Predict y Reason se utilizan para post-entrenar modelos de política. Esto permite que los sistemas aprendan acciones esperadas sin necesidad de miles de interacciones físicas. Así, se reducen costos, tiempos y riesgos de entrenamiento.

Evaluación en bucle cerrado | Imagen créditos: NVIDIA

Evaluación en bucle cerrado: Los desarrolladores pueden validar comportamientos generando salidas en video que simulan entornos reales. Gracias a Omniverse, esta validación ocurre sobre una física precisa. Cosmos Reason, en este proceso, actúa como evaluador dentro de un modelo de lenguaje de visión-acción (VLA), ayudando a impulsar o corregir decisiones.

Generación de múltiples vistas: Cosmos Predict también puede entrenarse para generar diferentes perspectivas de cámara. Esto permite obtener datos temporales consistentes desde un solo punto de entrada, lo que mejora el entrenamiento de vehículos autónomos y sistemas de visión, especialmente en escenarios con visibilidad limitada o condiciones extremas.

NVIDIA está creando y expandiendo la nueva era de la inteligencia artificial #CES2025
Exploración de innovaciones tecnológicas en IA y GPUs presentadas por NVIDIA en CES 2025, marcando nuevas tendencias corporativas.

Entrenamiento sintético en Omniverse: cómo los robots aprenden en entornos virtuales

Entrenar inteligencia artificial en el mundo físico no siempre es viable. Existen riesgos para el hardware, altos costos de implementación y limitaciones que dificultan escalar el proceso.

Una alternativa concreta es simular ese mundo. Y en ese terreno, NVIDIA ha convertido a Omniverse en una plataforma clave para construir entornos seguros y entrenar IA con fidelidad física.

NVIDIA Omniverse es una plataforma de simulación y colaboración 3D que permite crear gemelos digitales realistas y entornos virtuales detallados. Utilizando el marco de descripción universal de escenas (OpenUSD), Omniverse facilita la construcción de simulaciones precisas y escalables, esenciales para entrenar robots en tareas complejas”.

La clave está en la posibilidad de replicar condiciones del mundo real —y otras que no serían seguras o viables— sin necesidad de usar hardware físico. Esto permite que los algoritmos de IA se enfrenten a múltiples escenarios sin salir de un entorno controlado.

Omniverse Replicator

El valor de Replicator va más allá de la simple creación de imágenes. Su integración con Isaac Sim y su capacidad de generar etiquetas automáticas lo convierten en una herramienta completa para entrenar modelos de percepción.

“Omniverse Replicator es un motor de generación de datos sintéticos que permite crear conjuntos de datos etiquetados de alta calidad para entrenar modelos de IA. A diferencia de los datos del mundo real, los datos generados sintéticamente pueden incluir condiciones extremas o peligrosas que serían difíciles o imposibles de replicar en la realidad”.

El valor de Omniverse Replicator está en su flexibilidad. Al generar entornos y datos extremos de forma controlada, se puede entrenar a la IA en situaciones que de otro modo serían inabordables.

Elementos destacados:

  • Generación masiva y controlada: permite crear grandes volúmenes de datos con variaciones específicas, como cambios en iluminación, clima y texturas.
  • Etiquetado semántico automático: los datos generados incluyen etiquetas precisas, como profundidad, segmentación semántica y movimiento, eliminando la necesidad de etiquetado manual.
  • Escalabilidad: compatible con sistemas de cómputo en la nube y en el borde, facilitando la generación de datos a gran escala.

Estas funciones convierten a Replicator en una herramienta esencial. Su capacidad para generar datos variados, etiquetados y en volumen industrial acelera el aprendizaje automático desde la base.

Replicator — Omniverse Extensions

Casos reales: cómo se usa Omniverse en la industria

La adopción de datos sintéticos no es solo una propuesta conceptual. Grandes fabricantes y desarrolladores ya están implementando estas herramientas en entornos reales para acelerar el entrenamiento de inteligencia artificial y optimizar operaciones robóticas.

Simens y su implementación de Omniverse Replicator

La colaboración entre Siemens y SynthAI demuestra cómo los datos sintéticos pueden acelerar el desarrollo de modelos de inspección visual. Al trabajar en entornos foto realistas y controlados, los modelos aprenden sin depender de datos reales difíciles o costosos de obtener.

Siemens ha implementado Omniverse Replicator junto con SynthAI para generar datos sintéticos fotorealistas que entrenan modelos de visión por computadora para la detección de defectos en placas de circuito impreso (PCB). Este enfoque ha reducido el tiempo de desarrollo de modelos de inspección de "meses" a "días", mejorando significativamente la eficiencia en la línea de producción”.

Foxconn optimiza la producción con gemelos digitales

En el caso de Foxconn, los gemelos digitales permiten trabajar con toda la complejidad de una línea de producción sin interrumpir operaciones reales. Esto ofrece una plataforma de validación continua para sistemas autónomos que deben operar con precisión en entornos industriales dinámicos.

Foxconn, uno de los mayores fabricantes electrónicos del mundo, utiliza Omniverse para crear gemelos digitales de sus fábricas. Esto les permite simular y validar robots móviles autónomos (AMR) y brazos robóticos con inteligencia artificial, optimizando flujos operativos y mejorando la seguridad laboral”.
Robotic Factories Supercharge Industrial Digitalization as Electronic Makers Adopt NVIDIA AI and Omniverse
NVIDIA Omniverse, Isaac and Metropolis Enable Delta Electronics, Foxconn, Pegatron, Wistron to Digitally Build, Simulate and Operate Factory Digital Twins TAIPEI, Taiwan, June 02, 2024 (GLOBE NEWSWIRE) - COMPUTEX - NVIDIA today announced that major Taiwanese electronics makers are using the company’s technology to transform their factories into more autonomous facilities with a new reference workflow. The workflow combines NVIDIA Metropolis vision AI, NVIDIA Omniverse ™ physically based rendering and simulation, and NVIDIA Isaac ™ AI robot development and deployment. By using the workflow to build digital twins for real-time simulation of different factory layouts, manufacturers can optimize space, processes and efficiency without costly physical changes. “AI for manufacturing is here. Every factory is becoming more and more autonomous due to the transformational impact of generative AI and digital twin technologies,” said Deepu Talla, vice president of robotics and edge

Agility Robotics entrena al robot GR-2

El entrenamiento del GR-2 representa un uso avanzado del ecosistema Omniverse. Al combinar simulación, física precisa y modelos de entrenamiento por refuerzo, Agility Robotics logra adaptar su robot humanoide a escenarios que cambian constantemente.

“Agility Robotics ha utilizado Isaac Lab y Omniverse para entrenar a su robot humanoide GR-2 en entornos simulados. Este enfoque ha permitido mejorar la agilidad y adaptabilidad del robot, facilitando su despliegue en entornos del mundo real”.
Into the Omniverse: How OpenUSD-Based Simulation and Synthetic Data Generation Advance Robot Learning
Tools like NVIDIA Isaac Sim enhance synthetic data generation, improving AI model performance and accelerating robotics development.