En esta cuarta entrega del especial conversamos con Marcio Aguiar, director de la División Enterprise para NVIDIA Latinoamérica, sobre el ecosistema de software que sustenta la robótica moderna. Desde la percepción y navegación hasta la interacción conversacional y la visión computacional, NVIDIA ha desarrollado un conjunto integral de plataformas que permiten conectar algoritmos avanzados con hardware especializado, habilitando robots más autónomos, eficientes y adaptativos en entornos complejos.

A lo largo de esta conversación, Aguiar detalla cómo herramientas como Isaac ROS optimizan la percepción y navegación en robots móviles, mientras que NeMo y Riva transforman la comunicación natural entre humanos y máquinas.
También explora el papel de Isaac Sim en el entrenamiento seguro de sistemas autónomos, la optimización en tiempo real que aporta TensorRT, y cómo Metropolis integra visión por computadora para flotas robóticas y ciudades inteligentes.
En esta entrega, nos enfocamos en las plataformas de software que materializan estas visiones en aplicaciones concretas, desde almacenes automatizados hasta interacciones conversacionales avanzadas.
Puntos clave de la entrevista
- Isaac ROS combina paquetes de software acelerados por CUDA con algoritmos de IA optimizados, integrando percepción, navegación y control en una arquitectura modular para soluciones robóticas eficientes.
- NeMo es una plataforma completa para desarrollar IA generativa personalizada que incluye modelos lingüísticos (LLM), modelos de visión (VLM) y herramientas para crear agentes adaptativos de lenguaje natural.
- La integración de NeMo y Riva habilita comunicación natural entre robots y humanos, proporcionando reconocimiento de voz, síntesis de voz y traducción multilingüe en tiempo real.
- Isaac Sim utiliza el motor de física NVIDIA PhysX y Omniverse Replicator para crear entornos virtuales precisos, generando datos sintéticos y entrenando agentes mediante aprendizaje por refuerzo.
- TensorRT optimiza la inferencia en tiempo real mediante cuantización de precisión mixta y fusión de capas, permitiendo ejecutar modelos complejos en dispositivos con recursos limitados.
- Metropolis integra análisis de video inteligente desde el borde hasta la nube para flotas robóticas y ciudades inteligentes, facilitando automatización de tareas y toma de decisiones en tiempo real.
Plataformas de software base para la robótica
NVIDIA ha construido un ecosistema de software pensado para cada etapa del desarrollo robótico. Desde la simulación y el entrenamiento hasta la interacción verbal y la visión computacional, estas herramientas permiten conectar algoritmos con hardware especializado y habilitar robots más autónomos y eficientes.

Isaac ROS: percepción y navegación optimizadas
Dentro del ecosistema de software de NVIDIA, Isaac ROS se ha diseñado como la base para que los desarrolladores puedan integrar algoritmos de inteligencia artificial en robots móviles y autónomos.
“Isaac ROS es un conjunto de paquetes de software acelerados por CUDA diseñados para facilitar el desarrollo de aplicaciones robóticas avanzadas. Proporciona herramientas optimizadas para percepción, navegación y control, integrando algoritmos de IA con hardware especializado”.

Este enfoque permite que los desarrolladores no solo dispongan de algoritmos listos para tareas críticas como la navegación o la visión por computadora, sino también de una base adaptable para diferentes tipos de robots y entornos operativos.
“Su arquitectura modular permite a los desarrolladores construir y escalar soluciones robóticas de manera eficiente”.
La plataforma se ha consolidado como un componente esencial para robots móviles, permitiendo procesar datos sensoriales en tiempo real y ejecutar tareas en entornos dinámicos con mayor precisión.
“Isaac ROS mejora el rendimiento de percepción y navegación en robots móviles al integrar algoritmos de IA optimizados con hardware especializado en una arquitectura modular que permite construir y escalar soluciones de manera eficiente, facilitando la implementación de tareas complejas en entornos dinámicos”.

NeMo: desarrollo de modelos generativos y lenguaje natural
NeMo es la plataforma de NVIDIA orientada a construir modelos de inteligencia artificial generativa y de lenguaje natural. Su propuesta está dirigida a facilitar la creación de agentes adaptativos capaces de comprender, procesar y generar lenguaje humano, integrando voz, visión y texto en un mismo entorno de desarrollo.
“NeMo (NVIDIA NeMo Framework) es una plataforma completa para desarrollar IA generativa personalizada, incluyendo modelos lingüísticos de gran tamaño (LLM), modelos de lenguaje de visión (VLM), modelos de vídeo e IA de voz. Ofrece herramientas para entrenar, personalizar e implementar modelos de IA generativa, facilitando la creación de agentes de IA adaptativos y seguros”.

Además de este alcance general, NeMo también se concibe como un marco de trabajo abierto que entrega herramientas prácticas para el manejo de datos de voz y texto, desde el reconocimiento automático hasta la síntesis de lenguaje.
“NVIDIA NeMo es un marco de trabajo de código abierto diseñado para desarrollar y entrenar modelos de inteligencia artificial (IA) de última generación en reconocimiento automático de voz (ASR), procesamiento de lenguaje natural (NLP) y síntesis de voz (TTS). Construido sobre PyTorch y PyTorch Lightning, NeMo permite a los desarrolladores crear modelos personalizados que comprenden y generan lenguaje humano”.
Este enfoque general muestra cómo NeMo se posiciona no solo como un framework para el entrenamiento de modelos, sino también como un entorno que facilita la personalización y escalabilidad de proyectos de lenguaje natural en distintos dominios.
“Además, ofrece herramientas como el NeMo Forced Aligner (NFA) para alinear texto y audio, y el Speech Data Processor (SDP) para simplificar el procesamiento de datos de voz”.

Riva: interacción conversacional en tiempo real
Riva concentra las capacidades de interacción entre humanos y sistemas autónomos, al proporcionar servicios de voz y traducción multilingüe que funcionan en tiempo real y en diferentes entornos operativos.
“Riva es un kit de herramientas y microservicios de IA de voz totalmente personalizables, diseñados para construir y desplegar aplicaciones de conversación en tiempo real. Incluye servicios de ASR, TTS y NMT, permitiendo a los robots transcribir, sintetizar, traducir y adaptar modelos a jergas específicas, acentos o dominios industriales mediante el uso del NVIDIA Transfer Learning Toolkit (TLT) o NeMo”.

Integración de NeMo y Riva: comunicación natural entre robots y humanos
El verdadero potencial surge al integrar ambas plataformas. NeMo permite entrenar modelos generativos y de lenguaje natural, mientras que Riva los lleva al terreno de la interacción conversacional, habilitando una comunicación fluida entre robots y personas.
“NeMo y Riva permiten que los robots comprendan y se comuniquen en lenguaje natural al proporcionar capacidades avanzadas de procesamiento de lenguaje natural y síntesis de voz. Estas plataformas facilitan la interacción fluida entre los robots y los humanos, mejorando la experiencia del usuario y la eficiencia”.
Esta combinación hace posible que los sistemas autónomos comprendan intenciones, procesen comandos en distintos idiomas y generen respuestas expresivas en tiempo real.

La combinación de NeMo y Riva permite a los robots realizar tareas complejas de lenguaje natural, como:
- Reconocimiento de voz: convertir comandos de voz en texto con alta precisión, incluso en entornos ruidosos.
- Síntesis de voz: generar respuestas habladas, naturales y expresivas.
- Traducción multilingüe: facilitar la comunicación entre personas que hablan diferentes idiomas.
- Comprensión contextual: interpretar intenciones y contextos para realizar acciones apropiadas.

De esta manera, NeMo y Riva no solo fortalecen la capacidad de comunicación de los robots, sino que amplían las posibilidades de implementación de IA en industrias que requieren sistemas autónomos capaces de interactuar directamente con personas.

Capacidades de Isaac Sim para entrenar y validar robots
Isaac Sim aparece como una pieza estratégica dentro del ecosistema de NVIDIA, porque permite acelerar el desarrollo de la robótica autónoma en un entorno seguro y controlado. Su uso no solo sustituye costosos prototipos, sino que abre la posibilidad de experimentar con escenarios complejos que de otro modo serían inviables en la práctica.
“Isaac Sim™ es una plataforma avanzada de simulación robótica desarrollada por NVIDIA, construida sobre NVIDIA Omniverse Está diseñada para permitir a los desarrolladores crear, entrenar, probar y validar robots impulsados por inteligencia artificial (IA) en entornos virtuales físicamente precisos. Esta herramienta es esencial para acelerar el desarrollo de robots autónomos, como humanoides, vehículos móviles autónomos (AMR) y brazos robóticos, sin la necesidad de prototipos físicos costosos y riesgosos”.

Este enfoque transforma la simulación en un laboratorio de validación previo al mundo real. Al reducir la brecha entre lo virtual y lo físico, se minimizan errores y se maximiza la eficiencia en el entrenamiento de humanoides, robots móviles y sistemas de manipulación industrial, consolidando un modelo más ágil para desplegar autonomía en distintos escenarios.

Capacidades claves de Isaac Sim
Detallemos cinco capacidades que Isaac Sim permite:
- Simulación física de alta fidelidad: Isaac Sim utiliza el motor de física NVIDIA Phys para modelar con precisión interacciones físicas, incluyendo colisiones, fricción y dinámica de cuerpos rígidos y deformables. Esto permite entrenar robots en condiciones realistas, reduciendo la brecha entre simulación y realidad.

- Generación de datos sintéticos con Omniverse Replicator: Omniverse Replicator es una herramienta integrada que facilita la creación de grandes volúmenes de datos sintéticos para entrenar modelos de IA. Permite la aleatorización de escenas, variando parámetros como iluminación, texturas y posiciones de objetos, lo que mejora la robustez de los modelos entrenados.

- Entrenamiento de agentes con Isaac Lab: Isaac Lab es un marco de trabajo modular y de código abierto que se integra con Isaac Sim para facilitar el entrenamiento de agentes de IA mediante técnicas como el aprendizaje por refuerzo y la imitación. Este enfoque permite a los robots aprender habilidades complejas en entornos simulados antes de su implementación en el mundo real.


- Pruebas de software en bucle (SIL): Isaac Sim permite realizar pruebas de software en bucle, donde el software que controla al robot se evalúa en un entorno simulado. Esto asegura que la pila de software del robot se comporte como se espera antes de su implementación en hardware físico, mejorando la calidad y seguridad del sistema.
- Soporte para ROS y ROS 2: Isaac Sim es compatible con Robot Operating System (ROS) y ROS 2, facilitando la integración con sistemas existentes y permitiendo el control de robots mediante scripts en Python. Esta compatibilidad es crucial para desarrolladores que ya utilizan estos marcos en sus proyectos.

¿Cómo mejora Isaac ROS el rendimiento de percepción y navegación en robots móviles?
Isaac ROS está pensado para abordar uno de los grandes retos de la robótica: moverse en entornos no estructurados donde la incertidumbre es constante. NVIDIA lo plantea como un puente entre el ecosistema ROS 2 y el poder de CUDA, integrando visión por computadora y algoritmos de IA que fortalecen la autonomía.
“Isaac ROS™ es una plataforma de desarrollo de software de NVIDIA que optimiza el rendimiento de percepción y navegación en robots móviles, especialmente en entornos no estructurados como almacenes, fábricas y espacios urbanos”.
Este énfasis inicial subraya que el objetivo de la plataforma es dotar a los robots de un mayor nivel de adaptación en escenarios donde predominan la incertidumbre y la variabilidad.
“Construida sobre ROS 2 y acelerada por CUDA, Isaac ROS integra bibliotecas avanzadas de visión por computadora, algoritmos de IA y herramientas de simulación para ofrecer soluciones robóticas de alto rendimiento”.

De esta forma, la plataforma se convierte en un habilitador clave para robots que deben interpretar datos visuales, planificar rutas y responder en tiempo real, asegurando una operación confiable en escenarios complejos donde la improvisación humana no es posible.
¿Cómo se optimiza la inferencia en tiempo real de modelos robóticos con TensorRT?
La optimización de modelos en tiempo real es esencial para que los robots puedan tomar decisiones rápidas sin comprometer precisión. TensorRT aparece como la respuesta de NVIDIA para ejecutar IA avanzada incluso en dispositivos con recursos limitados, garantizando velocidad y eficiencia.
“NVIDIA TensorRT es una plataforma de optimización de inferencia de alto rendimiento diseñada para acelerar la ejecución de modelos de inteligencia artificial (IA) en tiempo real en hardware NVIDIA, incluyendo robots autónomos, vehículos eléctricos y sistemas de visión industrial”.

La ventaja de TensorRT radica en su capacidad de llevar a la práctica la IA en entornos donde la latencia y la velocidad de respuesta son críticas.
“TensorRT permite que los modelos previamente entrenados se adapten y se ejecuten de manera más eficiente en dispositivos con recursos limitados, como las plataformas Jetson o DGX”.

El resultado es que los mismos modelos que requieren gran capacidad de cómputo en fase de entrenamiento pueden desplegarse con agilidad en producción, llevando la inferencia a bordes computacionales y habilitando aplicaciones críticas como la navegación autónoma o la visión industrial de alta velocidad.

Principales técnicas de optimización en TensorRT
- Cuantización de precisión mixta: TensorRT admite la cuantización de precisión mixta, utilizando formatos como FP16 (punto flotante de 16 bits) e INT8 (entero de 8 bits) para reducir el tamaño del modelo y mejorar la velocidad de inferencia sin sacrificar significativamente la precisión. La introducción de INT4 en TensorRT 10.0 permite una reducción adicional del tamaño del modelo y una mayor eficiencia en la memoria.

- Fusión de capas y optimización de kernels: TensorRT fusiona operaciones redundantes y optimiza kernels para reducir la sobrecarga computacional y mejorar el rendimiento. Esto es especialmente beneficioso en aplicaciones robóticas que requieren respuestas rápidas y procesamiento eficiente de datos sensoriales.
- Asignación dinámica de memoria: La asignación dinámica de memoria permite a TensorRT gestionar de manera eficiente los recursos de memoria, adaptándose a las necesidades específicas de cada modelo y dispositivo. Esto es crucial para ejecutar modelos complejos en plataformas con memoria limitada.
- Optimización de precisión activada por pesos (AWQ): La optimización de precisión activada por pesos (AWQ) permite que TensorRT ajuste la precisión de los pesos del modelo según su importancia, mejorando la eficiencia sin comprometer la precisión del modelo.

Metropolis en visión por computadora para flotas robóticas y ciudades inteligentes
Metropolis se presenta como una pieza clave para integrar la visión por computadora en el día a día de las ciudades. No se limita a procesar imágenes, sino que transforma los datos en información práctica para la seguridad, la movilidad y la eficiencia en entornos urbanos, aportando un marco común para robots y sistemas públicos.
"NVIDIA Metropolis es una plataforma avanzada de análisis de video inteligente (IVA) que integra inteligencia artificial (IA) con datos visuales para crear ciudades más inteligentes, seguras y eficientes".

Con esta definición inicial queda claro que la plataforma no apunta solo a la vigilancia, sino a un ecosistema más amplio. El cruce de inteligencia artificial y video permite que distintos actores urbanos operen con mayor visibilidad y capacidad de reacción.
"Diseñada para operar desde el borde hasta la nube, Metropolis permite a las flotas de robots y a las infraestructuras urbanas procesar y analizar datos en tiempo real, facilitando la toma de decisiones informadas y la automatización de tareas en entornos urbanos complejos".

Aquí se introduce su arquitectura técnica, donde el procesamiento fluye sin interrupciones, desde dispositivos en terreno hasta la nube. Esa continuidad asegura que la información no se quede en la cámara, sino que se convierta en decisiones inmediatas para el tráfico, la seguridad o la logística.
"Metropolis desempeña un papel crucial en la visión por computadora aplicada a flotas de robots y ciudades inteligentes al proporcionar una plataforma escalable para el análisis de video en tiempo real".
La escalabilidad se vuelve un aspecto central porque permite pasar de proyectos piloto a implementaciones de ciudad completa. Esto asegura que la misma tecnología pueda crecer sin rediseñarse, manteniendo consistencia en el análisis de datos.

"Permite a los robots interpretar y reaccionar ante su entorno, facilitando la implementación de soluciones de IA en aplicaciones como la vigilancia, la gestión del tráfico y la automatización industrial".
Con ello, la propuesta baja al terreno práctico: robots que no solo observan, sino que actúan con base en lo que perciben. Desde la vigilancia hasta la automatización industrial, la capacidad de interpretar escenas en tiempo real es lo que convierte a Metropolis en una herramienta estratégica.

Capacidades clave de Metropolis para robots y ciudades inteligentes
- Análisis de video en tiempo real: Metropolis permite la implementación de agentes de IA que analizan video en vivo para detectar eventos, reconocer objetos y comportamientos, y generar alertas. Esto es esencial para la supervisión del tráfico, la seguridad pública y la gestión de infraestructuras urbanas.
- Integración con gemelos digitales: La plataforma se integra con gemelos digitales para simular y optimizar el comportamiento de robots y sistemas urbanos. Esto permite la planificación de rutas, la detección de obstáculos y la coordinación de flotas de robots en entornos urbanos dinámicos.
- Escalabilidad y despliegue flexible: Metropolis es compatible con una amplia gama de dispositivos, desde el NVIDIA Jetson Nano™ para cámaras de tráfico hasta flotas completas de GPU NVIDIA T4. Esto permite una implementación escalable y flexible, adaptándose a las necesidades específicas de cada ciudad o entorno industrial.
- Automatización de tareas y toma de decisiones: La plataforma facilita la automatización de tareas como la gestión del tráfico, la inspección de infraestructuras y la respuesta a incidentes. Los robots equipados con Metropolis pueden tomar decisiones informadas basadas en el análisis de datos en tiempo real, mejorando la eficiencia operativa y la seguridad.