Google presenta Gemma 4 con foco en modelos abiertos para despliegue local, agentes y razonamiento
Gemma 4 amplía IA abierta para edge, nube y empresas. | Créditos: Google

Google presenta Gemma 4 con foco en modelos abiertos para despliegue local, agentes y razonamiento

Google presentó Gemma 4 como su nueva familia de modelos abiertos, orientada a desarrolladores y organizaciones que necesitan capacidades de razonamiento, ejecución local y flujos basados en agentes. La propuesta amplía el alcance de la línea con variantes pensadas para dispositivos de borde, estaciones de trabajo y entornos de nube.

Google habilita en Gemini la importación de memorias y chats desde otras apps de IA
Google permite trasladar memorias y chats previos a Gemini, aunque por ahora la función queda restringida a cuentas de consumo.

Una familia que busca más rendimiento útil por parámetro

Google señala que Gemma 4 fue construida a partir de la misma base de investigación y tecnología utilizada en Gemini 3. El foco del anuncio está en ofrecer mayor capacidad práctica con modelos abiertos que puedan integrarse en escenarios de desarrollo, personalización y operación empresarial.

La familia incluye cuatro variantes: Effective 2B, Effective 4B, 26B Mixture of Experts y 31B Dense. Según Google, los modelos de mayor tamaño fueron diseñados para tareas de lógica más compleja y para flujos de trabajo con agentes, más allá de usos conversacionales básicos.

La compañía también afirma que los modelos más grandes alcanzan posiciones destacadas dentro del ranking de Arena AI. En esa referencia, Gemma 4 31B aparece como el tercer modelo abierto mejor ubicado y Gemma 4 26B como el sexto.

Google encabeza ranking de Fast Company mientras extiende Gemini a sus principales líneas de negocio
Google consolidó a Gemini como base transversal de producto, nube y búsqueda tras acelerar su respuesta al auge de la inteligencia artificial.

Cobertura desde edge hasta infraestructura de mayor capacidad

Uno de los ejes del anuncio es la flexibilidad de despliegue. Google plantea que Gemma 4 puede ejecutarse y ajustarse en distintos niveles de infraestructura, desde hardware local de bajo consumo hasta plataformas de cómputo más robustas.

En la parte alta de la familia, Google indica que los pesos sin cuantizar de los modelos 26B y 31B pueden operar de forma eficiente en una sola GPU NVIDIA H100 de 80 GB. También añade que las versiones cuantizadas pueden ejecutarse de forma nativa en GPU de consumo para asistentes de código, IDE y otras tareas locales.

Para dispositivos de borde, la compañía reserva los modelos E2B y E4B. Estas variantes priorizan eficiencia de memoria y de cómputo, con operación offline y baja latencia en plataformas como teléfonos Android, Raspberry Pi y NVIDIA Jetson Orin Nano.

Google plantea cinco estrategias para profundizar el uso de IA en el trabajo
Google propone cinco estrategias para integrar IA en procesos laborales con foco en experimentación, escalabilidad y aprendizaje compartido.

Google agrega que los modelos edge ofrecen una ventana de contexto de 128K, mientras que los modelos mayores llegan hasta 256K. La familia completa incorpora capacidades multimodales para imágenes y video, y en el caso de E2B y E4B también entrada de audio.

Licencia abierta y soporte amplio para integración

Otro punto central del anuncio es el cambio a licencia Apache 2.0 con permisos comerciales. Google presenta esta decisión como una respuesta al feedback de la comunidad y como una base para dar más flexibilidad a quienes necesiten control sobre infraestructura, datos y personalización del modelo.

La publicación también pone énfasis en seguridad y confiabilidad. Google sostiene que Gemma 4 pasa por protocolos rigurosos de seguridad de infraestructura, con una propuesta que apunta tanto a desarrolladores como a organizaciones empresariales y entornos soberanos.

La integración inicial incluye soporte para Hugging Face, vLLM, llama.cpp, Ollama, NVIDIA NIM, NeMo y Vertex AI. A eso se suma despliegue en Google Cloud, Cloud Run, GKE y otras opciones orientadas a reducir fricción de adopción y facilitar pruebas, ajuste fino y escalamiento.