Google presentó Gemma 4 como su nueva familia de modelos abiertos, orientada a desarrolladores y organizaciones que necesitan capacidades de razonamiento, ejecución local y flujos basados en agentes. La propuesta amplía el alcance de la línea con variantes pensadas para dispositivos de borde, estaciones de trabajo y entornos de nube.

Una familia que busca más rendimiento útil por parámetro
Google señala que Gemma 4 fue construida a partir de la misma base de investigación y tecnología utilizada en Gemini 3. El foco del anuncio está en ofrecer mayor capacidad práctica con modelos abiertos que puedan integrarse en escenarios de desarrollo, personalización y operación empresarial.
La familia incluye cuatro variantes: Effective 2B, Effective 4B, 26B Mixture of Experts y 31B Dense. Según Google, los modelos de mayor tamaño fueron diseñados para tareas de lógica más compleja y para flujos de trabajo con agentes, más allá de usos conversacionales básicos.
La compañía también afirma que los modelos más grandes alcanzan posiciones destacadas dentro del ranking de Arena AI. En esa referencia, Gemma 4 31B aparece como el tercer modelo abierto mejor ubicado y Gemma 4 26B como el sexto.

Cobertura desde edge hasta infraestructura de mayor capacidad
Uno de los ejes del anuncio es la flexibilidad de despliegue. Google plantea que Gemma 4 puede ejecutarse y ajustarse en distintos niveles de infraestructura, desde hardware local de bajo consumo hasta plataformas de cómputo más robustas.
En la parte alta de la familia, Google indica que los pesos sin cuantizar de los modelos 26B y 31B pueden operar de forma eficiente en una sola GPU NVIDIA H100 de 80 GB. También añade que las versiones cuantizadas pueden ejecutarse de forma nativa en GPU de consumo para asistentes de código, IDE y otras tareas locales.
Para dispositivos de borde, la compañía reserva los modelos E2B y E4B. Estas variantes priorizan eficiencia de memoria y de cómputo, con operación offline y baja latencia en plataformas como teléfonos Android, Raspberry Pi y NVIDIA Jetson Orin Nano.

Google agrega que los modelos edge ofrecen una ventana de contexto de 128K, mientras que los modelos mayores llegan hasta 256K. La familia completa incorpora capacidades multimodales para imágenes y video, y en el caso de E2B y E4B también entrada de audio.
Licencia abierta y soporte amplio para integración
Otro punto central del anuncio es el cambio a licencia Apache 2.0 con permisos comerciales. Google presenta esta decisión como una respuesta al feedback de la comunidad y como una base para dar más flexibilidad a quienes necesiten control sobre infraestructura, datos y personalización del modelo.
La publicación también pone énfasis en seguridad y confiabilidad. Google sostiene que Gemma 4 pasa por protocolos rigurosos de seguridad de infraestructura, con una propuesta que apunta tanto a desarrolladores como a organizaciones empresariales y entornos soberanos.
La integración inicial incluye soporte para Hugging Face, vLLM, llama.cpp, Ollama, NVIDIA NIM, NeMo y Vertex AI. A eso se suma despliegue en Google Cloud, Cloud Run, GKE y otras opciones orientadas a reducir fricción de adopción y facilitar pruebas, ajuste fino y escalamiento.


