Anthropic presenta Claude Opus 4.8 con mejoras para agentes, código y uso de herramientas

Admin 29 de may. de 2026 Lectura de 4 minutos

Anthropic anunció Claude Opus 4.8, una actualización de su modelo Opus enfocada en programación, razonamiento, tareas con agentes y trabajo profesional. La versión mantiene el precio regular de Opus 4.7 e incorpora cambios en Claude Code, Claude.ai, Cowork y la API Messages.

Opus 4.8 apunta a tareas largas y trabajo con agentes

Anthropic afirma que Claude Opus 4.8 mejora frente a Opus 4.7 en pruebas de programación, habilidades de agentes, razonamiento y tareas prácticas de trabajo. La compañía también sostiene que el modelo tiende más a declarar incertidumbre y menos a presentar avances sin respaldo suficiente.

Tom Pritchard, Staff Engineer, centró su evaluación en el uso de Claude Opus 4.8 dentro de Claude Code. Su lectura apunta a criterio, revisión de errores propios y capacidad para cuestionar planes antes de ejecutar cambios de mayor alcance.

“Claude Opus 4.8 tiene un criterio notablemente mejor. En Claude Code, hace las preguntas correctas, detecta sus propios errores, cuestiona cuando un plan no es sólido y construye confianza en exploraciones complejas y multiservicio antes de hacer cambios importantes. Es un gran modelo para construir”.

Esa mejora es relevante para equipos que usan modelos en tareas de varios pasos, donde una respuesta rápida no basta si el sistema no revisa sus supuestos. Anthropic señala que sus evaluaciones muestran que Opus 4.8 es cerca de cuatro veces menos propenso que su antecesor a dejar pasar fallas en código generado por el propio modelo.

Claude Code suma flujos dinámicos y mayor control operativo

El lanzamiento incluye dynamic workflows en Claude Code, una función en vista previa que permite planificar trabajos grandes y ejecutar cientos de subagentes en paralelo dentro de una misma sesión. Anthropic lo orienta a tareas de escala amplia, como migraciones de bases de código con cientos de miles de líneas.

Michael Truell, cofundador y CEO de Cursor, situó la mejora en CursorBench y en la eficiencia del modelo al usar herramientas. Su comentario apunta a una reducción de pasos para resolver tareas sin perder capacidad de ejecución.

“En CursorBench, Claude Opus 4.8 supera a los modelos Opus anteriores en todos los niveles de esfuerzo. Las llamadas a herramientas son significativamente más eficientes, con menos pasos para la misma inteligencia, y lleva las tareas de extremo a extremo hasta completarlas”.

Anthropic también agregó control de esfuerzo en Claude.ai y Cowork, con opciones para priorizar respuestas más rápidas o análisis más profundos. En programación, la compañía indica que el nivel alto mantiene un consumo de tokens similar al valor por defecto de Opus 4.7, pero con mejor desempeño.

La actualización también refuerza navegación, API y disponibilidad

Miguel Gonzalez, Tech Lead en Browserbase, destacó el desempeño de Opus 4.8 en tareas de uso de computador y agentes de navegador. Su testimonio incorpora una medición concreta en Online-Mind2Web y una comparación directa con Opus 4.7 y GPT-5.5.

“Claude Opus 4.8 es el modelo de uso de computador y agente de navegador más fuerte que hemos probado, con una puntuación de 84% en Online-Mind2Web, lo que representa un salto significativo frente a Opus 4.7 y GPT-5.5. Se mantiene reflexivo y enfocado en la tarea del modo que las cargas de agentes de nuestros clientes requieren para ser confiables de extremo a extremo”.

Para desarrolladores, la API Messages ahora acepta instrucciones de sistema dentro del arreglo de mensajes, lo que permite ajustar permisos, presupuestos de tokens o contexto del entorno durante la ejecución. La actualización busca evitar que esos cambios rompan la caché de prompts o se traten como un turno de usuario.

Claude Opus 4.8 está disponible como claude-opus-4-8. El precio regular se mantiene en USD 5 por millón de tokens de entrada y USD 25 por millón de tokens de salida, mientras que el modo rápido queda en USD 10 por millón de tokens de entrada y USD 50 por millón de tokens de salida.