Brief IA · 1 jul

TL;DR

El 1 de julio es el día en que Anthropic vuelve a encender sus modelos más potentes tras 18 días de bloqueo gubernamental, y lanza Sonnet 5 como nuevo modelo por defecto; OpenAI, mientras tanto, estrena GPT-5.6 en preview restringido con coordinación explícita con Washington.

Lo que ha pasado hoy

Anthropic reactiva Fable 5 y Mythos 5 tras el bloqueo de exportación

El 12 de junio el gobierno de EE.UU. aplicó controles de exportación a Fable 5 y Mythos 5, obligando a Anthropic a suspender el acceso a ambos modelos para todos sus usuarios porque no había forma de verificar la nacionalidad en tiempo real. Hoy, 30 de junio, esos controles se han levantado. Fable 5 vuelve a estar disponible desde el 1 de julio en Claude.ai, Claude Platform, Claude Code y Claude Cowork para usuarios globales. Para planes Pro, Max, Team y Enterprise seleccionados, estará incluido en hasta el 50% del límite semanal de uso hasta el 7 de julio, tras lo cual pasará a consumir créditos de uso. La reactivación en AWS, Google Cloud y Microsoft Foundry llegará "lo antes posible". (fuente oficial)

Anthropic lanza Claude Sonnet 5: el modelo por defecto para agentes a precio de Sonnet

Anthropicpublicó ayer (30 de junio) Claude Sonnet 5, que se convierte hoy en el modelo por defecto para los planes Free y Pro. El posicionamiento es claro: capacidades agenticas cercanas a Opus 4.8 a un coste sensiblemente menor. En benchmarks de coding agentico, Sonnet 5 alcanza un 63,2% frente al 69,2% de Opus 4.8 y el 58,1% de Sonnet 4.6; en knowledge work llega a superar ligeramente a Opus 4.8. El precio introductorio es $2/MTok input y $10/MTok output hasta el 31 de agosto, tras lo cual sube a $3/$15. Hay un matiz técnico relevante: Sonnet 5 estrena un tokenizador nuevo que puede incrementar el conteo de tokens entre 1,0 y 1,35× según el tipo de contenido; Anthropic ha calibrado el precio introductorio para que la transición sea «aproximadamente cost-neutral», pero quien tenga cargas de trabajo de alto volumen debería medir antes de asumir que la factura no cambia. En seguridad, el modelo muestra tasas menores de alucinación y sycophancy que Sonnet 4.6, aunque no llega al nivel de Opus 4.8 ni de Mythos. (fuente oficial)

OpenAI presenta GPT-5.6 (Sol, Terra, Luna) en preview con gating gubernamental

El 26 de junio OpenAI anunció el preview limitado de la familia GPT-5.6, compuesta por tres tiers: Sol (flagship), Terra (equilibrio coste/rendimiento, competitivo con GPT-5.5 a la mitad de precio) y Luna (velocidad y coste mínimos). El nuevo sistema de nomenclatura separa el número de versión —que identifica la generación— de los nombres Sol/Terra/Luna, que representan tiers de capacidad con cadencia de actualización independiente. Precios: Sol a $5 input / $30 output, Terra a $2,50/$15 y Luna a $1/$6 por millón de tokens. Sol introduce un modo max de razonamiento y un modo ultra que usa subagentes en paralelo para tareas de largo alcance. En Terminal-Bench 2.1 (coding en línea de comandos), Sol Ultra alcanza 91,9%, por encima de Claude Mythos 5 (84,3%) y GPT-5.5 (88,0%). El acceso durante el preview está restringido a socios de confianza a petición expresa del gobierno de EE.UU.; OpenAI ha sido explícito en que este modelo de aprobación cliente por cliente «no debería convertirse en el estándar a largo plazo». (fuente oficial)

GPT-5.6 y el marco de seguridad: clasificado como «High» en ciberseguridad y biología

Bajo el Preparedness Framework de OpenAI, los tres modelos de la familia GPT-5.6 están clasificados como High en Cybersecurity y en Biological/Chemical risk. Sol identificó bugs y primitivas de explotación en Chromium y Firefox, pero no produjo de forma autónoma un exploit funcional de cadena completa en las condiciones testadas. OpenAI dedicó más de 700.000 horas de GPU equivalentes a A100 a red-teaming automatizado para endurecer el modelo contra vulnerabilidades sistémicas. El system card está publicado y es la referencia para quien quiera auditar los detalles de las evaluaciones. (fuente oficial — system card)

Anthropic corrige benchmarks publicados de Sonnet 4.6

En el post de lanzamiento de Sonnet 5, Anthropic actualizó silenciosamente dos métricas de Sonnet 4.6 que habían sido calculadas con metodologías distintas a las usadas en producción. Humanity's Last Exam pasa a 34,6% (sin herramientas) y 46,8% (con herramientas). OSWorld-Verified se corrige a 78,5%. Ambas cifras difieren de las publicadas en el blog de lanzamiento de Sonnet 4.6. No es un escándalo, pero es un recordatorio de que los benchmarks de los propios labs merecen seguimiento cuando cambian el grader o la metodología. (fuente oficial)

Si solo lees una cosa

La reactivación de Fable 5 y el lanzamiento simultáneo de Sonnet 5 son la misma historia: Anthropic sale del peor mes de su historia operativa (bloqueo gubernamental, modelos fuera de línea) y lo hace con un modelo nuevo que ya es el default para millones de usuarios. Eso, combinado con la IPO en curso, hace que hoy sea un punto de inflexión relevante para el ecosistema.