Brief IA · 1 jun

TL;DR

La semana cierra con Anthropic dominando titulares en dos frentes simultáneos: un nuevo modelo (Opus 4.8) y la ronda de financiación más grande de su historia, mientras OpenAI publica su primer documento público de gobernanza regulatoria y empieza a retirar modelos de ChatGPT.

Lo que ha pasado hoy

Anthropic lanza Claude Opus 4.8: mejor código, más honestidad, mismo precio

Anthropic ha publicado Claude Opus 4.8, sucesor directo de Opus 4.7 (lanzado hace apenas 41 días). El modelo mantiene el precio anterior: $5/M tokens de entrada y $25/M de salida. El fast mode corre ahora a 2,5× la velocidad y cuesta tres veces menos que antes.

Los números que importan: 69,2% en SWE-Bench Pro, por encima de GPT-5.5 y Gemini 3.1 Pro en ese benchmark. En Online-Mind2Web (computer use y browser agent) alcanza un 84%, también por encima de Opus 4.7 y GPT-5.5. En el Super-Agent benchmark interno de Anthropic, es el único modelo que completa todos los casos extremo a extremo.

El ángulo más interesante no son los benchmarks sino la honestidad: Opus 4.8 tiene cuatro veces menos probabilidad que su predecesor de dejar pasar errores en código sin señalarlos. Los evaluadores de Bridgewater destacaron específicamente que el modelo detecta problemas en los inputs y outputs que otros modelos pasan por alto.

Junto al modelo llegan dos features nuevas: Dynamic Workflows (preview en Claude Code para Enterprise, Team y Max), que permite lanzar cientos de subagentes en paralelo para migraciones de bases de código de cientos de miles de líneas; y Effort Control en Claude.ai, que deja al usuario elegir cuántos tokens gasta el modelo en cada respuesta.

Anthropic también confirmó que espera llevar modelos de clase Mythos a todos los clientes "en las próximas semanas". (anthropic.com/news/claude-opus-4-8)

Anthropic cierra una ronda de $65.000 M a valoración de $965.000 M

El mismo día del lanzamiento de Opus 4.8, Anthropic cerró su Serie H: $65.000 millones a una valoración post-money de $965.000 millones. La ronda fue co-liderada por Altimeter Capital, Dragoneer, Greenoaks, Sequoia Capital, Capital Group, Coatue y D1 Capital Partners. También participaron Baillie Gifford, Blackstone, Brookfield y Fidelity, además de socios estratégicos de infraestructura: Samsung, SK Hynix y Micron. De esos $65.000 M, $15.000 M corresponden a compromisos previos de hyperscalers, incluyendo $5.000 M de Amazon anunciados en abril.

Anthropic tiene previsto usar los fondos para investigación de seguridad e interpretabilidad, ampliar compute y escalar producto. Su run-rate de ingresos ha superado los $30.000 M, frente a los ~$9.000 M de finales de 2025. Se espera que sea la última ronda privada antes de una posible salida a bolsa en otoño de 2026. (anthropic.com/news)

OpenAI publica su Frontier Governance Framework

El 28 de mayo, OpenAI publicó su Frontier Governance Framework (FGF), un documento público que mapea sus prácticas internas de seguridad contra dos marcos regulatorios concretos: la California Transparency in Frontier AI Act (TFAIA) y el EU AI Act Code of Practice for General Purpose AI.

El FGF cubre evaluación y mitigación de riesgos en cuatro categorías: cyber offense, CBRN (químico, biológico, radiológico, nuclear), manipulación dañina y pérdida de control. Define niveles de riesgo por tiers: por ejemplo, un modelo Tier 3 en cyber offense sería capaz de identificar y desarrollar zero-days funcionales en sistemas reales sin intervención humana. El documento también detalla protocolos de reporte de incidentes, gestión de riesgo de seguridad e input externo de expertos independientes.

Lo relevante para los que construyen sobre APIs de OpenAI: este tipo de documento empieza a ser el estándar de referencia para due diligence enterprise y cumplimiento normativo, especialmente en la UE donde las obligaciones más amplias del AI Act entran en vigor el 2 de agosto de 2026. (openai.com/index/openai-frontier-governance-framework)

OpenAI retira GPT-4.5 y o3 de ChatGPT; despliega GPT-5.4 mini

OpenAI ha anunciado dos deprecaciones en ChatGPT (sin afectar a la API):

GPT-4.5 se retira el 27 de junio de 2026 (periodo de 30 días).
o3 se retira el 26 de agosto de 2026 (periodo de 90 días).

Al mismo tiempo, están desplegando GPT-5.4 mini en ChatGPT: disponible para usuarios Free y Go vía la función "Thinking" en el menú +. Para usuarios de pago (Plus, Pro), actúa como fallback de rate limit de GPT-5.4 Thinking. No aparece como modelo seleccionable en el picker.

El patrón es claro: OpenAI está consolidando la familia GPT-5.x y limpiando el catálogo de versiones anteriores. Los que tienen integraciones en API no se ven afectados por ahora. (help.openai.com/en/articles/6825453)

OpenAI lanza Rosalind Biodefense

El 29 de mayo, OpenAI anunció Rosalind Biodefense: acceso controlado a GPT-Rosalind (su modelo de razonamiento para ciencias de la vida, presentado en abril) para desarrolladores seleccionados y socios del gobierno estadounidense. El objetivo declarado es construir capacidades de biodefensa, salud pública y preparación ante pandemias.

El acceso es por invitación, con una estructura de trusted access que limita quién puede construir sobre el modelo. Es la segunda aplicación de GPT-Rosalind después de su lanzamiento general para investigación en ciencias de la vida. Relevante para equipos de bioinformática y salud digital que quieran acceder a modelos especializados con restricciones de uso explícitas. (openai.com/research/index/release)

DeepSeek V4 Pro fija precios permanentes: $0,435/M input y $0,87/M output

En mayo, DeepSeek anunció que el descuento promocional del 75% que venía aplicando se convierte en tarifa permanente: $0,435/M tokens de entrada y $0,87/M de salida. Los pesos son MIT-licensed y están disponibles en HuggingFace.

Los benchmarks del modelo son relevantes: 80,6% en SWE-Bench Verified (a la par con Gemini 3.1 Pro) y 93,5% en LiveCodeBench (primero en open-weight). Esto lo sitúa a menos de un punto de Claude Opus 4.6 en SWE-Bench, a un coste aproximadamente 34× inferior al de GPT-5.5 por token de salida. Para equipos con restricciones de coste y carga de trabajo de código, es el modelo a evaluar primero. (huggingface.co/deepseek-ai)

Si solo lees una cosa

El lanzamiento de Claude Opus 4.8 es la noticia técnica más densa: combina benchmarks sólidos en coding agentic, una mejora real y medible en honestidad del modelo (4× menos errores silenciosos), nuevas primitivas de control de esfuerzo/tokens, y la primera señal concreta de que Mythos llegará a producción general en semanas. Todo eso a precio sin cambios.