Buscar

OpenAI lanza GPT-5.5, Anthropic abre la memoria a los Managed Agents, Kimi K2.6 Agent Swarm

OpenAI lanza GPT-5.5, Anthropic abre la memoria a los Managed Agents, Kimi K2.6 Agent Swarm

El 23 de abril de 2026 marca una jornada intensa: OpenAI lanza GPT-5.5 con un 85% en ARC-AGI-2 y un precio API de $5/M tokens de entrada, mientras Anthropic abre la memoria persistente en beta para sus Managed Agents y publica un post-mortem sobre Claude Code. En paralelo, GitHub Copilot entrega siete actualizaciones en tres días, Kimi K2.6 despliega un enjambre (swarm) de 300 subagentes, y SpaceX sella una alianza de codificación con Cursor.


GPT-5.5: el modelo frontier de OpenAI

23 de abril — OpenAI lanza GPT-5.5, su modelo más potente hasta la fecha, diseñado para el trabajo real y los agentes. Mejora significativamente la codificación agéntica, el uso del ordenador (computer use), el trabajo del conocimiento y la investigación científica, al tiempo que conserva la latencia de GPT-5.4.

Disponibilidad y precios

GPT-5.5 está disponible de inmediato para los suscriptores de ChatGPT Plus, Pro, Business y Enterprise, así como en Codex. El acceso API llegará “muy pronto”.

OfertaAcceso APIEntradaSalida
GPT-5.5 estándarPronto$5 / M tokens$30 / M tokens
GPT-5.5 ProPronto$30 / M tokens$180 / M tokens

La ventana de contexto en Codex alcanza 400K tokens. Está disponible un modo Fast — 1,5× más rápido, 2,5× el costo —.

Benchmarks

EvaluaciónGPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
Expert-SWE (interno)73.1%68.5%
SWE-Bench Pro58.6%57.7%64.3%54.2%
GDPval84.9%83.0%80.3%67.3%
OSWorld-Verified78.7%75.0%78.0%
ARC-AGI-285.0%73.3%75.8%77.1%
FrontierMath Tier 435.4%27.1%22.9%16.7%
CyberGym81.8%79.0%73.1%
BixBench (bioinformática)80.5%74.0%

GPT-5.5 va en cabeza en la mayoría de los benchmarks, con una excepción notable: SWE-Bench Pro, donde Claude Opus 4.7 conserva la ventaja (64.3% vs 58.6%).

Infraestructura y seguridad

El modelo fue co-diseñado con NVIDIA GB200/GB300 NVL72. Codex utilizó GPT-5.5 para optimizar su propia infraestructura, ganando +20% de velocidad de generación de tokens. En ciberseguridad, GPT-5.5 está clasificado como High en el Preparedness Framework de OpenAI (no Critical); el programa Trusted Access Cyber se le amplía.

Investigación científica

Más allá del código, GPT-5.5 ayudó a demostrar un nuevo teorema sobre los números de Ramsey (combinatoria), verificado formalmente en Lean. También analizó un conjunto de datos genómicos de 62 muestras y 28 000 genes en unos minutos — una tarea que habría requerido meses a un equipo de investigadores.

«GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use.»

🇪🇸 GPT-5.5 es notablemente más inteligente y persistente que GPT-5.4, con un rendimiento de codificación más sólido y un uso de herramientas más fiable. — Michael Truell, cofundador y CEO de Cursor

🔗 Anuncio GPT-5.5


La ola de los agentes persistentes

Tres anuncios importantes convergen este 23 de abril en torno al agente persistente, capaz de actuar de forma autónoma durante largos periodos y de retener el contexto de una sesión a otra.

OpenAI Workspace Agents en ChatGPT

22 de abril — OpenAI presenta los agentes de espacio de trabajo (Workspace Agents): agentes compartidos que un equipo crea una vez, utiliza en conjunto en ChatGPT o Slack, y mejora progresivamente. Impulsados por Codex en la nube, pueden ejecutar tareas complejas incluso cuando el usuario está desconectado. Los Workspace Agents sustituyen progresivamente a los GPT, que siguen disponibles durante la transición.

Tipo de agenteFuncionalidad
Verificador de softwareExamina solicitudes, compara políticas, crea tickets IT
Enrutador de comentarios de productoSupervisa Slack/support/forums → tickets priorizados
Generador de informesExtrae datos del viernes, crea gráficos, síntesis
Agente de prospecciónBusca leads, evalúa, redacta emails, actualiza CRM
Responsable de riesgos de tercerosEvalúa proveedores, produce informe estructurado

Disponibles en research preview para Business, Enterprise, Edu y Teachers; gratis hasta el 6 de mayo de 2026, luego facturación en créditos.

Según Ankur Bhatt (AI Engineering, Rippling), lo que antes llevaba de 5 a 6 horas por semana a los comerciales ahora se ejecuta automáticamente en segundo plano sobre cada oportunidad.

🔗 Workspace Agents


Anthropic — Memoria para los Claude Managed Agents

23 de abril — La memoria para los Claude Managed Agents está disponible en beta pública en Claude Platform. Los agentes ahora pueden aprender de una sesión a otra gracias a una capa de memoria montada directamente sobre un sistema de archivos: los agentes usan las mismas capacidades bash y de ejecución de código que ya emplean para las tareas agénticas.

FuncionalidadDetalle
Stores compartiblesVarios agentes, distintos ámbitos de acceso (solo lectura / lectura-escritura)
Acceso concurrenteSin sobrescritura entre sesiones paralelas
Registro de auditoríaQué sesión, qué agente, qué memoria
ReversiónSobre cualquier versión anterior
ExportabilidadMemorias gestionables mediante la API

Los resultados de clientes ilustran el impacto concreto:

ClienteResultado
Rakuten-97% de errores en primer paso, -27% de costo, -34% de latencia
Wisedocs+30% de velocidad de verificación documental
NetflixContinuidad del contexto entre sesiones sin actualización manual
AndoMemoria de plataforma sin infraestructura dedicada

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇪🇸 La memoria en los Managed Agents nos permite poner el aprendizaje continuo en producción a gran escala. Nuestros agentes destilan las lecciones de cada sesión, produciendo un 97 % menos de errores en primer paso, con un 27 % menos de costo y un 34 % menos de latencia. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Memoria Managed Agents


Claude Code: post-mortem de calidad y dos nuevas versiones

Post-mortem y reinicio de los límites

23 de abril — El equipo de Claude Code publicó un post-mortem sobre tres problemas de calidad señalados durante el mes pasado. Todos están corregidos en v2.1.116+. Los límites de uso se han restablecido para todos los suscriptores.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇪🇸 Durante el mes pasado, algunos de ustedes informaron de que la calidad de Claude Code había empeorado. Investigamos y publicamos un post-mortem sobre los tres problemas que encontramos. Todos están corregidos en v2.1.116+ y hemos restablecido los límites de uso para todos los suscriptores.@ClaudeDevs

v2.1.117 y v2.1.118

VersiónFuncionalidades principales
v2.1.118Modo visual Vim (v/V) con selección y operadores; /usage unificado (fusiona /cost y /stats); temas personalizados en /theme; hooks invocando herramientas MCP vía type: "mcp_tool"; DISABLE_UPDATES estricto; herencia de managed settings de Windows vía WSL
v2.1.117Esfuerzo por defecto pasado a high para Pro/Max en Opus 4.6 y Sonnet 4.6 (era medium); fork de subagentes activable en builds externas; glob/Grep reemplazados por bfs/ugrep integrados para búsquedas más rápidas; fix de sesiones Opus 4.7 (contexto 1M calculado correctamente); fix Bedrock+Opus 4.7 con thinking desactivado

🔗 CHANGELOG Claude Code


Nuevos conectores Claude para la vida cotidiana

23 de abril — Anthropic amplía su repertorio de conectores a aplicaciones de consumo. Desde julio de 2025, más de 200 conectores para herramientas profesionales estaban disponibles; esta actualización añade 15 servicios cotidianos.

AplicaciónCategoría
AllTrailsSenderismo
AudibleAudiolibros
Booking.comViajes
InstacartCompra online
Intuit Credit KarmaFinanzas
Intuit TurboTaxFiscalidad
ResyReservas de restaurante
SpotifyMúsica
StubHubEntradas
TaskrabbitServicios a domicilio
ThumbtackProfesionales locales
TripAdvisorViajes
UberTransporte
Uber EatsEntrega de comida
ViatorActividades turísticas

Claude ahora sugiere automáticamente los conectores pertinentes según el contexto de la conversación. Disponibles en todos los planes (gratis incluido), web, desktop y mobile (mobile en beta). No hay colocación de pago ni respuesta patrocinada; los datos de una app no se usan para entrenar los modelos.

🔗 Conectores de la vida cotidiana


GitHub Copilot — Siete actualizaciones en tres días

GitHub Copilot publicó siete entradas en su changelog entre el 22 y el 23 de abril.

Chat para pull requests (3 nuevas capacidades)

23 de abril — Copilot Chat integra ahora tres capacidades para pull requests, accesibles a través de github.com/copilot o del botón Copilot en los diffs (preview pública):

  • Comprensión de PR (pull request understanding): comentarios, cambios, commits y revisiones integrados como contexto
  • Revisión de PR: revisión estructurada bajo demanda
  • Resumen de PR: resumen conciso de los cambios

🔗 Mejoras de Copilot Chat para PR

Sesiones de agente controlables desde issues y proyectos

23 de abril — El cloud agent ahora puede controlarse directamente desde los issues y las boards de proyectos de GitHub: indicador de sesión en el encabezado del issue, panel lateral de progreso, sesiones activadas por defecto en todas las vistas de proyectos.

🔗 Sesiones de agente desde issues

Depuración estructurada de stack traces en la web

23 de abril — Copilot Chat en github.com guía ahora el análisis de stack traces en seis pasos estructurados: qué falló, por qué, la causa raíz, las pruebas procedentes del código, el nivel de confianza y las comprobaciones siguientes.

🔗 Depuración de stack traces

BYOK VS Code disponible (GA)

22 de abril — Bring Your Own Key (trae tu propia clave API) está en disponibilidad general para los usuarios de Copilot Business y Enterprise en VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure son compatibles, así como los modelos locales mediante Ollama y Foundry Local. La facturación es directa por el proveedor elegido, fuera de las cuotas de Copilot.

🔗 BYOK VS Code GA

C++ Language Server en preview pública para Copilot CLI

22 de abril — Microsoft C++ Language Server (motor IntelliSense de Visual Studio/VS Code) está disponible en preview pública para Copilot CLI. Proporciona datos semánticos precisos (definiciones de símbolos, referencias, jerarquías de llamadas, tipos) en lugar de la búsqueda grep iterativa. Requisitos: autenticación Copilot CLI + compile_commands.json.

🔗 C++ Language Server

Nuevas inscripciones Business self-serve suspendidas

22 de abril — GitHub suspende las nuevas inscripciones self-serve para Copilot Business en los planes GitHub Free y GitHub Team. Los clientes existentes no se ven afectados.

🔗 Pausa Business self-serve

Campo used_copilot_cloud_agent en las métricas API

23 de abril — A raíz del rebranding “coding agent” → “cloud agent”, la API de métricas añade el campo used_copilot_cloud_agent en los informes de usuarios (1 día y 28 días móviles). El campo antiguo used_copilot_coding_agent se mantiene hasta el 1 de agosto de 2026.

🔗 Métricas cloud agent


Gemini CLI v0.39.0 y Deep Think para todos los Ultra

Gemini CLI v0.39.0

23 de abril — Google publica Gemini CLI v0.39.0, versión estable marcada como “Latest”. El punto fuerte es el nuevo comando /memory inbox para revisar y validar las skills extraídas automáticamente por el CLI durante las sesiones de trabajo.

FuncionalidadDescripción
/memory inboxRevisión de las skills extraídas automáticamente
invoke_subagent unificadoHerramienta de subagente refactorizada en una interfaz única
Formateo compactoMejor legibilidad en modo compacto
Plan Mode — confirmacionesValidación requerida antes de activar skills
Inicio aligeradoProceso padre ligero para un arranque más rápido
Migración JSONL streamingRegistro de sesiones chat en JSONL

Atajos de teclado añadidos: Ctrl+Backspace para borrado palabra por palabra (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think abierto a todos los suscriptores Ultra

22 de abril — Google abre el modo Deep Think (razonamiento profundo, extended thinking) a todos los suscriptores de Gemini Ultra. Este modo antes estaba en acceso limitado; ahora está disponible directamente desde el menú de herramientas de la app Gemini (web y móvil).

🔗 Tweet @GeminiApp


Kimi K2.6: enjambre de 300 subagentes y benchmarks open-weights

Agent Swarm — 300 subagentes paralelos

23 de abril — Moonshot AI lanza Kimi K2.6 Agent Swarm: un sistema capaz de desplegar 300 subagentes en paralelo en 4 000 pasos por ejecución, frente a 100 agentes y 1 500 pasos en K2.5.

CapacidadK2.5K2.6
Subagentes paralelos100300
Pasos por ejecución1 5004 000
Tipos de outputsTexto de chatMás de 100 archivos reales, reviews de 100 000 palabras, datasets de 20 000 líneas

Los subagentes combinan habilidades heterogéneas: búsqueda web, análisis de datos, codificación, redacción de formato largo y generación visual. Disponible en kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmarks: número 1 open-weights

23 de abril — Kimi K2.6 alcanza el primer puesto de los modelos open-weights en dos benchmarks: - Design Arena : misma banda de rendimiento que Claude Opus 4.7

  • MathArena open (modo Think) : por delante de GLM 5.1

🔗 Design Arena


SpaceXAI × Cursor y Grok Imagine

Asociación SpaceXAI × Cursor

22 de abril — SpaceXAI (entidad surgida del acercamiento xAI/SpaceX) y Cursor anuncian una asociación para crear “la IA de codificación y de trabajo del conocimiento más potente del mundo”. SpaceX aporta el superordenador Colossus (equivalente a un millón de H100); Cursor le concede el derecho de adquirir la empresa más adelante en 2026 por $60 mil millones, o de pagar $10 mil millones por la colaboración únicamente.

🔗 Tweet @SpaceX

Grok Imagine — Plantillas personalizadas compartibles

22 de abril — Los suscriptores SuperGrok y Premium+ ya pueden crear plantillas personalizadas en Grok Imagine y compartirlas públicamente.

🔗 Tweet @imagine


NVIDIA × Google Cloud Next

22 de abril — En Google Cloud Next (Las Vegas), NVIDIA y Google Cloud anuncian varios avances importantes en torno a la infraestructura de IA agéntica.

AnuncioDetalle
Instancias A5X (Vera Rubin NVL72)Hasta 960 000 GPUs Rubin en clúster multisede, 10× más barato por token, 10× más rendimiento por megavatio
Gemini en Google Distributed CloudPreview con GPUs Blackwell y Blackwell Ultra — soberanía de datos
Confidential VMs BlackwellPrimera oferta de computación confidencial (confidential computing) Blackwell en la nube pública
Nemotron 3 SuperDisponible en la Gemini Enterprise Agent Platform
NeMo RL APIAprendizaje por refuerzo (Reinforcement Learning) gestionado a gran escala

🔗 Blog NVIDIA × Google Cloud


Kling AI Video 3.0 — Modo 4K nativo

23 de abril — Kling AI lanza el modo 4K nativo en su serie Video 3.0. La generación 4K se realiza en un solo clic, sin paso adicional de upscaling. La coherencia visual (personajes, textos, estilos, iluminación) se garantiza en resolución nativa para producción de alta gama. También disponible a través de fal.ai para empresas.

Kling AI organiza simultáneamente un 4K Short Film Creative Contest, concurso mundial que invita a los creadores a presentar cortometrajes realizados con el nuevo modo.

🔗 Tweet @Kling_ai


ChatGPT para clínicos y OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 de abril — OpenAI lanza ChatGPT for Clinicians, una versión gratuita para profesionales sanitarios verificados en Estados Unidos (médicos, enfermeros practicantes, asistentes médicos, farmacéuticos). El servicio incluye acceso a modelos frontier para preguntas clínicas complejas, skills para flujos de trabajo repetitivos (cartas de derivación, autorizaciones previas), investigación clínica citada en tiempo real y generación automática de créditos de formación continua (CME). El tratamiento HIPAA está disponible como opción mediante acuerdo.

OpenAI publica además HealthBench Professional, un benchmark abierto que evalúa la IA en tareas clínicas reales (más de 700 000 respuestas evaluadas por médicos). GPT-5.4 en ChatGPT for Clinicians supera a los médicos humanos en este benchmark en condiciones sin límite de tiempo con acceso web.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 de abril — OpenAI publica Privacy Filter, un modelo open-weight (Apache 2.0) para detectar y ocultar información personalmente identificable (Personally Identifiable Information, PII) en texto. El modelo se ejecuta en local (no se envían datos a un servidor), admite 128K tokens de contexto y alcanza una puntuación F1 de 97.43% en el benchmark PII-Masking-300k.

CaracterísticaValor
ArquitecturaClasificador de tokens bidireccional (decodificación Viterbi restringida)
Tamaño1.5B parámetros totales, 50M activos
Contexto128 000 tokens
LicenciaApache 2.0 (Hugging Face + GitHub)
F197.43% en PII-Masking-300k corregido

Categorías de PII cubiertas: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (contraseñas y claves API).

🔗 OpenAI Privacy Filter


Perplexity y Cohere

Perplexity integra Kimi K2.6

23 de abril — Kimi K2.6 de Moonshot AI ya está disponible para todos los suscriptores Pro y Max de Perplexity.

🔗 Tweet @perplexity_ai

Cohere — W4A8 listo para producción en vLLM

22 de abril — Cohere anuncia la integración de su inferencia W4A8 (cuantificación de 4 bits para los pesos, 8 bits para las activaciones) en vLLM. Resultados en GPU Hopper frente a W4A16: +58% en el tiempo hasta el primer token (Time To First Token) y +45% en el tiempo por token de salida (Time Per Output Token). La integración apunta prioritariamente a los modelos MoE Command A a gran escala en producción.

🔗 Blog Cohere W4A8


Breves

Suno número 1 en la App Store de música

21 de abril — Suno, la plataforma de generación musical con IA, alcanza el primer puesto de la App Store en la categoría música. El CEO Mikey Shulman anuncia: « The future of music is one where everyone enjoys creating. »

🔗 Tweet @suno

Anthropic Economic Index Survey

22 de abril — Anthropic lanza la Anthropic Economic Index Survey, una encuesta mensual realizada a través de Anthropic Interviewer sobre una muestra aleatoria de usuarios de Claude. El objetivo es recopilar datos cualitativos sobre el impacto económico de la IA: tareas delegadas, ganancias de productividad, evolución de los roles. Los resultados alimentarán los futuros informes Anthropic Economic Index.

🔗 Anuncio de la encuesta

Anthropic — Agentes MCP en producción: las cifras

22 de abril — Un artículo técnico de Anthropic documenta los beneficios de MCP para los agentes de producción: los SDK MCP superan los 300 millones de descargas al mes, la búsqueda de herramientas (tool search) reduce los tokens de definición de herramientas en un 85%, y las llamadas programáticas a herramientas (programmatic tool calling) reducen el uso de tokens en un 37% en flujos de trabajo complejos de varios pasos.

🔗 Blog MCP production agents

OpenAI — WebSockets en la API Responses: ganancia del 40% en latencia

22 de abril — Artículo retrospectivo de OpenAI que explica cómo el modo WebSocket en la API Responses reduce la latencia de los bucles de agentes en un 40%. La conexión persistente mantiene en memoria caché el estado de las respuestas anteriores, evitando reprocesar todo el historial en cada llamada. Ya en producción: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).

🔗 Artículo WebSockets

Perplexity Research — Entrenamiento de modelos de búsqueda aumentada

22 de abril — Perplexity publica una investigación sobre su pipeline SFT + RL (Supervised Fine-Tuning + Reinforcement Learning) para mejorar la calidad de las respuestas de búsqueda. Resultado clave: los modelos Qwen postentrenados alcanzan la factualidad de los modelos GPT a menor coste.

🔗 Research Perplexity


Qué significa esto

El 23 de abril de 2026 dibuja dos tendencias convergentes. Por un lado, GPT-5.5 confirma que OpenAI ha recuperado el liderazgo en los benchmarks agénticos (Terminal-Bench, ARC-AGI-2, OSWorld) tras varios meses en los que Claude Opus 4.7 dominaba. La brecha sigue siendo estrecha en SWE-Bench Pro, donde Anthropic conserva la ventaja, señal de que ambos laboratorios coinciden en los mismos casos de uso prioritarios.

Por otro lado, la jornada marca la entrada en la era de los agentes persistentes con memoria: OpenAI Workspace Agents, Anthropic Managed Agents Memory y Kimi K2.6 Agent Swarm llegan simultáneamente con enfoques distintos (integración Slack, filesystem-based, enjambre de subagentes), pero con el mismo objetivo: que el agente recuerde, aprenda y actúe sin supervisión constante. Las cifras de Rakuten (-97% de errores, -27% de coste) ofrecen una primera medida industrial del impacto.

GitHub Copilot continúa su estrategia de integración profunda en GitHub.com (PR chat, agent sessions desde issues, stack traces estructuradas) al tiempo que se abre al exterior mediante BYOK. El BYOK VS Code GA señala que Copilot se posiciona tanto como una interfaz como un modelo.


Fuentes

Este documento ha sido traducido de la versión fr al idioma es utilizando el modelo gpt-5.4-mini. Para más información sobre el proceso de traducción, consulte https://gitlab.com/jls42/ai-powered-markdown-translator