Buscar

GLM-5 de código abierto, Informe de riesgo de sabotaje ASL-4, OpenAI lanza primitivas agénticas

GLM-5 de código abierto, Informe de riesgo de sabotaje ASL-4, OpenAI lanza primitivas agénticas

Z.ai lanza GLM-5, su nuevo modelo insignia de código abierto con 744 mil millones de parámetros bajo licencia MIT, que se sitúa en el primer puesto de los modelos de código abierto en codificación y tareas agénticas. Anthropic publica un informe de riesgos de sabotaje ASL-4 para Opus 4.6, OpenAI enriquece su API con primitivas agénticas, y Kimi revela un sistema de 100 subagentes paralelos. Por el lado del ecosistema, Runway levanta 315 millones de dólares y ElevenLabs lanza un modo expresivo para sus agentes de voz.


Z.ai lanza GLM-5: 744B parámetros, código abierto bajo licencia MIT

11 de febrero — Z.ai (Zhipu AI) lanza GLM-5, su nuevo modelo de frontera diseñado para la ingeniería de sistemas complejos y tareas agénticas de larga duración. En comparación con GLM-4.5, el modelo pasa de 355B parámetros (32B activos) a 744B parámetros (40B activos), con datos de preentrenamiento que aumentan de 23T a 28,5T tokens.

GLM-5 integra DeepSeek Sparse Attention (DSA) para reducir los costes de despliegue preservando la capacidad de contexto largo, e introduce “slime”, una infraestructura de aprendizaje por refuerzo asíncrono que mejora el rendimiento post-entrenamiento.

BenchmarkGLM-5GLM-4.7Kimi K2.5Claude Opus 4.5Gemini 3 Pro
SWE-bench Verified77,8%73,8%76,8%80,9%76,2%
HLE (text)30,524,831,528,437,2
HLE w/ Tools50,442,851,843,445,8
Terminal-Bench 2.056,241,050,859,354,2
Vending Bench 2$4 432$2 377$1 198$4 967$5 478

GLM-5 se posiciona como el mejor modelo de código abierto en razonamiento, codificación y tareas agénticas, cerrando la brecha con los modelos de frontera propietarios. En Vending Bench 2, un benchmark que simula la gestión de una máquina expendedora durante un año, GLM-5 termina con un saldo de 4432,acercaˊndoseaClaudeOpus4.5(4 432, acercándose a Claude Opus 4.5 (4 967).

Más allá del código, GLM-5 puede generar directamente archivos .docx, .pdf y .xlsx — propuestas, informes financieros, hojas de cálculo — entregados llave en mano. Z.ai despliega un modo Agente con habilidades integradas para la creación de documentos, soportando la colaboración multiturno.

Los pesos del modelo se publican en Hugging Face bajo licencia MIT. GLM-5 es compatible con Claude Code y OpenClaw, y está disponible en OpenRouter. El despliegue es progresivo, comenzando por los suscriptores de Coding Plan Max.

🔗 Blog técnico GLM-5 🔗 Anuncio en X


Anthropic publica el primer informe de riesgos de sabotaje ASL-4

11 de febrero — Anthropic publica un informe de riesgos de sabotaje para Claude Opus 4.6, en anticipación del umbral de seguridad ASL-4 (AI Safety Level 4) para la I+D autónoma en IA.

Al lanzar Claude Opus 4.5, Anthropic se comprometió a redactar informes de riesgos de sabotaje para cada nuevo modelo de frontera. En lugar de navegar por umbrales vagos, la empresa eligió respetar proactivamente el estándar de seguridad ASL-4 más elevado.

ElementoDetalle
Modelo evaluadoClaude Opus 4.6
Umbral de seguridadASL-4 (AI Safety Level 4)
DominioI+D autónoma en IA
FormatoInforme PDF público
PrecedenteCompromiso asumido durante el lanzamiento de Opus 4.5

Es un paso significativo en la transparencia de la seguridad de la IA: Anthropic es uno de los primeros laboratorios en publicar tal informe de sabotaje para un modelo en producción.

When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.

🇪🇸 Cuando lanzamos Claude Opus 4.5, sabíamos que los futuros modelos estarían cerca de nuestro umbral AI Safety Level 4 para la I+D autónoma en IA. Por lo tanto, nos comprometimos a escribir informes de riesgo de sabotaje para futuros modelos de frontera. Hoy cumplimos ese compromiso para Claude Opus 4.6.@AnthropicAI en X

🔗 Hilo de Anthropic


OpenAI: nuevas primitivas agénticas en la API Responses

10 de febrero — OpenAI introduce tres nuevas primitivas en la API Responses para el trabajo agéntico de larga duración.

Compactación del lado del servidor

Permite sesiones de agentes de varias horas sin alcanzar los límites de contexto. La compactación se gestiona del lado del servidor. Triple Whale, probador en acceso anticipado, informa haber realizado 150 llamadas de herramientas y 5 millones de tokens en una sola sesión sin pérdida de precisión.

Contenedores con redes

Los contenedores alojados por OpenAI ahora pueden acceder a internet de manera controlada. Los administradores definen una lista blanca de dominios en el panel, las solicitudes deben definir explícitamente una network_policy, y los secretos de dominio pueden inyectarse sin exponer los valores brutos al modelo.

Habilidades en la API

Soporte nativo del estándar Agent Skills con una primera habilidad preconstruida (hojas de cálculo). Las habilidades son paquetes reutilizables y versionados que se pueden montar en entornos shell alojados, y los modelos deciden en tiempo de ejecución si deben invocarlas.

PrimitivaDescripciónEstado
Compactación del lado del servidorSesiones de varias horas sin límites de contextoDisponible
Contenedores con redesAcceso a internet controlado para contenedores alojadosDisponible
Habilidades en la APIPaquetes reutilizables (primera habilidad: hojas de cálculo)Disponible

🔗 Hilo de OpenAIDevs


Kimi Agent Swarm: orquestación de 100 subagentes

10 de febrero — Kimi (Moonshot AI) revela Agent Swarm, una capacidad de coordinación multiagente que permite paralelizar tareas complejas con hasta 100 subagentes especializados.

El sistema puede ejecutar más de 1 500 llamadas de herramientas y alcanza una velocidad 4,5 veces superior a las ejecuciones secuenciales. Los casos de uso cubren la generación simultánea de múltiples archivos (Word, Excel, PDF), el análisis paralelo de contenidos y la generación creativa en múltiples estilos en paralelo. Agent Swarm resuelve un límite estructural de los LLMs: la degradación del razonamiento durante largas tareas que llenan el contexto.

🔗 Anuncio de Kimi


OpenAI Harness Engineering: cero líneas de código manual con Codex

11 de febrero — OpenAI publica una experiencia sobre la construcción de un producto de software interno con cero líneas de código escritas manualmente. Durante 5 meses, un equipo de 3 a 7 ingenieros utilizó exclusivamente Codex para generar todo el código.

MétricaValor
Líneas de código generadas~1 millón
Pull requests~1 500
PRs por ingeniero por día3,5 de media
Usuarios internosVarios cientos
Tiempo estimado1/10 del tiempo necesario a mano
Sesiones CodexHasta 6+ horas

El enfoque “Harness Engineering” redefine el papel del ingeniero: diseñar entornos, especificar la intención y construir bucles de retroalimentación para los agentes, en lugar de escribir código. La documentación estructurada en el repositorio sirve de guía (AGENTS.md como índice), la arquitectura es rígida con linters y pruebas estructurales generados por Codex, y tareas recurrentes escanean desviaciones y abren PRs de refactorización automáticamente.

🔗 Blog Harness Engineering


Runway levanta 315 millones de dólares en Serie E

10 de febrero — Runway anuncia una recaudación de fondos de 315 millones de dólares en Serie E, elevando su valoración a 5,3 mil millones de dólares. La ronda está liderada por General Atlantic, con la participación de NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein y otros.

DetalleValor
Importe315 M$
SerieE
Valoración5,3 Mds(vs3,3Mds (vs 3,3 Mds en Serie D)
Inversor principalGeneral Atlantic
Total recaudado desde 2018860 M$

Los fondos servirán para preentrenar la próxima generación de “world models” — modelos capaces de simular el mundo físico — y desplegarlos en nuevos productos e industrias. Este anuncio se produce tras el lanzamiento de Gen-4.5, el último modelo de generación de vídeo de Runway.

🔗 Anuncio oficial 🔗 Publicación de Runway en X


Cowork disponible en Windows

10 de febrero — Claude Cowork, la aplicación de escritorio para tareas de múltiples pasos, ya está disponible en Windows en vista previa de investigación con paridad completa de funciones en comparación con macOS.

FuncionalidadDescripción
Acceso a archivosLectura y escritura de archivos locales
PluginsSoporte de plugins Cowork
Conectores MCPIntegración con servidores MCP
Instrucciones por carpetaEstilo Claude.md — instrucciones en lenguaje natural por proyecto

Cowork en Windows está disponible para todos los planes Claude de pago a través de claude.com/cowork.

🔗 Anuncio Cowork Windows


Funciones gratuitas en el plan gratuito de Claude

11 de febrero — Anthropic amplía las funcionalidades accesibles en el plan gratuito de Claude. La creación de archivos, los conectores, las habilidades y la compactación ahora están disponibles sin suscripción. La compactación permite a Claude resumir automáticamente el contexto anterior para que las largas conversaciones puedan continuar sin reiniciar.

🔗 Anuncio plan gratuito


Claude Code Plan Mode en Slack

11 de febrero — La integración de Claude Code en Slack recibe el Plan Mode. Cuando se le da a Claude una tarea de código en Slack, ahora puede elaborar un plan antes de ejecutar, permitiendo validar el enfoque antes de la implementación.

FuncionalidadDescripción
Plan ModeElaboración de un plan antes de la ejecución
Detección automáticaEnrutamiento inteligente entre código y chat
Creación de PRBotón “Create PR” directamente desde Slack
PrerrequisitosPlan Pro, Max, Team o Enterprise + GitHub conectado

🔗 Hilo de Boris Cherny


ElevenLabs lanza el modo Expresivo para sus agentes de voz

10 de febrero — ElevenLabs revela Expressive Mode para ElevenAgents, una evolución que hace que sus agentes de voz de IA sean capaces de adaptar su tono, emoción y énfasis en tiempo real.

El modo se basa en Eleven v3 Conversational, un modelo de síntesis de voz optimizado para el diálogo en tiempo real, junto con un nuevo sistema de turnos que reduce las interrupciones. El precio se mantiene en 0,08 $ por minuto. Paralelamente, ElevenLabs reestructura su plataforma en tres familias de productos: ElevenAgents (agentes de voz), ElevenCreative (herramientas creativas) y ElevenAPI (plataforma para desarrolladores).

🔗 Blog Expressive Mode


Kimi K2.5 integrado en Qoder

9 de febrero — Qoder (plataforma de IA para desarrolladores) despliega Kimi K2.5 como modelo insignia de su marketplace, con una puntuación SWE-bench Verified del 76,8% y una tarifa ventajosa (0,3x crédito en el nivel Efficient). El flujo de trabajo recomendado: usar los modelos pesados para el diseño y la arquitectura, luego K2.5 para la implementación.

🔗 Anuncio de Qoder


Qué significa esto

El código abierto continúa progresando rápidamente hacia los modelos de frontera. GLM-5 de Z.ai reduce la brecha con Claude Opus 4.5 y GPT-5.2 en los benchmarks de codificación y tareas agénticas, estando disponible bajo licencia MIT. La publicación del informe de sabotaje ASL-4 por Anthropic establece un precedente en materia de transparencia de seguridad que otros laboratorios probablemente se verán obligados a seguir.

Del lado de los desarrolladores, las primitivas agénticas de OpenAI (compactación del servidor, contenedores de red, habilidades API) y el enfoque “Harness Engineering” dibujan un futuro donde los agentes autónomos gestionan sesiones de varias horas. Kimi Agent Swarm lleva esta lógica aún más lejos con la orquestación de cientos de subagentes en paralelo.


Fuentes