Noticias IA 23 Ene 2026: Claude en Excel, Tasks Claude Code, Codex Agent Loop

Semana ocupada para los agentes de IA

Del 21 al 23 de enero de 2026, varios anuncios importantes sobre coding agents e infraestructura. Anthropic lanza Claude en Excel y publica tres artículos sobre sistemas multi-agente, OpenAI detalla la arquitectura interna de Codex y su infraestructura PostgreSQL, Qwen hace open-source su modelo text-to-speech, y Runway añade Image to Video a Gen-4.5.

Anthropic: Claude en Excel y Claude Code

Claude en Excel

23 de enero — Claude ahora está disponible en Microsoft Excel en beta. La integración permite analizar libros de Excel completos con sus fórmulas anidadas y dependencias entre pestañas.

Funcionalidades:

Comprensión del libro entero (fórmulas, dependencias multi-pestaña)
Explicaciones con citas a nivel de celda
Actualización de hipótesis preservando las fórmulas

Disponible para suscriptores Claude Pro, Max, Team y Enterprise.

🔗 Claude en Excel

Claude Code v2.1.19: sistema Tasks

23 de enero — La versión 2.1.19 introduce Tasks, un nuevo sistema de gestión de tareas para proyectos complejos multi-sesión.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇪🇸 Estamos convirtiendo Todos en Tasks en Claude Code. Las Tasks son una nueva primitiva que ayuda a Claude Code a rastrear y completar proyectos más complicados y colaborar en ellos a través de múltiples sesiones o subagentes. — Thariq (@trq212), equipo Claude Code Anthropic

Funcionalidades Tasks:

Aspecto	Detalle
Almacenamiento	`~/.claude/tasks` (archivos, permite construir herramientas encima)
Colaboración	`CLAUDE_CODE_TASK_LIST_ID=nombre claude` para compartir entre sesiones
Dependencias	Tasks con dependencias y bloqueos almacenados en los metadatos
Difusión	Actualización de una Task difundida a todas las sesiones en la misma Task List
Compatibilidad	Funciona con `claude -p` y AgentSDK

Para qué sirve: En un proyecto complejo (refactorización multi-archivo, migración, funcionalidad larga), Claude puede dividir el trabajo en tasks, rastrear lo que está hecho y lo que queda. Las tasks persisten en disco — sobreviven a la compactación del contexto, al cierre de sesión y al reinicio. Múltiples sesiones o subagentes pueden colaborar en la misma lista de tareas en tiempo real.

En la práctica: Claude crea tasks (TaskCreate), las lista (TaskList), y actualiza su estado (TaskUpdate: pending → in_progress → completed). Ejemplo en una refactorización de autenticación:

#1 [completed] Migrar el almacenamiento de sesiones a Redis
#2 [in_progress] Implementar rotación de refresh token
#3 [pending] Añadir pruebas de integración OAuth
#4 [pending] Actualizar documentación de API

Las tasks se almacenan en ~/.claude/tasks/ y pueden compartirse entre sesiones vía CLAUDE_CODE_TASK_LIST_ID.

Otras novedades v2.1.19:

Abreviatura $0, $1 para argumentos en comandos personalizados
VSCode session forking y rebobinado para todos
Skills sin permisos se ejecutan sin aprobación
CLAUDE_CODE_ENABLE_TASKS=false para desactivar temporalmente

🔗 CHANGELOG Claude Code | Hilo @trq212

Claude Code v2.1.18: atajos de teclado personalizables

Versión anterior que añade la posibilidad de configurar atajos de teclado por contexto y crear secuencias chord.

Comando: /keybindings

⚠️ Nota: Esta funcionalidad está actualmente en preview y no está disponible para todos los usuarios.

🔗 Documentación keybindings

Petri 2.0: auditorías de alineación automatizadas

22 de enero — Anthropic publica Petri 2.0, una actualización de su herramienta de auditoría de comportamiento automatizada para modelos de lenguaje.

Para qué sirve: Petri prueba si un LLM podría comportarse de manera problemática — manipulación, engaño, elusión de reglas. La herramienta genera escenarios realistas y observa las respuestas del modelo para detectar comportamientos no deseados antes de que ocurran en producción.

Mejora	Descripción
70 nuevos escenarios	Biblioteca de semillas extendida para cubrir más casos límite
Mitigaciones eval-awareness	El modelo no debe saber que está siendo probado — de lo contrario adapta su comportamiento. Petri 2.0 mejora el realismo de los escenarios para evitar esta detección.
Comparaciones frontier	Resultados de evaluación para modelos recientes (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub

Blog: cuándo usar (o no) sistemas multi-agente

23 de enero — Anthropic publica una guía pragmática sobre arquitecturas multi-agente. El mensaje principal: no uses multi-agente por defecto.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇪🇸 Hemos visto equipos invertir meses construyendo arquitecturas multi-agente elaboradas solo para descubrir que un prompting mejorado en un solo agente lograba resultados equivalentes.

El artículo identifica 3 casos donde multi-agente realmente aporta valor:

Caso	Problema	Solución multi-agente
Contaminación de contexto	Un agente genera datos voluminosos de los cuales solo un resumen es útil después	Un sub-agente recupera 2000 tokens de historial, devuelve solo “pedido entregado” al agente principal
Paralelización	Múltiples búsquedas independientes por hacer	Lanzar 5 agentes en paralelo en 5 fuentes diferentes en lugar de procesarlos secuencialmente
Especialización	Demasiadas herramientas (20+) en un solo agente degradan su capacidad de elegir la correcta	Separar en agentes especializados: uno para CRM, uno para marketing, uno para mensajería

La trampa a evitar: Dividir por tipo de trabajo (un agente planifica, otro implementa, otro prueba). Cada traspaso pierde contexto y degrada la calidad. Es mejor que un solo agente maneje una funcionalidad de principio a fin.

Costo real: 3-10x más tokens que un agente único para la misma tarea.

Otros artículos de la serie:

Building agents with Skills (22 ene)

En lugar de construir agentes especializados por dominio, Anthropic propone construir skills: colecciones de archivos (flujos de trabajo, scripts, mejores prácticas) que un agente generalista carga bajo demanda.

Divulgación progresiva en 3 niveles:

Nivel	Contenido	Tamaño
1	Metadatos (nombre, descripción)	~50 tokens
2	Archivo SKILL.md completo	~500 tokens
3	Documentación de referencia	2000+ tokens

Cada nivel se carga solo si es necesario. Resultado: un agente puede tener cientos de skills sin saturar su contexto.

🔗 Building agents with Skills

Eight trends 2026 (21 ene)

Anthropic identifica 8 tendencias para el desarrollo de software en 2026.

Mensaje clave: Los ingenieros pasan de escribir código a coordinar agentes que escriben código.

Matiz importante: La IA se utiliza en ~60% del trabajo, pero solo el 0-20% puede delegarse completamente — la supervisión humana sigue siendo esencial.

Empresa	Resultado
Rakuten	Claude Code sobre base de código vLLM (12.5M líneas), 7h de trabajo autónomo
TELUS	30% más rápido, 500k horas ahorradas
Zapier	89% adopción IA, 800+ agentes internos

🔗 Eight trends 2026

OpenAI: arquitectura Codex e infraestructura

Unrolling the Codex agent loop

23 de enero — OpenAI abre los bastidores de Codex CLI. Primer artículo de una serie sobre el funcionamiento interno de su agente de software.

Lo que aprendemos:

El bucle del agente es simple en teoría: el usuario envía una solicitud → el modelo genera una respuesta o solicita una herramienta → el agente ejecuta la herramienta → el modelo reanuda con el resultado → hasta una respuesta final. En la práctica, las sutilezas están en la gestión del contexto.

Prompt caching — la clave del rendimiento:

Cada turno de conversación añade contenido al prompt. Sin optimización, es cuadrático en tokens enviados. El prompt caching permite reutilizar cálculos de turnos anteriores. Condición: el nuevo prompt debe ser un prefijo exacto del antiguo. OpenAI detalla las trampas que rompen el caché (cambiar el orden de herramientas MCP, modificar la configuración a mitad de conversación).

Compactación automática:

Cuando el contexto excede un umbral, Codex llama a /responses/compact que devuelve una versión comprimida de la conversación. El modelo mantiene una comprensión latente vía un encrypted_content opaco.

Zero Data Retention (ZDR):

Para clientes que no quieren que sus datos se almacenen, el encrypted_content permite preservar el razonamiento del modelo entre turnos sin almacenar datos del lado del servidor.

Primer artículo de una serie — los próximos cubrirán la arquitectura CLI, la implementación de herramientas y el sandboxing.

🔗 Unrolling the Codex agent loop | Codex GitHub

Scaling PostgreSQL: 800 millones de usuarios de ChatGPT

22 de enero — OpenAI detalla cómo PostgreSQL alimenta a ChatGPT y la API para 800 millones de usuarios con millones de solicitudes por segundo.

Métrica	Valor
Usuarios	800 millones
Rendimiento	Millones de QPS
Réplicas	~50 read replicas multi-región
Latencia p99	Doble dígito ms lado cliente
Disponibilidad	Five-nines (99.999%)

Arquitectura:

Single primary Azure PostgreSQL flexible server
PgBouncer para connection pooling (latencia conexión: 50ms → 5ms)
Cargas de trabajo write-heavy migradas a Azure Cosmos DB
Cache locking para proteger contra tormentas de cache miss
Cascading replication en pruebas para superar 100 réplicas

Único SEV-0 PostgreSQL en los últimos 12 meses: durante el lanzamiento viral de ChatGPT ImageGen (100M nuevos usuarios en una semana, tráfico de escritura x10).

🔗 Scaling PostgreSQL

Qwen: Qwen3-TTS open-source

22-23 de enero — Alibaba publica Qwen3-TTS en código abierto bajo licencia Apache 2.0.

Característica	Detalle
Licencia	Apache 2.0
Voice cloning	Sí
Soporte MLX-Audio	Disponible

Instalación:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS en X

Runway: Gen-4.5 Image to Video

21 de enero — Runway añade la funcionalidad Image to Video a Gen-4.5.

Funcionalidad	Descripción
Image to Video	Transformación de una imagen en video cinematográfico
Camera control	Control preciso de la cámara
Coherent narratives	Narrativas coherentes a lo largo del tiempo
Character consistency	Personajes que permanecen consistentes

Disponible para todos los planes de pago de Runway. Promo temporal: 15% de descuento.

🔗 Runway en X

Qué significa esto

Esta semana marca una maduración de las herramientas de coding agents. Los dos gigantes (Anthropic y OpenAI) publican documentación técnica detallada sobre la arquitectura de sus agentes — señal de que el mercado pasa de la fase “demo” a la fase “producción”.

Del lado de la infraestructura, el artículo de PostgreSQL de OpenAI muestra que una arquitectura single-primary puede sostenerse a escala de cientos de millones de usuarios con las optimizaciones adecuadas.

La llegada de Claude a Excel abre un nuevo frente: la IA integrada directamente en las herramientas de productividad cotidianas.