Semana ocupada para los agentes de IA
Del 21 al 23 de enero de 2026, varios anuncios importantes sobre coding agents e infraestructura. Anthropic lanza Claude en Excel y publica tres artículos sobre sistemas multi-agente, OpenAI detalla la arquitectura interna de Codex y su infraestructura PostgreSQL, Qwen hace open-source su modelo text-to-speech, y Runway añade Image to Video a Gen-4.5.
Anthropic: Claude en Excel y Claude Code
Claude en Excel
23 de enero — Claude ahora está disponible en Microsoft Excel en beta. La integración permite analizar libros de Excel completos con sus fórmulas anidadas y dependencias entre pestañas.
Funcionalidades:
- Comprensión del libro entero (fórmulas, dependencias multi-pestaña)
- Explicaciones con citas a nivel de celda
- Actualización de hipótesis preservando las fórmulas
Disponible para suscriptores Claude Pro, Max, Team y Enterprise.
Claude Code v2.1.19: sistema Tasks
23 de enero — La versión 2.1.19 introduce Tasks, un nuevo sistema de gestión de tareas para proyectos complejos multi-sesión.
We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.
🇪🇸 Estamos convirtiendo Todos en Tasks en Claude Code. Las Tasks son una nueva primitiva que ayuda a Claude Code a rastrear y completar proyectos más complicados y colaborar en ellos a través de múltiples sesiones o subagentes. — Thariq (@trq212), equipo Claude Code Anthropic
Funcionalidades Tasks:
| Aspecto | Detalle |
|---|---|
| Almacenamiento | ~/.claude/tasks (archivos, permite construir herramientas encima) |
| Colaboración | CLAUDE_CODE_TASK_LIST_ID=nombre claude para compartir entre sesiones |
| Dependencias | Tasks con dependencias y bloqueos almacenados en los metadatos |
| Difusión | Actualización de una Task difundida a todas las sesiones en la misma Task List |
| Compatibilidad | Funciona con claude -p y AgentSDK |
Para qué sirve: En un proyecto complejo (refactorización multi-archivo, migración, funcionalidad larga), Claude puede dividir el trabajo en tasks, rastrear lo que está hecho y lo que queda. Las tasks persisten en disco — sobreviven a la compactación del contexto, al cierre de sesión y al reinicio. Múltiples sesiones o subagentes pueden colaborar en la misma lista de tareas en tiempo real.
En la práctica: Claude crea tasks (TaskCreate), las lista (TaskList), y actualiza su estado (TaskUpdate: pending → in_progress → completed). Ejemplo en una refactorización de autenticación:
#1 [completed] Migrar el almacenamiento de sesiones a Redis
#2 [in_progress] Implementar rotación de refresh token
#3 [pending] Añadir pruebas de integración OAuth
#4 [pending] Actualizar documentación de API
Las tasks se almacenan en ~/.claude/tasks/ y pueden compartirse entre sesiones vía CLAUDE_CODE_TASK_LIST_ID.
Otras novedades v2.1.19:
- Abreviatura
$0,$1para argumentos en comandos personalizados - VSCode session forking y rebobinado para todos
- Skills sin permisos se ejecutan sin aprobación
CLAUDE_CODE_ENABLE_TASKS=falsepara desactivar temporalmente
🔗 CHANGELOG Claude Code | Hilo @trq212
Claude Code v2.1.18: atajos de teclado personalizables
Versión anterior que añade la posibilidad de configurar atajos de teclado por contexto y crear secuencias chord.
Comando: /keybindings
⚠️ Nota: Esta funcionalidad está actualmente en preview y no está disponible para todos los usuarios.
Petri 2.0: auditorías de alineación automatizadas
22 de enero — Anthropic publica Petri 2.0, una actualización de su herramienta de auditoría de comportamiento automatizada para modelos de lenguaje.
Para qué sirve: Petri prueba si un LLM podría comportarse de manera problemática — manipulación, engaño, elusión de reglas. La herramienta genera escenarios realistas y observa las respuestas del modelo para detectar comportamientos no deseados antes de que ocurran en producción.
| Mejora | Descripción |
|---|---|
| 70 nuevos escenarios | Biblioteca de semillas extendida para cubrir más casos límite |
| Mitigaciones eval-awareness | El modelo no debe saber que está siendo probado — de lo contrario adapta su comportamiento. Petri 2.0 mejora el realismo de los escenarios para evitar esta detección. |
| Comparaciones frontier | Resultados de evaluación para modelos recientes (Claude, GPT, Gemini) |
Blog: cuándo usar (o no) sistemas multi-agente
23 de enero — Anthropic publica una guía pragmática sobre arquitecturas multi-agente. El mensaje principal: no uses multi-agente por defecto.
We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.
🇪🇸 Hemos visto equipos invertir meses construyendo arquitecturas multi-agente elaboradas solo para descubrir que un prompting mejorado en un solo agente lograba resultados equivalentes.
El artículo identifica 3 casos donde multi-agente realmente aporta valor:
| Caso | Problema | Solución multi-agente |
|---|---|---|
| Contaminación de contexto | Un agente genera datos voluminosos de los cuales solo un resumen es útil después | Un sub-agente recupera 2000 tokens de historial, devuelve solo “pedido entregado” al agente principal |
| Paralelización | Múltiples búsquedas independientes por hacer | Lanzar 5 agentes en paralelo en 5 fuentes diferentes en lugar de procesarlos secuencialmente |
| Especialización | Demasiadas herramientas (20+) en un solo agente degradan su capacidad de elegir la correcta | Separar en agentes especializados: uno para CRM, uno para marketing, uno para mensajería |
La trampa a evitar: Dividir por tipo de trabajo (un agente planifica, otro implementa, otro prueba). Cada traspaso pierde contexto y degrada la calidad. Es mejor que un solo agente maneje una funcionalidad de principio a fin.
Costo real: 3-10x más tokens que un agente único para la misma tarea.
Otros artículos de la serie:
Building agents with Skills (22 ene)
En lugar de construir agentes especializados por dominio, Anthropic propone construir skills: colecciones de archivos (flujos de trabajo, scripts, mejores prácticas) que un agente generalista carga bajo demanda.
Divulgación progresiva en 3 niveles:
| Nivel | Contenido | Tamaño |
|---|---|---|
| 1 | Metadatos (nombre, descripción) | ~50 tokens |
| 2 | Archivo SKILL.md completo | ~500 tokens |
| 3 | Documentación de referencia | 2000+ tokens |
Cada nivel se carga solo si es necesario. Resultado: un agente puede tener cientos de skills sin saturar su contexto.
Eight trends 2026 (21 ene)
Anthropic identifica 8 tendencias para el desarrollo de software en 2026.
Mensaje clave: Los ingenieros pasan de escribir código a coordinar agentes que escriben código.
Matiz importante: La IA se utiliza en ~60% del trabajo, pero solo el 0-20% puede delegarse completamente — la supervisión humana sigue siendo esencial.
| Empresa | Resultado |
|---|---|
| Rakuten | Claude Code sobre base de código vLLM (12.5M líneas), 7h de trabajo autónomo |
| TELUS | 30% más rápido, 500k horas ahorradas |
| Zapier | 89% adopción IA, 800+ agentes internos |
OpenAI: arquitectura Codex e infraestructura
Unrolling the Codex agent loop
23 de enero — OpenAI abre los bastidores de Codex CLI. Primer artículo de una serie sobre el funcionamiento interno de su agente de software.
Lo que aprendemos:
El bucle del agente es simple en teoría: el usuario envía una solicitud → el modelo genera una respuesta o solicita una herramienta → el agente ejecuta la herramienta → el modelo reanuda con el resultado → hasta una respuesta final. En la práctica, las sutilezas están en la gestión del contexto.
Prompt caching — la clave del rendimiento:
Cada turno de conversación añade contenido al prompt. Sin optimización, es cuadrático en tokens enviados. El prompt caching permite reutilizar cálculos de turnos anteriores. Condición: el nuevo prompt debe ser un prefijo exacto del antiguo. OpenAI detalla las trampas que rompen el caché (cambiar el orden de herramientas MCP, modificar la configuración a mitad de conversación).
Compactación automática:
Cuando el contexto excede un umbral, Codex llama a /responses/compact que devuelve una versión comprimida de la conversación. El modelo mantiene una comprensión latente vía un encrypted_content opaco.
Zero Data Retention (ZDR):
Para clientes que no quieren que sus datos se almacenen, el encrypted_content permite preservar el razonamiento del modelo entre turnos sin almacenar datos del lado del servidor.
Primer artículo de una serie — los próximos cubrirán la arquitectura CLI, la implementación de herramientas y el sandboxing.
🔗 Unrolling the Codex agent loop | Codex GitHub
Scaling PostgreSQL: 800 millones de usuarios de ChatGPT
22 de enero — OpenAI detalla cómo PostgreSQL alimenta a ChatGPT y la API para 800 millones de usuarios con millones de solicitudes por segundo.
| Métrica | Valor |
|---|---|
| Usuarios | 800 millones |
| Rendimiento | Millones de QPS |
| Réplicas | ~50 read replicas multi-región |
| Latencia p99 | Doble dígito ms lado cliente |
| Disponibilidad | Five-nines (99.999%) |
Arquitectura:
- Single primary Azure PostgreSQL flexible server
- PgBouncer para connection pooling (latencia conexión: 50ms → 5ms)
- Cargas de trabajo write-heavy migradas a Azure Cosmos DB
- Cache locking para proteger contra tormentas de cache miss
- Cascading replication en pruebas para superar 100 réplicas
Único SEV-0 PostgreSQL en los últimos 12 meses: durante el lanzamiento viral de ChatGPT ImageGen (100M nuevos usuarios en una semana, tráfico de escritura x10).
Qwen: Qwen3-TTS open-source
22-23 de enero — Alibaba publica Qwen3-TTS en código abierto bajo licencia Apache 2.0.
| Característica | Detalle |
|---|---|
| Licencia | Apache 2.0 |
| Voice cloning | Sí |
| Soporte MLX-Audio | Disponible |
Instalación:
uv pip install -U mlx-audio --prerelease=allow
Runway: Gen-4.5 Image to Video
21 de enero — Runway añade la funcionalidad Image to Video a Gen-4.5.
| Funcionalidad | Descripción |
|---|---|
| Image to Video | Transformación de una imagen en video cinematográfico |
| Camera control | Control preciso de la cámara |
| Coherent narratives | Narrativas coherentes a lo largo del tiempo |
| Character consistency | Personajes que permanecen consistentes |
Disponible para todos los planes de pago de Runway. Promo temporal: 15% de descuento.
Qué significa esto
Esta semana marca una maduración de las herramientas de coding agents. Los dos gigantes (Anthropic y OpenAI) publican documentación técnica detallada sobre la arquitectura de sus agentes — señal de que el mercado pasa de la fase “demo” a la fase “producción”.
Del lado de la infraestructura, el artículo de PostgreSQL de OpenAI muestra que una arquitectura single-primary puede sostenerse a escala de cientos de millones de usuarios con las optimizaciones adecuadas.
La llegada de Claude a Excel abre un nuevo frente: la IA integrada directamente en las herramientas de productividad cotidianas.