Pesquisar

Notícias IA 23 Jan 2026: Claude no Excel, Tasks Claude Code, Codex Agent Loop

Notícias IA 23 Jan 2026: Claude no Excel, Tasks Claude Code, Codex Agent Loop

Semana movimentada para agentes de IA

De 21 a 23 de janeiro de 2026, vários anúncios importantes sobre coding agents e infraestrutura. Anthropic lança Claude no Excel e publica três artigos sobre sistemas multiagente, OpenAI detalha a arquitetura interna do Codex e sua infraestrutura PostgreSQL, Qwen torna open-source seu modelo text-to-speech, e Runway adiciona Image to Video ao Gen-4.5.


Anthropic: Claude no Excel e Claude Code

Claude no Excel

23 de janeiro — Claude agora está disponível no Microsoft Excel em beta. A integração permite analisar pastas de trabalho completas do Excel com suas fórmulas aninhadas e dependências entre abas.

Funcionalidades:

  • Compreensão da pasta de trabalho inteira (fórmulas, dependências multi-abas)
  • Explicações com citações em nível de célula
  • Atualização de suposições preservando as fórmulas

Disponível para assinantes Claude Pro, Max, Team e Enterprise.

🔗 Claude no Excel


Claude Code v2.1.19: sistema Tasks

23 de janeiro — A versão 2.1.19 apresenta Tasks, um novo sistema de gerenciamento de tarefas para projetos complexos multisessão.

We’re turning Todos into Tasks in Claude Code. Tasks are a new primitive that help Claude Code track and complete more complicated projects and collaborate on them across multiple sessions or subagents.

🇵🇹 Estamos transformando Todos em Tasks no Claude Code. Tasks são uma nova primitiva que ajuda o Claude Code a rastrear e completar projetos mais complicados e colaborar neles através de múltiplas sessões ou subagentes.Thariq (@trq212), equipe Claude Code Anthropic

Funcionalidades Tasks:

AspectoDetalhe
Armazenamento~/.claude/tasks (arquivos, permite construir ferramentas em cima)
ColaboraçãoCLAUDE_CODE_TASK_LIST_ID=nome claude para compartilhar entre sessões
DependênciasTasks com dependências e bloqueios armazenados nos metadados
TransmissãoAtualização de uma Task transmitida para todas as sessões na mesma Task List
CompatibilidadeFunciona com claude -p e AgentSDK

Para que serve: Em um projeto complexo (refatoração multiarquivo, migração, funcionalidade longa), Claude pode dividir o trabalho em tasks, rastrear o que está feito e o que resta. As tasks são persistidas em disco — sobrevivem à compactação do contexto, fechamento da sessão e reinicialização. Múltiplas sessões ou subagentes podem colaborar na mesma lista de tarefas em tempo real.

Na prática: Claude cria tasks (TaskCreate), lista-as (TaskList), e atualiza seu status (TaskUpdate: pending → in_progress → completed). Exemplo em uma refatoração de autenticação:

#1 [completed] Migrar armazenamento de sessão para Redis
#2 [in_progress] Implementar rotação de refresh token
#3 [pending] Adicionar testes de integração OAuth
#4 [pending] Atualizar documentação da API

As tasks são armazenadas em ~/.claude/tasks/ e podem ser compartilhadas entre sessões via CLAUDE_CODE_TASK_LIST_ID.

Outras novidades v2.1.19:

  • Abreviação $0, $1 para argumentos em comandos personalizados
  • VSCode session forking e rebobinar para todos
  • Skills sem permissões são executadas sem aprovação
  • CLAUDE_CODE_ENABLE_TASKS=false para desativar temporariamente

🔗 CHANGELOG Claude Code | Thread @trq212


Claude Code v2.1.18: atalhos de teclado personalizáveis

Versão anterior adicionando a capacidade de configurar atalhos de teclado por contexto e criar sequências chord.

Comando: /keybindings

⚠️ Nota: Esta funcionalidade está atualmente em preview e não está disponível para todos os usuários.

🔗 Documentação Keybindings


Petri 2.0: auditorias de alinhamento automatizadas

22 de janeiro — Anthropic publica Petri 2.0, uma atualização de sua ferramenta de auditoria comportamental automatizada para modelos de linguagem.

Para que serve: Petri testa se um LLM poderia se comportar de maneira problemática — manipulação, engano, contorno de regras. A ferramenta gera cenários realistas e observa as respostas do modelo para detectar comportamentos indesejados antes que ocorram em produção.

MelhoriaDescrição
70 novos cenáriosBiblioteca de seeds estendida para cobrir mais casos extremos
Mitigações eval-awarenessO modelo não deve saber que está sendo testado — caso contrário, adapta seu comportamento. Petri 2.0 melhora o realismo dos cenários para evitar essa detecção.
Comparações frontierResultados de avaliação para modelos recentes (Claude, GPT, Gemini)

🔗 Petri 2.0 | GitHub


Blog: quando usar (ou não) sistemas multiagente

23 de janeiro — Anthropic publica um guia pragmático sobre arquiteturas multiagente. A mensagem principal: não use multiagente por padrão.

We’ve seen teams invest months building elaborate multi-agent architectures only to discover that improved prompting on a single agent achieved equivalent results.

🇵🇹 Vimos equipes investirem meses construindo arquiteturas multiagente elaboradas apenas para descobrir que um prompting melhorado em um único agente alcançava resultados equivalentes.

O artigo identifica 3 casos onde multiagente realmente traz valor:

CasoProblemaSolução multiagente
Poluição de contextoUm agente gera dados volumosos dos quais apenas um resumo é útil depoisUm subagente recupera 2000 tokens de histórico, retorna apenas “pedido entregue” ao agente principal
ParalelizaçãoMúltiplas pesquisas independentes para fazerLançar 5 agentes em paralelo em 5 fontes diferentes em vez de processá-los sequencialmente
EspecializaçãoMuitas ferramentas (20+) em um único agente degradam sua capacidade de escolher a certaSeparar em agentes especializados: um para CRM, um para marketing, um para mensagens

A armadilha a evitar: Dividir por tipo de trabalho (um agente planeja, outro implementa, outro testa). Cada passagem perde contexto e degrada a qualidade. É melhor que um único agente lide com uma funcionalidade de ponta a ponta.

Custo real: 3-10x mais tokens que um agente único para a mesma tarefa.

Outros artigos da série:

Building agents with Skills (22 jan)

Em vez de construir agentes especializados por domínio, Anthropic propõe construir skills: coleções de arquivos (fluxos de trabalho, scripts, melhores práticas) que um agente generalista carrega sob demanda.

Divulgação progressiva em 3 níveis:

NívelConteúdoTamanho
1Metadados (nome, descrição)~50 tokens
2Arquivo SKILL.md completo~500 tokens
3Documentação de referência2000+ tokens

Cada nível é carregado apenas se necessário. Resultado: um agente pode ter centenas de skills sem saturar seu contexto.

🔗 Building agents with Skills


Anthropic identifica 8 tendências para o desenvolvimento de software em 2026.

Mensagem chave: Engenheiros estão passando de escrever código para coordenar agentes que escrevem código.

Nuance importante: A IA é usada em ~60% do trabalho, mas apenas 0-20% pode ser totalmente delegada — a supervisão humana permanece essencial.

EmpresaResultado
RakutenClaude Code na base de código vLLM (12.5M linhas), 7h de trabalho autônomo
TELUS30% mais rápido, 500k horas economizadas
Zapier89% adoção IA, 800+ agentes internos

🔗 Eight trends 2026


OpenAI: arquitetura Codex e infraestrutura

Unrolling the Codex agent loop

23 de janeiro — OpenAI abre os bastidores do Codex CLI. Primeiro artigo de uma série sobre o funcionamento interno de seu agente de software.

O que aprendemos:

O loop do agente é simples na teoria: o usuário envia uma solicitação → o modelo gera uma resposta ou solicita uma ferramenta → o agente executa a ferramenta → o modelo retoma com o resultado → até uma resposta final. Na prática, as sutilezas estão no gerenciamento de contexto.

Prompt caching — a chave para o desempenho:

Cada turno de conversa adiciona conteúdo ao prompt. Sem otimização, é quadrático em tokens enviados. O prompt caching permite reutilizar cálculos de turnos anteriores. Condição: o novo prompt deve ser um prefixo exato do antigo. OpenAI detalha as armadilhas que quebram o cache (mudar a ordem das ferramentas MCP, modificar a configuração no meio da conversa).

Compactação automática:

Quando o contexto excede um limite, Codex chama /responses/compact que retorna uma versão comprimida da conversa. O modelo mantém uma compreensão latente via um encrypted_content opaco.

Zero Data Retention (ZDR):

Para clientes que não querem que seus dados sejam armazenados, o encrypted_content permite preservar o raciocínio do modelo entre turnos sem armazenar dados do lado do servidor.

Primeiro artigo de uma série — os próximos cobrirão a arquitetura CLI, implementação de ferramentas e sandboxing.

🔗 Unrolling the Codex agent loop | Codex GitHub


Scaling PostgreSQL: 800 milhões de usuários do ChatGPT

22 de janeiro — OpenAI detalha como o PostgreSQL alimenta o ChatGPT e a API para 800 milhões de usuários com milhões de solicitações por segundo.

MétricaValor
Usuários800 milhões
ThroughputMilhões de QPS
Réplicas~50 read replicas multirregião
Latência p99Dois dígitos ms lado cliente
DisponibilidadeFive-nines (99.999%)

Arquitetura:

  • Single primary Azure PostgreSQL flexible server
  • PgBouncer para connection pooling (latência conexão: 50ms → 5ms)
  • Cargas de trabalho write-heavy migradas para Azure Cosmos DB
  • Cache locking para proteger contra tempestades de cache miss
  • Replicação em cascata em teste para exceder 100 réplicas

Único SEV-0 PostgreSQL nos últimos 12 meses: durante o lançamento viral do ChatGPT ImageGen (100M novos usuários em uma semana, tráfego de escrita x10).

🔗 Scaling PostgreSQL


Qwen: Qwen3-TTS open-source

22-23 de janeiro — Alibaba lança Qwen3-TTS em código aberto sob licença Apache 2.0.

CaracterísticaDetalhe
LicençaApache 2.0
Voice cloningSim
Suporte MLX-AudioDisponível

Instalação:

uv pip install -U mlx-audio --prerelease=allow

🔗 Qwen3-TTS no X


Runway: Gen-4.5 Image to Video

21 de janeiro — Runway adiciona a funcionalidade Image to Video ao Gen-4.5.

FuncionalidadeDescrição
Image to VideoTransformação de uma imagem em vídeo cinematográfico
Camera controlControle preciso da câmera
Coherent narrativesNarrativas coerentes ao longo do tempo
Character consistencyPersonagens que permanecem consistentes

Disponível para todos os planos pagos do Runway. Promoção temporária: 15% de desconto.

🔗 Runway no X


O que isso significa

Esta semana marca um amadurecimento das ferramentas de coding agents. Os dois gigantes (Anthropic e OpenAI) publicam documentações técnicas detalhadas sobre a arquitetura de seus agentes — sinal de que o mercado está passando da fase “demo” para a fase “produção”.

Do lado da infraestrutura, o artigo PostgreSQL da OpenAI mostra que uma arquitetura single-primary pode aguentar a escala de centenas de milhões de usuários com as otimizações certas.

A chegada do Claude no Excel abre uma nova frente: a IA integrada diretamente nas ferramentas de produtividade cotidianas.


Fontes