O 23 de abril de 2026 marca um dia denso: a OpenAI lança o GPT-5.5 com 85% no ARC-AGI-2 e um preço de API de $5/M tokens na entrada, enquanto a Anthropic abre a memória persistente em beta para os seus Managed Agents e publica um post-mortem sobre o Claude Code. Em paralelo, o GitHub Copilot entrega sete atualizações em três dias, o Kimi K2.6 implementa um enxame (swarm) de 300 subagentes, e a SpaceX sela uma parceria de codificação com o Cursor.
GPT-5.5 : o modelo frontier da OpenAI
23 de abril — A OpenAI lança o GPT-5.5, o seu modelo mais poderoso até à data, concebido para o trabalho real e para agentes. Melhora significativamente a codificação agêntica, a utilização do computador (computer use), o trabalho do conhecimento e a investigação científica, ao mesmo tempo que mantém a latência do GPT-5.4.
Disponibilidade e preços
O GPT-5.5 está disponível imediatamente para os subscritores ChatGPT Plus, Pro, Business e Enterprise, bem como no Codex. O acesso à API chega “muito em breve”.
| Oferta | Acesso API | Entrada | Saída |
|---|---|---|---|
| GPT-5.5 standard | Em breve | $5 / M tokens | $30 / M tokens |
| GPT-5.5 Pro | Em breve | $30 / M tokens | $180 / M tokens |
A janela de contexto no Codex atinge 400K tokens. Está disponível um modo Fast — 1,5× mais rápido, 2,5× o custo.
Benchmarks
| Avaliação | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE (interno) | 73.1% | 68.5% | — | — |
| SWE-Bench Pro | 58.6% | 57.7% | 64.3% | 54.2% |
| GDPval | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | — |
| ARC-AGI-2 | 85.0% | 73.3% | 75.8% | 77.1% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | 73.1% | — |
| BixBench (bioinformática) | 80.5% | 74.0% | — | — |
O GPT-5.5 está na liderança na maioria dos benchmarks, com uma exceção notável: SWE-Bench Pro, onde o Claude Opus 4.7 mantém a vantagem (64.3% vs 58.6%).
Infraestrutura e segurança
O modelo foi co-desenhado com NVIDIA GB200/GB300 NVL72. O Codex usou o GPT-5.5 para otimizar a sua própria infraestrutura, ganhando +20% de velocidade de geração de tokens. Em cibersegurança, o GPT-5.5 é classificado como High no Preparedness Framework da OpenAI (não Critical); o programa Trusted Access Cyber foi alargado a ele.
Investigação científica
Para além do código, o GPT-5.5 ajudou a provar um novo teorema sobre os números de Ramsey (combinatória), verificado formalmente em Lean. Também analisou um conjunto de dados genómicos de 62 amostras e 28 000 genes em poucos minutos — uma tarefa que teria exigido meses a uma equipa de investigadores.
«GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use.»
🇵🇹 O GPT-5.5 é visivelmente mais inteligente e persistente do que o GPT-5.4, com melhor desempenho em programação e uma utilização de ferramentas mais fiável. — Michael Truell, cofundador e CEO da Cursor
A vaga dos agentes persistentes
Três anúncios importantes convergem neste 23 de abril em torno do agente persistente, capaz de agir de forma autónoma durante longos períodos e de reter o contexto de uma sessão para a outra.
OpenAI Workspace Agents no ChatGPT
22 de abril — A OpenAI apresenta os agentes de espaço de trabalho (Workspace Agents): agentes partilhados que uma equipa cria uma vez, usa em conjunto no ChatGPT ou Slack e melhora progressivamente. Alimentados pelo Codex na cloud, podem executar tarefas complexas mesmo quando o utilizador está desligado. Os Workspace Agents substituem gradualmente os GPT, que permanecem disponíveis durante a transição.
| Tipo de agente | Funcionalidade |
|---|---|
| Verificador de software | Examina pedidos, compara políticas, cria tickets de IT |
| Router de feedback de produto | Monitoriza Slack/suporte/fóruns → tickets priorizados |
| Gerador de relatórios | Extrai dados de sexta-feira, cria gráficos, síntese |
| Agente de prospeção | Pesquisa leads, avalia, redige emails, atualiza CRM |
| Responsável por riscos de terceiros | Avalia fornecedores, produz relatório estruturado |
Disponíveis em research preview para Business, Enterprise, Edu e Teachers; gratuitos até 6 de maio de 2026, depois faturação em créditos.
Segundo Ankur Bhatt (AI Engineering, Rippling), o que antes levava 5 a 6 horas por semana aos comerciais é agora executado automaticamente em segundo plano sobre cada oportunidade.
Anthropic — Memória para os Claude Managed Agents
23 de abril — A memória para os Claude Managed Agents está disponível em beta pública na Claude Platform. Os agentes podem agora aprender de uma sessão para a outra graças a uma camada de memória montada diretamente sobre um sistema de ficheiros: os agentes usam as mesmas capacidades bash e de execução de código que já utilizam para tarefas agênticas.
| Funcionalidade | Detalhe |
|---|---|
| Stores partilháveis | Vários agentes, diferentes âmbitos de acesso (apenas leitura / leitura-escrita) |
| Acesso concorrente | Sem sobrescrita entre sessões paralelas |
| Registo de auditoria | Que sessão, que agente, que memória |
| Reversão | Em qualquer versão anterior |
| Exportabilidade | Memórias geríveis via API |
Os resultados dos clientes ilustram o impacto concreto:
| Cliente | Resultado |
|---|---|
| Rakuten | -97% de erros na primeira passagem, -27% de custo, -34% de latência |
| Wisedocs | +30% de velocidade de verificação documental |
| Netflix | Continuidade do contexto entre sessões sem atualização manual |
| Ando | Memória de plataforma sem infraestrutura dedicada |
Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.
🇵🇹 A memória nos Claude Managed Agents permite-nos colocar a aprendizagem contínua em produção à escala. Os nossos agentes distilam lições de cada sessão, produzindo 97% menos erros na primeira passagem, com 27% menos custo e 34% menos latência. — Yusuke Kaji, General Manager AI for Business, Rakuten
Claude Code : post-mortem de qualidade e duas novas versões
Post-mortem e reposição dos limites
23 de abril — A equipa Claude Code publicou um post-mortem sobre três problemas de qualidade reportados ao longo do mês passado. Todos estão corrigidos na v2.1.116+. Os limites de utilização foram repostos para todos os subscritores.
Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.
🇵🇹 Ao longo do mês passado, alguns de vocês reportaram que a qualidade do Claude Code tinha diminuído. Investigámos e publicámos um post-mortem sobre os três problemas que encontrámos. Todos estão corrigidos na v2.1.116+ e repusemos os limites de utilização para todos os subscritores. — @ClaudeDevs
v2.1.117 e v2.1.118
| Versão | Funcionalidades principais |
|---|---|
| v2.1.118 | Modo visual Vim (v/V) com seleção e operadores; /usage unificado (funde /cost e /stats); temas personalizados em /theme; hooks a invocar ferramentas MCP via type: "mcp_tool"; DISABLE_UPDATES estrito; herança de managed settings Windows via WSL |
| v2.1.117 | Esforço por defeito passou para high para Pro/Max em Opus 4.6 e Sonnet 4.6 (era medium); fork de subagentes ativável em builds externas; glob/Grep substituídos por bfs/ugrep incorporados para pesquisas mais rápidas; fix de sessões Opus 4.7 (contexto 1M calculado corretamente); fix de Bedrock+Opus 4.7 com thinking desativado |
Novos conectores Claude para o dia a dia
23 de abril — A Anthropic alarga o seu repertório de conectores às aplicações de consumo. Desde julho de 2025, estavam disponíveis mais de 200 conectores para ferramentas profissionais; esta atualização acrescenta 15 serviços do quotidiano.
| Aplicação | Categoria |
|---|---|
| AllTrails | Caminhada |
| Audible | Audiolivros |
| Booking.com | Viagens |
| Instacart | Compras online |
| Intuit Credit Karma | Finanças |
| Intuit TurboTax | Fiscalidade |
| Resy | Reservas de restaurante |
| Spotify | Música |
| StubHub | Bilhética |
| Taskrabbit | Serviços domésticos |
| Thumbtack | Profissionais locais |
| TripAdvisor | Viagens |
| Uber | Transporte |
| Uber Eats | Entrega de refeições |
| Viator | Atividades turísticas |
O Claude sugere agora automaticamente os conectores relevantes consoante o contexto da conversa. Disponíveis em todos os planos (incluindo o gratuito), web, desktop e mobile (mobile em beta). Sem colocação paga nem respostas patrocinadas; os dados de uma app não são usados para treinar os modelos.
GitHub Copilot — Sete atualizações em três dias
O GitHub Copilot publicou sete entradas no seu changelog entre 22 e 23 de abril.
Chat para pull requests (3 novas capacidades)
23 de abril — O Copilot Chat integra agora três capacidades para pull requests, acessíveis via github.com/copilot ou o botão Copilot nos diffs (preview pública):
- Compreensão de PR (pull request understanding): comentários, alterações, commits e revisões integrados como contexto
- Revisão de PR: revisão estruturada a pedido
- Resumo de PR: resumo conciso das alterações
🔗 Melhorias no Copilot Chat para PR
Sessões de agente controláveis a partir de issues e projetos
23 de abril — O cloud agent é agora controlável diretamente a partir das issues e dos painéis de projetos GitHub: indicador de sessão no cabeçalho da issue, painel lateral de progresso, sessões ativadas por defeito em todas as vistas de projetos.
🔗 Sessões de agente a partir de issues
Depuração estruturada de stack traces na web
23 de abril — O Copilot Chat no github.com guia agora a análise de stack traces em seis passos estruturados: o que falhou, porquê, a causa raiz, as provas vindas do código, o nível de confiança e as verificações seguintes.
BYOK VS Code disponível (GA)
22 de abril — Bring Your Own Key (traga a sua própria chave API) está em disponibilidade geral para utilizadores Copilot Business e Enterprise no VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure são suportados, assim como modelos locais via Ollama e Foundry Local. A faturação é direta pelo fornecedor escolhido, fora das quotas do Copilot.
C++ Language Server em preview pública para Copilot CLI
22 de abril — O Microsoft C++ Language Server (motor IntelliSense do Visual Studio/VS Code) está disponível em preview pública para o Copilot CLI. Fornece dados semânticos precisos (definições de símbolos, referências, hierarquias de chamadas, tipos) em substituição da pesquisa grep iterativa. Pré-requisitos: autenticação Copilot CLI + compile_commands.json.
Novas inscrições Business self-serve suspensas
22 de abril — O GitHub suspende as novas inscrições self-serve para Copilot Business nos planos GitHub Free e GitHub Team. Os clientes existentes não são afetados.
🔗 Pausa no Business self-serve
Campo used_copilot_cloud_agent nas métricas API
23 de abril — Na sequência do rebranding “coding agent” → “cloud agent”, a API de métricas acrescenta o campo used_copilot_cloud_agent nos relatórios de utilizadores (1 dia e 28 dias móveis). O campo antigo used_copilot_coding_agent mantém-se até 1 de agosto de 2026.
Gemini CLI v0.39.0 e Deep Think para todos os Ultra
Gemini CLI v0.39.0
23 de abril — A Google publica o Gemini CLI v0.39.0, versão estável marcada como “Latest”. O destaque é o novo comando /memory inbox para rever e validar as skills extraídas automaticamente pelo CLI durante as sessões de trabalho.
| Funcionalidade | Descrição |
|---|---|
/memory inbox | Revisão das skills extraídas automaticamente |
invoke_subagent unificado | Ferramenta de subagente refatorizada numa interface única |
| Formatação compacta | Melhor legibilidade em modo compacto |
| Plan Mode — confirmações | Validação exigida antes da ativação de skills |
| Arranque simplificado | Processo pai leve para arranque mais rápido |
| Migração JSONL streaming | Registo de sessões de chat em JSONL |
Atalhos de teclado adicionados: Ctrl+Backspace para eliminação palavra por palavra (Windows Terminal), Ctrl+Shift+G.
Deep Think aberto a todos os subscritores Ultra
22 de abril — A Google abre o modo Deep Think (raciocínio aprofundado, extended thinking) a todos os subscritores Gemini Ultra. Este modo estava anteriormente com acesso limitado; agora está disponível diretamente a partir do menu de ferramentas da app Gemini (web e mobile).
Kimi K2.6 : enxame de 300 subagentes e benchmarks open-weights
Agent Swarm — 300 subagentes paralelos
23 de abril — A Moonshot AI lança o Kimi K2.6 Agent Swarm: um sistema capaz de implementar 300 subagentes em paralelo em 4 000 passos por execução, contra 100 agentes e 1 500 passos para o K2.5.
| Capacidade | K2.5 | K2.6 |
|---|---|---|
| Subagentes paralelos | 100 | 300 |
| Passos por execução | 1 500 | 4 000 |
| Tipos de outputs | Texto de chat | 100+ ficheiros reais, reviews de 100 000 palavras, datasets de 20 000 linhas |
Os subagentes combinam competências heterogéneas: pesquisa web, análise de dados, codificação, redação de formato longo e geração visual. Disponível em kimi.com/agent-swarm.
Benchmarks: número 1 open-weights
23 de abril — O Kimi K2.6 alcança o primeiro lugar entre os modelos open-weights em dois benchmarks: - Design Arena : mesma faixa de desempenho que Claude Opus 4.7
- MathArena open (modo Think) : à frente de GLM 5.1
SpaceXAI × Cursor e Grok Imagine
Parceria SpaceXAI × Cursor
22 de abril — SpaceXAI (entidade resultante da aproximação entre xAI e SpaceX) e Cursor anunciam uma parceria para criar “a IA de codificação e de trabalho do conhecimento mais poderosa do mundo”. A SpaceX traz o supercomputador Colossus (equivalente a um milhão de H100); a Cursor concede-lhe o direito de adquirir a empresa mais tarde, em 2026, por $60 bilhões, ou de pagar $10 bilhões apenas pela colaboração.
Grok Imagine — Templates personalizados partilháveis
22 de abril — Os assinantes SuperGrok e Premium+ podem agora criar templates personalizados no Grok Imagine e partilhá-los publicamente.
NVIDIA × Google Cloud Next
22 de abril — No Google Cloud Next (Las Vegas), a NVIDIA e o Google Cloud anunciam vários avanços importantes em torno da infraestrutura de IA agêntica.
| Anúncio | Detalhe |
|---|---|
| Instâncias A5X (Vera Rubin NVL72) | Até 960 000 GPUs Rubin em cluster multi-site, 10× mais barato por token, 10× mais débito por megawatt |
| Gemini no Google Distributed Cloud | Preview com GPUs Blackwell e Blackwell Ultra — soberania dos dados |
| Confidential VMs Blackwell | Primeira oferta de computação confidencial (confidential computing) Blackwell na cloud pública |
| Nemotron 3 Super | Disponível na Gemini Enterprise Agent Platform |
| NeMo RL API | Aprendizagem por reforço (Reinforcement Learning) gerida em grande escala |
Kling AI Video 3.0 — Modo 4K nativo
23 de abril — A Kling AI lança o modo 4K nativo na sua série Video 3.0. A geração 4K é feita num único clique, sem etapa adicional de upscaling. A coerência visual (personagens, textos, estilos, iluminações) é assegurada em resolução nativa para produção de alto nível. Também disponível via fal.ai para empresas.
A Kling AI organiza simultaneamente um 4K Short Film Creative Contest, concurso mundial que convida os criadores a submeter curtas-metragens realizados com o novo modo.
ChatGPT for Clinicians e OpenAI Privacy Filter
ChatGPT for Clinicians + HealthBench Professional
22 de abril — A OpenAI lança ChatGPT for Clinicians, uma versão gratuita para profissionais de saúde verificados nos Estados Unidos (médicos, enfermeiros praticantes, assistentes médicos, farmacêuticos). O serviço inclui acesso aos modelos frontier para questões clínicas complexas, skills para workflows repetitivos (cartas de referência, autorizações prévias), pesquisa clínica citada em tempo real e geração automática de créditos de formação contínua (CME). O processamento HIPAA está disponível como opção mediante acordo.
A OpenAI publica também HealthBench Professional, um benchmark aberto que avalia a IA em tarefas clínicas reais (700 000+ respostas avaliadas por médicos). O GPT-5.4 no ChatGPT for Clinicians supera os médicos humanos neste benchmark em condições sem limite de tempo e com acesso web.
OpenAI Privacy Filter
22 de abril — A OpenAI publica Privacy Filter, um modelo open-weight (Apache 2.0) para detetar e mascarar informações pessoalmente identificáveis (Personally Identifiable Information, PII) no texto. O modelo funciona localmente (nenhum dado enviado para um servidor), suporta 128K tokens de contexto e atinge uma pontuação F1 de 97.43% no benchmark PII-Masking-300k.
| Característica | Valor |
|---|---|
| Arquitetura | Classificador de tokens bidirecional (decodificação Viterbi constrangida) |
| Tamanho | 1.5B parâmetros totais, 50M ativos |
| Contexto | 128 000 tokens |
| Licença | Apache 2.0 (Hugging Face + GitHub) |
| F1 | 97.43% no PII-Masking-300k corrigido |
Categorias de PII cobertas: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (palavras-passe e chaves API).
Perplexity e Cohere
Perplexity integra Kimi K2.6
23 de abril — Kimi K2.6 da Moonshot AI está agora disponível para todos os assinantes Pro e Max da Perplexity.
Cohere — W4A8 pronto para produção no vLLM
22 de abril — A Cohere anuncia a integração da sua inferência W4A8 (quantização de 4 bits para os pesos, 8 bits para as ativações) no vLLM. Resultados em GPU Hopper versus W4A16: +58% no tempo até ao primeiro token (Time To First Token) e +45% no tempo por token de saída (Time Per Output Token). A integração visa prioritariamente os modelos MoE Command A de grande escala em produção.
Breves
Suno número 1 na App Store de música
21 de abril — A Suno, plataforma de geração musical com IA, alcança o primeiro lugar da App Store na categoria música. O CEO Mikey Shulman anuncia: « The future of music is one where everyone enjoys creating. »
Anthropic Economic Index Survey
22 de abril — A Anthropic lança a Anthropic Economic Index Survey, um inquérito mensal conduzido via Anthropic Interviewer junto de uma amostra aleatória de utilizadores Claude. O objetivo é recolher dados qualitativos sobre o impacto económico da IA: tarefas delegadas, ganhos de produtividade, evolução de funções. Os resultados alimentarão os futuros relatórios Anthropic Economic Index.
Anthropic — Agentes MCP em produção: os números
22 de abril — Um artigo técnico da Anthropic documenta os benefícios de MCP para agentes de produção: os SDK MCP ultrapassam 300 milhões de downloads por mês, a pesquisa de ferramentas (tool search) reduz os tokens de definição de ferramentas em 85%, e as chamadas programáticas de ferramentas (programmatic tool calling) reduzem a utilização de tokens em 37% em workflows complexos de várias etapas.
OpenAI — WebSockets na API Responses: ganho de 40% de latência
22 de abril — Artigo retrospetivo da OpenAI a explicar como o modo WebSocket na API Responses reduz a latência dos loops de agentes em 40%. A ligação persistente mantém um cache em memória do estado das respostas anteriores, evitando reprocessar todo o histórico a cada chamada. Já em produção: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).
Perplexity Research — Treino de modelos de pesquisa aumentada
22 de abril — A Perplexity publica uma investigação sobre o seu pipeline SFT + RL (Supervised Fine-Tuning + Reinforcement Learning) para melhorar a qualidade das respostas de pesquisa. Resultado-chave: modelos Qwen pós-treinados alcançam a factualidade dos modelos GPT a menor custo.
O que isto significa
23 de abril de 2026 desenha duas tendências convergentes. Por um lado, o GPT-5.5 confirma que a OpenAI voltou à liderança nos benchmarks agênticos (Terminal-Bench, ARC-AGI-2, OSWorld) após vários meses em que o Claude Opus 4.7 dominou. A diferença continua apertada no SWE-Bench Pro, onde a Anthropic mantém a vantagem — sinal de que os dois laboratórios convergem nos mesmos casos de uso prioritários.
Por outro lado, o dia marca a entrada na era dos agentes persistentes com memória: OpenAI Workspace Agents, Anthropic Managed Agents Memory e Kimi K2.6 Agent Swarm chegam simultaneamente com abordagens diferentes (integração Slack, filesystem-based, enxame de subagentes), mas com o mesmo objetivo — que o agente se lembre, aprenda e atue sem supervisão constante. Os números Rakuten (-97% de erros, -27% de custo) dão uma primeira medida industrial do impacto.
O GitHub Copilot continua a sua estratégia de integração profunda no GitHub.com (PR chat, agent sessions a partir de issues, stack traces estruturadas) ao mesmo tempo que se abre ao exterior via BYOK. O BYOK VS Code GA assinala que o Copilot se posiciona tanto como interface quanto como modelo.
Fontes
- GPT-5.5 — OpenAI
- Tweet OpenAI GPT-5.5
- Workspace Agents — OpenAI
- Tweet Workspace Agents
- ChatGPT for Clinicians
- OpenAI Privacy Filter
- WebSockets API Responses — OpenAI
- Memória Managed Agents — Anthropic
- Conectores para a vida quotidiana — Anthropic
- Tweet conectores — @claudeai
- Post-mortem Claude Code — @ClaudeDevs
- Tweet @bcherny
- CHANGELOG Claude Code
- MCP production agents — Anthropic
- Anthropic Economic Index Survey
- Copilot Chat PR improvements
- Copilot agent sessions depuis issues
- Copilot débogage stack traces
- Copilot BYOK VS Code GA
- Copilot C++ Language Server
- Copilot Business self-serve pause
- Copilot métriques cloud agent
- Gemini CLI v0.39.0
- Gemini Deep Think Ultra — @GeminiApp
- Kimi K2.6 Agent Swarm — @Kimi_Moonshot
- Kimi K2.6 Design Arena
- Kimi K2.6 MathArena
- SpaceXAI × Cursor — @SpaceX
- Grok Imagine templates — @imagine
- NVIDIA × Google Cloud Next
- Kling AI Video 3.0 Mode 4K
- Kling AI 4K Short Film Contest
- Perplexity Kimi K2.6
- Perplexity Research Search-Augmented LMs
- Cohere W4A8 vLLM
- Suno número 1 App Store
Este documento foi traduzido da versão fr para a língua pt usando o modelo gpt-5.4-mini. Para mais informações sobre o processo de tradução, consulte https://gitlab.com/jls42/ai-powered-markdown-translator