Lançamento duplo no topo: Anthropic lança Claude Opus 4.6 com contexto de 1M tokens e equipes de agentes, enquanto a OpenAI responde com GPT-5.3-Codex e uma plataforma empresarial. Google impulsiona Gemini 3 em todas as frentes, e GitHub finalmente atende a um pedido de 8 anos.
Claude Opus 4.6: SOTA em agentic coding e contexto de 1M
5 de fevereiro — Anthropic lança Claude Opus 4.6, uma grande atualização de seu modelo mais inteligente. O modelo avança em planejamento, sessões longas, revisão de código e oferece pela primeira vez um contexto de 1 milhão de tokens em beta para um modelo Opus.
| Benchmark | Pontuação | Detalhe |
|---|---|---|
| Terminal-Bench 2.0 | SOTA | Pontuação mais alta em agentic coding |
| Humanity’s Last Exam | SOTA | Raciocínio multidisciplinar |
| GDPval-AA | +144 Elo vs GPT-5.2 | Trabalho profissional (finanças, jurídico) |
| BrowseComp | SOTA | Recuperação de informação complexa |
| MRCR v2 (8-needle 1M) | 76% | vs 18.5% para Sonnet 4.5 |
Novidades em API e produto
| Funcionalidade | Descrição |
|---|---|
| Agent teams | Vários agentes Claude Code em paralelo (research preview) |
| Adaptive thinking | O modelo escolhe quando usar pensamento profundo |
| Effort controls | 4 níveis: baixo, médio, alto (padrão), máximo |
| Context compaction | Resumo automático do contexto para sessões longas |
| 128k output tokens | Saídas mais longas em uma única solicitação |
| Claude in PowerPoint | Research preview (Max, Team, Enterprise) |
Preços: Inalterados em 25 por milhão de tokens (input/output). Preços premium acima de 200k tokens (37.50).
Disponibilidade: claude.ai, API (claude-opus-4-6) e todas as principais plataformas de nuvem.
Blogs de engenharia: ruído de infraestrutura e compilador C
A Anthropic publica dois artigos técnicos no mesmo dia. O primeiro quantifica o ruído de infraestrutura em benchmarks de agentic coding: no Terminal-Bench 2.0, a configuração de recursos sozinha pode criar lacunas de 6 pontos percentuais entre as configurações. O segundo documenta a construção de um compilador C em Rust por 16 agentes Claude em paralelo: 100.000 linhas de código, capaz de compilar o kernel Linux 6.9 em x86, ARM e RISC-V, em ~2.000 sessões Claude Code por ~$20.000.
Opus 4.6 no GitHub Copilot
No mesmo dia, Claude Opus 4.6 torna-se disponível em GA no GitHub Copilot via Agent HQ, após a prévia pública anunciada no dia anterior.
🔗 Anúncio Opus 4.6 | Ruído de infraestrutura | Construindo um compilador C
GPT-5.3-Codex: coding frontier + conhecimento pro
5 de fevereiro — OpenAI lança GPT-5.3-Codex, que funde o desempenho de codificação do GPT-5.2-Codex com as capacidades de raciocínio do GPT-5.2, tudo 25% mais rápido.
| Benchmark | Pontuação |
|---|---|
| SWE-Bench Pro (Público) | 56.8% |
| Terminal-Bench 2.0 | 77.3% |
| OSWorld-Verified | 64.7% |
| GDPval (vitórias ou empates) | 70.9% |
| Cybersecurity CTF | 77.6% |
| SWE-Lancer IC Diamond | 81.4% |
GPT-5.3-Codex é o primeiro modelo a ter contribuído para a sua própria criação: a equipe usou versões preliminares para depurar o treinamento, gerenciar a implantação e analisar os resultados dos testes.
Além do código
O modelo produz apresentações, planilhas, análise de dados e lida com tarefas de produtividade em um ambiente de desktop (64.7% no OSWorld-Verified).
Cibersegurança: alta capacidade
GPT-5.3-Codex é o primeiro modelo classificado como alta capacidade para cibersegurança no quadro de preparação da OpenAI, e o primeiro especificamente treinado para identificar vulnerabilidades de software.
🔗 Blog GPT-5.3-Codex | System Card
OpenAI: Frontier, MCP Apps, segurança e biotecnologia
OpenAI Frontier: plataforma de agentes enterprise
5 de fevereiro — OpenAI lança Frontier, uma plataforma para desenvolver, implantar e gerenciar agentes de IA na empresa. Os agentes recebem um contexto de negócios compartilhado, permissões e aprendem com a experiência.
| Aspecto | Detalhe |
|---|---|
| Primeiros clientes | HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber |
| Parceiros de IA | Abridge, Clay, Ambience, Decagon, Harvey, Sierra |
| Abordagem | Forward Deployed Engineers (FDE) integrados às equipes |
| Padrões | Padrões abertos, compatível com sistemas existentes |
ChatGPT: MCP Apps em beta
5 de fevereiro — As MCP Apps chegam em beta ao ChatGPT Business, Enterprise e Edu. Novos conectores de parceiros: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte e outros. As organizações podem criar apps MCP personalizados via modo desenvolvedor.
Trusted Access for Cyber
5 de fevereiro — OpenAI lança Trusted Access for Cyber, um programa piloto de acesso baseado em confiança para capacidades cibernéticas avançadas. Os usuários podem verificar sua identidade em chatgpt.com/cyber. 10 milhões de dólares em créditos de API são alocados para defesa cibernética através do Cybersecurity Grant Program.
GPT-5 reduz o custo de síntese de proteínas
5 de fevereiro — Em parceria com a Ginkgo Bioworks, a OpenAI conecta o GPT-5 a um laboratório robótico para otimizar a síntese de proteínas livre de células (CFPS). Resultado: 40% de redução no custo de produção e 57% de melhoria no custo dos reagentes, após 36.000 composições testadas em 580 placas automatizadas em seis rodadas de experimentação.
🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 proteínas
Google: Gemini 3, Super Bowl e NotebookLM
Gemini 3: atualizações e Super Bowl
5-6 de fevereiro — Google impulsiona Gemini 3 em todas as frentes. Gemini 3 Flash, lançado recentemente, oferece raciocínio de nível Pro na velocidade Flash: 90.4% no GPQA Diamond e 33.7% no Humanity’s Last Exam (sem ferramentas). Gemini 3 torna-se o modelo padrão para AI Overviews na Pesquisa Google.
O Google também está preparando um anúncio do Gemini de 60 segundos para o Super Bowl LX (8 de fevereiro) — o spot “New Home” mostra uma criança se preparando para uma mudança com a ajuda do Gemini, ilustrando recursos de pesquisa no Google Fotos e geração de imagens.
NotebookLM: Infographics e Slide Decks
NotebookLM, agora construído sobre o Gemini 3, lança Infographics e Slide Decks para usuários Free e Pro. Os Slide Decks já são o segundo output studio mais popular. Usuários Ultra podem remover a marca d’água.
🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics
GitHub: comentários fixados em Issues
5 de fevereiro — GitHub lança comentários fixados em Issues. Agora é possível fixar um comentário no topo de uma issue a partir do menu contextual. Um recurso solicitado desde 2017 para destacar decisões, atualizações e próximos passos importantes em threads longas.
O que isso significa
5 de fevereiro de 2026 ficará marcado como um dia histórico: Anthropic e OpenAI lançam simultaneamente seus modelos de codificação mais avançados. Claude Opus 4.6 domina benchmarks de trabalho profissional e recuperação de informações, enquanto GPT-5.3-Codex se destaca em codificação de terminal e uso de computador. Ambos os modelos reivindicam SOTA (State Of The Art) no Terminal-Bench 2.0 — o artigo da Anthropic sobre ruído de infraestrutura faz todo o sentido.
Além dos modelos, a batalha das plataformas se intensifica: OpenAI Frontier ataca o segmento enterprise com agentes implantados na Oracle e Uber, enquanto a Anthropic aposta no ecossistema de desenvolvedores (GitHub, Xcode, Claude Code). O Google avança em todas as frentes com Gemini 3 na Pesquisa, Chrome e NotebookLM, e prepara o Super Bowl para ancorar o Gemini no mainstream.
Fontes
- Introducing Claude Opus 4.6
- Quantifying infrastructure noise
- Building a C compiler with parallel Claudes
- Introducing GPT-5.3-Codex
- GPT-5.3-Codex System Card
- Introducing OpenAI Frontier
- Introducing apps in ChatGPT
- Trusted Access for Cyber
- GPT-5 lowers protein synthesis cost
- Gemini 3 Flash
- NotebookLM Infographics
- Pinned comments on GitHub Issues