A Anthropic ataca com força com o Claude Sonnet 4.6, um modelo que rivaliza com o Opus em muitas tarefas ao preço do Sonnet. Paralelamente, a Qwen publica o seu primeiro modelo Qwen3.5 em open-weight com 397 mil milhões de parâmetros, e a Google integra o Lyria 3 — o seu modelo de geração musical — diretamente no Gemini.
Claude Sonnet 4.6: desempenho Opus ao preço Sonnet
17 de fevereiro — A Anthropic lança o Claude Sonnet 4.6, descrito como o Sonnet mais capaz até hoje. O modelo representa uma atualização completa em coding, uso de computador (computer use), raciocínio de contexto longo, planeamento de agentes, trabalho intelectual e design. Incorpora uma janela de contexto de 1 milhão de tokens em beta.
O posicionamento é claro: desempenhos que teriam exigido um modelo Opus estão agora acessíveis à tarifa Sonnet, ou seja, 15 por milhão de tokens (inalterado em relação ao Sonnet 4.5). O Sonnet 4.6 torna-se o modelo padrão nos planos Free e Pro no claude.ai e Claude Cowork.
Benchmarks e feedback dos utilizadores
No Claude Code, os testadores preferiram o Sonnet 4.6 ao Sonnet 4.5 cerca de 70% das vezes, relatando uma melhor leitura do contexto antes da modificação do código e uma consolidação da lógica partilhada em vez de a duplicar. Ainda mais notável: os utilizadores preferiram o Sonnet 4.6 ao Opus 4.5 (o modelo frontier de novembro de 2025) 59% das vezes, citando menos sobre-engenharia, menos “preguiça” e um melhor seguimento das instruções.
| Benchmark | Pontuação |
|---|---|
| SWE-bench Verified | 80.2% (com modificação de prompt) |
| OSWorld (computer use) | Progresso maior em 16 meses |
| OfficeQA | Iguala Opus 4.6 |
| Vending-Bench Arena | Estratégia emergente de investimento/pivot |
O computer use progride significativamente: o Sonnet 4.6 melhora também a resistência a prompt injections em comparação com o Sonnet 4.5, atingindo um nível comparável ao Opus 4.6.
Atualizações de produto associadas
O anúncio é acompanhado por vários lançamentos de disponibilidade geral na API Claude: execução de código, memória, chamadas de ferramentas programáticas, pesquisa de ferramentas e exemplos de uso de ferramentas. A pesquisa web e as ferramentas fetch integram agora uma filtragem dinâmica — o Claude escreve e executa automaticamente código para filtrar os resultados de pesquisa, mantendo apenas o conteúdo relevante no contexto.
🔗 Pesquisa web melhorada com filtragem dinâmica
Para os utilizadores do Claude no Excel, o suplemento suporta agora conectores MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), disponível nos planos Pro, Max, Team e Enterprise.
Anthropic mede a autonomia dos agentes de IA em condições reais
18 de fevereiro — A Anthropic publica um estudo que analisa milhões de interações humano-agente através do Claude Code e da API pública, com um objetivo: compreender como os humanos gerem a autonomia dos agentes na prática.
Resultados principais
| Métrica | Valor |
|---|---|
| Duração máxima autónoma (percentil 99.9) | ~45 minutos (duplicado em 3 meses) |
| Auto-approve (utilizadores experientes) | 40%+ (vs 20% para os novos) |
| Quota de engenharia de software no tráfego API | ~50% |
| Ações com salvaguardas | 80% |
| Ações com humano no loop | 73% |
| Ações irreversíveis | 0.8% |
Uma conclusão contraintuitiva: os utilizadores experientes aumentam tanto a taxa de auto-approve COMO a taxa de interrupção. Passam de uma supervisão ação por ação para uma monitorização ativa com intervenção direcionada. Além disso, o Claude para para pedir esclarecimentos mais frequentemente do que os humanos o interrompem, particularmente em tarefas complexas.
O estudo conclui que existe uma lacuna significativa entre capacidade e uso: a autonomia que os modelos são capazes de gerir excede largamente a que lhes é concedida na prática — um fenómeno que os investigadores chamam de “excedente de autonomia não implantada”.
Anthropic: parcerias com Ruanda e Infosys
17 de fevereiro — Paralelamente ao lançamento do Sonnet 4.6, a Anthropic assina um memorando de entendimento com o governo do Ruanda para implantar o Claude nos setores da saúde, educação e administração pública. A parceria, liderada com o Ministério das TIC e Inovação, inclui a formação de funcionários públicos e a implantação de um companheiro de aprendizagem de IA em oito países africanos.
A Anthropic anuncia também uma colaboração com a Infosys para construir agentes de IA destinados às telecomunicações e outras indústrias reguladas.
Qwen3.5-397B-A17B: primeiro open-weight da série 3.5
16 de fevereiro — A Alibaba Qwen publica Qwen3.5-397B-A17B, o primeiro modelo open-weight da série Qwen3.5. Trata-se de um avanço significativo com uma arquitetura híbrida que combina atenção linear e Mixture-of-Experts (MoE) esparsa.
| Característica | Detalhes |
|---|---|
| Parâmetros totais | 397B (arquitetura híbrida MoE) |
| Arquitetura | Atenção linear híbrida + MoE esparsa |
| Throughput | 8.6x a 19.0x superior ao Qwen3-Max |
| Línguas | 201 línguas e dialetos |
| Licença | Apache 2.0 |
| Treino | Aprendizagem por reforço em larga escala |
| Especialidade | Nativo multimodal, agentes reais |
O modelo está disponível imediatamente no Hugging Face, ModelScope, Alibaba Cloud Model Studio e através do Qwen Code. Com 201 línguas suportadas e uma licença Apache 2.0, é um dos modelos open-weight mais ambiciosos do momento em termos de cobertura linguística e throughput de inferência.
Google Lyria 3: a geração musical chega ao Gemini
18 de fevereiro — A Google e a DeepMind apresentam o Lyria 3, um modelo de geração musical por IA integrado diretamente na aplicação Gemini. Os utilizadores podem criar faixas musicais de 30 segundos a partir de prompts de texto, fotos ou vídeos, com geração de letras personalizadas.
| Funcionalidade | Detalhes |
|---|---|
| Entradas | Texto, imagens, vídeos |
| Saída | Faixas de áudio de 30 segundos |
| Personalização | Estilos musicais variados, letras geradas |
| Disponibilidade | Beta no Gemini (18+ anos) |
O Lyria 3 demonstra uma flexibilidade notável nas combinações de instrumentos e géneros, permitindo criações que vão desde jingles a composições lo-fi. A implantação mundial é progressiva.
OpenAI EVMbench: benchmark de segurança para smart contracts
18 de fevereiro — A OpenAI e a Paradigm lançam o EVMbench, um benchmark que avalia a capacidade dos agentes de IA para detetar, corrigir e explorar vulnerabilidades em smart contracts Ethereum. O benchmark baseia-se em 120 vulnerabilidades curadas provenientes de 40 auditorias (principalmente competições Code4rena).
| Modo | Descrição | GPT-5.3-Codex | GPT-5 (6 meses) |
|---|---|---|---|
| Exploit | Executar ataques de drenagem | 72.2% | 31.9% |
| Detect | Auditar e detetar vulnerabilidades | < cobertura completa | - |
| Patch | Corrigir preservando a funcionalidade | < cobertura completa | - |
Uma conclusão interessante: os agentes de IA têm mais sucesso na exploração (objetivo explícito) do que na deteção e correção, onde frequentemente desistem após a primeira vulnerabilidade encontrada. A OpenAI reafirma o seu compromisso de $10M em créditos API para a cibersegurança defensiva.
Relatório Técnico GLM-5: Z.ai documenta o seu modelo
18 de fevereiro — A Z.ai publica o relatório técnico completo do GLM-5, detalhando as inovações arquiteturais do modelo lançado a 11 de fevereiro (744B parâmetros, 40B ativos, licença MIT).
Três inovações chave documentadas: Dynamic Sparse Attention (DSA) para reduzir os custos de treino e inferência, uma infraestrutura RL assíncrona que dissocia a geração e o treino, e algoritmos RL para agentes que permitem interações complexas e de longo horizonte. O relatório está disponível no arXiv.
🔗 Tweet @Zai_org · 🔗 arXiv
Cohere Labs Tiny Aya: IA multilingue ultracompacta
17 de fevereiro — A Cohere Labs apresenta o Tiny Aya, uma família de pequenos modelos de linguagem que suportam 70+ línguas com apenas 3.35 mil milhões de parâmetros. O objetivo: tornar a IA multilingue acessível em todo o lado, incluindo em telemóveis e offline.
O Tiny Aya dirige-se a três públicos: investigadores que trabalham em línguas não inglesas, programadores que constroem para comunidades digitalmente desfavorecidas e aplicações integradas que requerem tradução fiável sem dependência da cloud. O modelo inclui uma capacidade de tradução offline, melhorando a privacidade e reduzindo a latência.
Runway Gen-4.5 disponível via API + Claude Code Skill
17 de fevereiro — A Runway abre o acesso ao Gen-4.5 através da sua API, permitindo aos programadores integrar a geração de imagens, vídeo e áudio diretamente nos seus projetos. O anúncio é acompanhado por um Claude Code Skill dedicado, disponível no GitHub, que permite gerar conteúdo multimédia Runway sem sair do ambiente de desenvolvimento.
🔗 Tweet @runwayml · 🔗 GitHub Skills
Manus Agents: agente pessoal com memória de longo prazo
16 de fevereiro — A Manus lança Manus Agents, uma capacidade que permite a cada utilizador dispor de um agente pessoal diretamente nas conversas de chat. O agente combina memória de longo prazo (estilo, tom e preferências mantidas), capacidades completas de criação (vídeos, slides, sites, imagens) e integrações diretas com Gmail, Calendar e Notion.
ElevenAgents for Support
17 de fevereiro — A ElevenLabs lança ElevenAgents for Support, agentes conversacionais de IA para o apoio ao cliente. A funcionar em voz e canais digitais em mais de 70 línguas, estes agentes baseiam-se na plataforma agêntica da ElevenLabs e nos seus mais de 4 milhões de implementações em produção.
NotebookLM x Zillow: caderno imobiliário
18 de fevereiro — O NotebookLM lança em parceria com a Zillow um Featured Notebook gratuito para compradores de imóveis, centralizando os conselhos de especialistas sobre preparação financeira, avaliação do mercado e procedimentos de compra.
O que isto significa
Esta semana ilustra duas tendências principais. A primeira é a democratização dos desempenhos frontier: o Sonnet 4.6 traz capacidades Opus a uma tarifa 5 vezes inferior, enquanto o Qwen3.5 torna acessível um modelo de 397B parâmetros em Apache 2.0. A segunda é a expansão dos agentes de IA em novas áreas — o estudo da Anthropic mostra que as sessões autónomas mais longas duplicaram em três meses, e atores como Manus, ElevenLabs e Runway estão a construir agentes especializados (chat pessoal, apoio ao cliente, criação multimédia).
A chegada da geração musical no Gemini com o Lyria 3 e o benchmark EVMbench para a segurança blockchain mostram também que a IA generativa e a IA de segurança continuam a estruturar-se como campos de pleno direito.
Fontes
- Introducing Claude Sonnet 4.6 — Anthropic
- Measuring AI agent autonomy in practice — Anthropic
- Anthropic + Rwanda MOU
- Qwen3.5-397B-A17B — @Alibaba_Qwen
- Lyria 3 — @GoogleAI
- EVMbench — OpenAI
- GLM-5 Technical Report — @Zai_org
- Tiny Aya — @cohere
- Runway Gen-4.5 API — @runwayml
- Manus Agents — @ManusAI
- ElevenAgents for Support — ElevenLabs
- NotebookLM x Zillow — @NotebookLM
- Pesquisa web melhorada com filtragem dinâmica — Claude Blog
- Claude API improvements — @claudeai