Claude Sonnet 4.6, Qwen3.5-397B open-weight, Google lança Lyria 3

A Anthropic ataca com força com o Claude Sonnet 4.6, um modelo que rivaliza com o Opus em muitas tarefas ao preço do Sonnet. Paralelamente, a Qwen publica o seu primeiro modelo Qwen3.5 em open-weight com 397 mil milhões de parâmetros, e a Google integra o Lyria 3 — o seu modelo de geração musical — diretamente no Gemini.

Claude Sonnet 4.6: desempenho Opus ao preço Sonnet

17 de fevereiro — A Anthropic lança o Claude Sonnet 4.6, descrito como o Sonnet mais capaz até hoje. O modelo representa uma atualização completa em coding, uso de computador (computer use), raciocínio de contexto longo, planeamento de agentes, trabalho intelectual e design. Incorpora uma janela de contexto de 1 milhão de tokens em beta.

O posicionamento é claro: desempenhos que teriam exigido um modelo Opus estão agora acessíveis à tarifa Sonnet, ou seja, $3 /$ 15 por milhão de tokens (inalterado em relação ao Sonnet 4.5). O Sonnet 4.6 torna-se o modelo padrão nos planos Free e Pro no claude.ai e Claude Cowork.

Benchmarks e feedback dos utilizadores

No Claude Code, os testadores preferiram o Sonnet 4.6 ao Sonnet 4.5 cerca de 70% das vezes, relatando uma melhor leitura do contexto antes da modificação do código e uma consolidação da lógica partilhada em vez de a duplicar. Ainda mais notável: os utilizadores preferiram o Sonnet 4.6 ao Opus 4.5 (o modelo frontier de novembro de 2025) 59% das vezes, citando menos sobre-engenharia, menos “preguiça” e um melhor seguimento das instruções.

Benchmark	Pontuação
SWE-bench Verified	80.2% (com modificação de prompt)
OSWorld (computer use)	Progresso maior em 16 meses
OfficeQA	Iguala Opus 4.6
Vending-Bench Arena	Estratégia emergente de investimento/pivot

O computer use progride significativamente: o Sonnet 4.6 melhora também a resistência a prompt injections em comparação com o Sonnet 4.5, atingindo um nível comparável ao Opus 4.6.

Atualizações de produto associadas

O anúncio é acompanhado por vários lançamentos de disponibilidade geral na API Claude: execução de código, memória, chamadas de ferramentas programáticas, pesquisa de ferramentas e exemplos de uso de ferramentas. A pesquisa web e as ferramentas fetch integram agora uma filtragem dinâmica — o Claude escreve e executa automaticamente código para filtrar os resultados de pesquisa, mantendo apenas o conteúdo relevante no contexto.

🔗 Pesquisa web melhorada com filtragem dinâmica

Para os utilizadores do Claude no Excel, o suplemento suporta agora conectores MCP (S&P Global, LSEG, Daloopa, PitchBook, Moody’s, FactSet), disponível nos planos Pro, Max, Team e Enterprise.

🔗 Anúncio oficial

Anthropic mede a autonomia dos agentes de IA em condições reais

18 de fevereiro — A Anthropic publica um estudo que analisa milhões de interações humano-agente através do Claude Code e da API pública, com um objetivo: compreender como os humanos gerem a autonomia dos agentes na prática.

Resultados principais

Métrica	Valor
Duração máxima autónoma (percentil 99.9)	~45 minutos (duplicado em 3 meses)
Auto-approve (utilizadores experientes)	40%+ (vs 20% para os novos)
Quota de engenharia de software no tráfego API	~50%
Ações com salvaguardas	80%
Ações com humano no loop	73%
Ações irreversíveis	0.8%

Uma conclusão contraintuitiva: os utilizadores experientes aumentam tanto a taxa de auto-approve COMO a taxa de interrupção. Passam de uma supervisão ação por ação para uma monitorização ativa com intervenção direcionada. Além disso, o Claude para para pedir esclarecimentos mais frequentemente do que os humanos o interrompem, particularmente em tarefas complexas.

O estudo conclui que existe uma lacuna significativa entre capacidade e uso: a autonomia que os modelos são capazes de gerir excede largamente a que lhes é concedida na prática — um fenómeno que os investigadores chamam de “excedente de autonomia não implantada”.

🔗 Estudo completo

Anthropic: parcerias com Ruanda e Infosys

17 de fevereiro — Paralelamente ao lançamento do Sonnet 4.6, a Anthropic assina um memorando de entendimento com o governo do Ruanda para implantar o Claude nos setores da saúde, educação e administração pública. A parceria, liderada com o Ministério das TIC e Inovação, inclui a formação de funcionários públicos e a implantação de um companheiro de aprendizagem de IA em oito países africanos.

A Anthropic anuncia também uma colaboração com a Infosys para construir agentes de IA destinados às telecomunicações e outras indústrias reguladas.

🔗 Parceria com o Ruanda

Qwen3.5-397B-A17B: primeiro open-weight da série 3.5

16 de fevereiro — A Alibaba Qwen publica Qwen3.5-397B-A17B, o primeiro modelo open-weight da série Qwen3.5. Trata-se de um avanço significativo com uma arquitetura híbrida que combina atenção linear e Mixture-of-Experts (MoE) esparsa.

Característica	Detalhes
Parâmetros totais	397B (arquitetura híbrida MoE)
Arquitetura	Atenção linear híbrida + MoE esparsa
Throughput	8.6x a 19.0x superior ao Qwen3-Max
Línguas	201 línguas e dialetos
Licença	Apache 2.0
Treino	Aprendizagem por reforço em larga escala
Especialidade	Nativo multimodal, agentes reais

O modelo está disponível imediatamente no Hugging Face, ModelScope, Alibaba Cloud Model Studio e através do Qwen Code. Com 201 línguas suportadas e uma licença Apache 2.0, é um dos modelos open-weight mais ambiciosos do momento em termos de cobertura linguística e throughput de inferência.

🔗 Tweet @Alibaba_Qwen

Google Lyria 3: a geração musical chega ao Gemini

18 de fevereiro — A Google e a DeepMind apresentam o Lyria 3, um modelo de geração musical por IA integrado diretamente na aplicação Gemini. Os utilizadores podem criar faixas musicais de 30 segundos a partir de prompts de texto, fotos ou vídeos, com geração de letras personalizadas.

Funcionalidade	Detalhes
Entradas	Texto, imagens, vídeos
Saída	Faixas de áudio de 30 segundos
Personalização	Estilos musicais variados, letras geradas
Disponibilidade	Beta no Gemini (18+ anos)

O Lyria 3 demonstra uma flexibilidade notável nas combinações de instrumentos e géneros, permitindo criações que vão desde jingles a composições lo-fi. A implantação mundial é progressiva.

🔗 Tweet @GoogleAI

OpenAI EVMbench: benchmark de segurança para smart contracts

18 de fevereiro — A OpenAI e a Paradigm lançam o EVMbench, um benchmark que avalia a capacidade dos agentes de IA para detetar, corrigir e explorar vulnerabilidades em smart contracts Ethereum. O benchmark baseia-se em 120 vulnerabilidades curadas provenientes de 40 auditorias (principalmente competições Code4rena).

Modo	Descrição	GPT-5.3-Codex	GPT-5 (6 meses)
Exploit	Executar ataques de drenagem	72.2%	31.9%
Detect	Auditar e detetar vulnerabilidades	< cobertura completa	-
Patch	Corrigir preservando a funcionalidade	< cobertura completa	-

Uma conclusão interessante: os agentes de IA têm mais sucesso na exploração (objetivo explícito) do que na deteção e correção, onde frequentemente desistem após a primeira vulnerabilidade encontrada. A OpenAI reafirma o seu compromisso de $10M em créditos API para a cibersegurança defensiva.

🔗 Anúncio do EVMbench

Relatório Técnico GLM-5: Z.ai documenta o seu modelo

18 de fevereiro — A Z.ai publica o relatório técnico completo do GLM-5, detalhando as inovações arquiteturais do modelo lançado a 11 de fevereiro (744B parâmetros, 40B ativos, licença MIT).

Três inovações chave documentadas: Dynamic Sparse Attention (DSA) para reduzir os custos de treino e inferência, uma infraestrutura RL assíncrona que dissocia a geração e o treino, e algoritmos RL para agentes que permitem interações complexas e de longo horizonte. O relatório está disponível no arXiv.

🔗 Tweet @Zai_org · 🔗 arXiv

Cohere Labs Tiny Aya: IA multilingue ultracompacta

17 de fevereiro — A Cohere Labs apresenta o Tiny Aya, uma família de pequenos modelos de linguagem que suportam 70+ línguas com apenas 3.35 mil milhões de parâmetros. O objetivo: tornar a IA multilingue acessível em todo o lado, incluindo em telemóveis e offline.

O Tiny Aya dirige-se a três públicos: investigadores que trabalham em línguas não inglesas, programadores que constroem para comunidades digitalmente desfavorecidas e aplicações integradas que requerem tradução fiável sem dependência da cloud. O modelo inclui uma capacidade de tradução offline, melhorando a privacidade e reduzindo a latência.

🔗 Tweet @cohere

Runway Gen-4.5 disponível via API + Claude Code Skill

17 de fevereiro — A Runway abre o acesso ao Gen-4.5 através da sua API, permitindo aos programadores integrar a geração de imagens, vídeo e áudio diretamente nos seus projetos. O anúncio é acompanhado por um Claude Code Skill dedicado, disponível no GitHub, que permite gerar conteúdo multimédia Runway sem sair do ambiente de desenvolvimento.

🔗 Tweet @runwayml · 🔗 GitHub Skills

Manus Agents: agente pessoal com memória de longo prazo

16 de fevereiro — A Manus lança Manus Agents, uma capacidade que permite a cada utilizador dispor de um agente pessoal diretamente nas conversas de chat. O agente combina memória de longo prazo (estilo, tom e preferências mantidas), capacidades completas de criação (vídeos, slides, sites, imagens) e integrações diretas com Gmail, Calendar e Notion.

🔗 Tweet @ManusAI

ElevenAgents for Support

17 de fevereiro — A ElevenLabs lança ElevenAgents for Support, agentes conversacionais de IA para o apoio ao cliente. A funcionar em voz e canais digitais em mais de 70 línguas, estes agentes baseiam-se na plataforma agêntica da ElevenLabs e nos seus mais de 4 milhões de implementações em produção.

🔗 ElevenLabs Agents

NotebookLM x Zillow: caderno imobiliário

18 de fevereiro — O NotebookLM lança em parceria com a Zillow um Featured Notebook gratuito para compradores de imóveis, centralizando os conselhos de especialistas sobre preparação financeira, avaliação do mercado e procedimentos de compra.

🔗 Tweet @NotebookLM

O que isto significa

Esta semana ilustra duas tendências principais. A primeira é a democratização dos desempenhos frontier: o Sonnet 4.6 traz capacidades Opus a uma tarifa 5 vezes inferior, enquanto o Qwen3.5 torna acessível um modelo de 397B parâmetros em Apache 2.0. A segunda é a expansão dos agentes de IA em novas áreas — o estudo da Anthropic mostra que as sessões autónomas mais longas duplicaram em três meses, e atores como Manus, ElevenLabs e Runway estão a construir agentes especializados (chat pessoal, apoio ao cliente, criação multimédia).

A chegada da geração musical no Gemini com o Lyria 3 e o benchmark EVMbench para a segurança blockchain mostram também que a IA generativa e a IA de segurança continuam a estruturar-se como campos de pleno direito.