A Z.ai lança o GLM-5, o seu novo modelo emblemático open-source com 744 mil milhões de parâmetros sob licença MIT, que ascende ao primeiro lugar dos modelos open-source em codificação e tarefas agênticas. A Anthropic publica um relatório de riscos de sabotagem ASL-4 para o Opus 4.6, a OpenAI enriquece a sua API com primitivas agênticas, e a Kimi revela um sistema de 100 subagentes paralelos. Do lado do ecossistema, a Runway angaria 315 milhões de dólares e a ElevenLabs lança um modo expressivo para os seus agentes de voz.
Z.ai lança GLM-5: 744B parâmetros, open-source sob licença MIT
11 de fevereiro — A Z.ai (Zhipu AI) lança o GLM-5, o seu novo modelo de fronteira concebido para a engenharia de sistemas complexos e tarefas agênticas de longa duração. Em comparação com o GLM-4.5, o modelo passa de 355B parâmetros (32B ativos) para 744B parâmetros (40B ativos), com dados de pré-treino que aumentam de 23T para 28,5T tokens.
O GLM-5 integra DeepSeek Sparse Attention (DSA) para reduzir os custos de implementação preservando a capacidade de contexto longo, e introduz “slime”, uma infraestrutura de aprendizagem por reforço assíncrona que melhora o rendimento pós-treino.
| Benchmark | GLM-5 | GLM-4.7 | Kimi K2.5 | Claude Opus 4.5 | Gemini 3 Pro |
|---|---|---|---|---|---|
| SWE-bench Verified | 77,8% | 73,8% | 76,8% | 80,9% | 76,2% |
| HLE (text) | 30,5 | 24,8 | 31,5 | 28,4 | 37,2 |
| HLE w/ Tools | 50,4 | 42,8 | 51,8 | 43,4 | 45,8 |
| Terminal-Bench 2.0 | 56,2 | 41,0 | 50,8 | 59,3 | 54,2 |
| Vending Bench 2 | $4 432 | $2 377 | $1 198 | $4 967 | $5 478 |
O GLM-5 posiciona-se como o melhor modelo open-source em raciocínio, codificação e tarefas agênticas, fechando a lacuna com os modelos de fronteira proprietários. No Vending Bench 2, um benchmark que simula a gestão de uma máquina de venda automática durante um ano, o GLM-5 termina com um saldo de 4 967).
Para além do código, o GLM-5 pode gerar diretamente ficheiros .docx, .pdf e .xlsx — propostas, relatórios financeiros, folhas de cálculo — entregues chave na mão. A Z.ai implementa um modo Agente com competências integradas para a criação de documentos, suportando a colaboração em vários turnos.
Os pesos do modelo são publicados no Hugging Face sob licença MIT. O GLM-5 é compatível com Claude Code e OpenClaw, e está disponível no OpenRouter. A implementação é progressiva, começando pelos subscritores do Coding Plan Max.
🔗 Blog técnico GLM-5 🔗 Anúncio no X
Anthropic publica o primeiro relatório de riscos de sabotagem ASL-4
11 de fevereiro — A Anthropic publica um relatório de riscos de sabotagem para o Claude Opus 4.6, em antecipação do limiar de segurança ASL-4 (AI Safety Level 4) para a I&D autónoma em IA.
Aquando do lançamento do Claude Opus 4.5, a Anthropic comprometeu-se a redigir relatórios de riscos de sabotagem para cada novo modelo de fronteira. Em vez de navegar em limiares vagos, a empresa escolheu respeitar proativamente o padrão de segurança ASL-4 mais elevado.
| Elemento | Detalhe |
|---|---|
| Modelo avaliado | Claude Opus 4.6 |
| Limiar de segurança | ASL-4 (AI Safety Level 4) |
| Domínio | I&D autónoma em IA |
| Formato | Relatório PDF público |
| Precedente | Compromisso assumido durante o lançamento do Opus 4.5 |
Este é um passo significativo na transparência da segurança da IA: a Anthropic é um dos primeiros laboratórios a publicar tal relatório de sabotagem para um modelo em produção.
When we released Claude Opus 4.5, we knew future models would be close to our AI Safety Level 4 threshold for autonomous AI R&D. We therefore committed to writing sabotage risk reports for future frontier models. Today we’re delivering on that commitment for Claude Opus 4.6.
🇵🇹 Quando lançámos o Claude Opus 4.5, sabíamos que os futuros modelos estariam próximos do nosso limiar AI Safety Level 4 para a I&D autónoma em IA. Por conseguinte, comprometemo-nos a escrever relatórios de riscos de sabotagem para futuros modelos de fronteira. Hoje cumprimos esse compromisso para o Claude Opus 4.6. — @AnthropicAI no X
OpenAI: novas primitivas agênticas na API Responses
10 de fevereiro — A OpenAI introduz três novas primitivas na API Responses para o trabalho agêntico de longa duração.
Compactação do lado do servidor
Permite sessões de agentes de várias horas sem atingir os limites de contexto. A compactação é gerida do lado do servidor. Triple Whale, um testador em acesso antecipado, relata ter realizado 150 chamadas de ferramentas e 5 milhões de tokens numa única sessão sem perda de precisão.
Contentores com redes
Os contentores alojados pela OpenAI podem agora aceder à internet de forma controlada. Os administradores definem uma lista branca de domínios no painel, os pedidos devem definir explicitamente uma network_policy, e os segredos de domínio podem ser injetados sem expor os valores brutos ao modelo.
Competências na API
Suporte nativo do padrão Agent Skills com uma primeira competência pré-construída (folhas de cálculo). As competências são pacotes reutilizáveis e versionados que podem ser montados nos ambientes shell alojados, e os modelos decidem em tempo de execução se os devem invocar.
| Primitiva | Descrição | Estado |
|---|---|---|
| Compactação do lado do servidor | Sessões de várias horas sem limites de contexto | Disponível |
| Contentores com redes | Acesso internet controlado para contentores alojados | Disponível |
| Competências na API | Pacotes reutilizáveis (primeira competência: folhas de cálculo) | Disponível |
Kimi Agent Swarm: orquestração de 100 subagentes
10 de fevereiro — A Kimi (Moonshot AI) revela o Agent Swarm, uma capacidade de coordenação multiagente que permite paralelizar tarefas complexas com até 100 subagentes especializados.
O sistema pode executar mais de 1 500 chamadas de ferramentas e atinge uma velocidade 4,5x superior às execuções sequenciais. Os casos de uso cobrem a geração simultânea de múltiplos ficheiros (Word, Excel, PDF), a análise paralela de conteúdos e a geração criativa em vários estilos em paralelo. O Agent Swarm resolve um limite estrutural dos LLMs: a degradação do raciocínio durante tarefas longas que enchem o contexto.
OpenAI Harness Engineering: zero linhas de código manual com Codex
11 de fevereiro — A OpenAI publica uma experiência sobre a construção de um produto de software interno com zero linhas de código escritas manualmente. Durante 5 meses, uma equipa de 3 a 7 engenheiros utilizou exclusivamente o Codex para gerar todo o código.
| Métrica | Valor |
|---|---|
| Linhas de código geradas | ~1 milhão |
| Pull requests | ~1 500 |
| PRs por engenheiro por dia | 3,5 em média |
| Utilizadores internos | Várias centenas |
| Tempo estimado | 1/10 do tempo necessário à mão |
| Sessões Codex | Até 6+ horas |
A abordagem “Harness Engineering” redefine o papel do engenheiro: conceber ambientes, especificar a intenção e construir ciclos de feedback para os agentes, em vez de escrever código. A documentação estruturada no repositório serve de guia (AGENTS.md como índice), a arquitetura é rígida com linters e testes estruturais gerados pelo Codex, e tarefas recorrentes analisam desvios e abrem PRs de refatorização automaticamente.
Runway angaria 315 milhões de dólares na Série E
10 de fevereiro — A Runway anuncia uma angariação de fundos de 315 milhões de dólares na Série E, elevando a sua avaliação para 5,3 mil milhões de dólares. A ronda é liderada pela General Atlantic, com a participação da NVIDIA, Adobe Ventures, AMD Ventures, Fidelity, AllianceBernstein e outros.
| Detalhe | Valor |
|---|---|
| Montante | 315 M$ |
| Série | E |
| Avaliação | 5,3 mM na Série D) |
| Investidor principal | General Atlantic |
| Total angariado desde 2018 | 860 M$ |
Os fundos servirão para pré-treinar a próxima geração de “world models” — modelos capazes de simular o mundo físico — e implementá-los em novos produtos e indústrias. Este anúncio surge após o lançamento do Gen-4.5, o mais recente modelo de geração de vídeo da Runway.
🔗 Anúncio oficial 🔗 Post Runway no X
Cowork disponível no Windows
10 de fevereiro — O Claude Cowork, a aplicação desktop para tarefas de vários passos, está agora disponível no Windows em pré-visualização de investigação com paridade completa de funcionalidades em comparação com o macOS.
| Funcionalidade | Descrição |
|---|---|
| Acesso a ficheiros | Leitura e escrita de ficheiros locais |
| Plugins | Suporte para plugins Cowork |
| Conectores MCP | Integração com servidores MCP |
| Instruções por pasta | Estilo Claude.md — instruções em linguagem natural por projeto |
O Cowork no Windows está disponível para todos os planos Claude pagos através de claude.com/cowork.
Funcionalidades gratuitas no plano gratuito Claude
11 de fevereiro — A Anthropic expande as funcionalidades acessíveis no plano gratuito do Claude. A criação de ficheiros, os conectores, as competências e a compactação estão agora disponíveis sem subscrição. A compactação permite ao Claude resumir automaticamente o contexto anterior para que as longas conversas possam continuar sem reiniciar.
Claude Code Plan Mode no Slack
11 de fevereiro — A integração Claude Code no Slack recebe o Plan Mode. Quando se dá ao Claude uma tarefa de código no Slack, ele pode agora elaborar um plano antes de executar, permitindo validar a abordagem antes da implementação.
| Funcionalidade | Descrição |
|---|---|
| Plan Mode | Elaboração de um plano antes da execução |
| Deteção automática | Encaminhamento inteligente entre código e chat |
| Criação de PR | Botão “Create PR” diretamente a partir do Slack |
| Pré-requisitos | Plano Pro, Max, Team ou Enterprise + GitHub ligado |
ElevenLabs lança o modo Expressivo para os seus agentes de voz
10 de fevereiro — A ElevenLabs revela o Expressive Mode para ElevenAgents, uma evolução que torna os seus agentes de voz de IA capazes de adaptar o seu tom, emoção e ênfase em tempo real.
O modo baseia-se no Eleven v3 Conversational, um modelo de síntese de voz otimizado para o diálogo em tempo real, acoplado a um novo sistema de turnos que reduz as interrupções. O preço mantém-se em 0,08 $ por minuto. Paralelamente, a ElevenLabs reestrutura a sua plataforma em três famílias de produtos: ElevenAgents (agentes de voz), ElevenCreative (ferramentas criativas) e ElevenAPI (plataforma para programadores).
Kimi K2.5 integrado no Qoder
9 de fevereiro — A Qoder (plataforma de IA para programadores) implementa o Kimi K2.5 como modelo emblemático do seu marketplace, com uma pontuação SWE-bench Verified de 76,8% e uma tarifa vantajosa (0,3x crédito no nível Efficient). O fluxo de trabalho recomendado: usar os modelos pesados para o design e arquitetura, depois o K2.5 para a implementação.
O que isto significa
O open-source continua a progredir rapidamente em direção aos modelos de fronteira. O GLM-5 da Z.ai reduz a lacuna com o Claude Opus 4.5 e o GPT-5.2 nos benchmarks de codificação e tarefas agénticas, estando disponível sob licença MIT. A publicação do relatório de sabotagem ASL-4 pela Anthropic estabelece um precedente em matéria de transparência de segurança que outros laboratórios serão provavelmente levados a seguir.
Do lado dos programadores, as primitivas agénticas da OpenAI (compactação do servidor, contentores de rede, competências na API) e a abordagem “Harness Engineering” desenham um futuro onde os agentes autónomos gerem sessões de várias horas. O Kimi Agent Swarm leva esta lógica ainda mais longe com a orquestração de centenas de subagentes em paralelo.
Fontes
- Z.ai — Blog técnico GLM-5
- Z.ai — Anúncio GLM-5 no X
- Anthropic — Thread sobre o Relatório de Risco de Sabotagem
- OpenAIDevs — Primitivas agénticas
- OpenAI — Harness Engineering
- Kimi — Agent Swarm
- Runway — Financiamento Série E
- Claude — Cowork Windows
- Claude — Funcionalidades do plano gratuito
- Boris Cherny — Claude Code Slack
- ElevenLabs — Modo Expressivo
- Qoder — Kimi K2.5