MiniMax M2.5 atinge 80% no SWE-Bench open-source, Kling 3.0 transforma vídeo com IA, Perplexity lança Model Council

MiniMax publica M2.5, um modelo frontier open-source que atinge 80,2% no SWE-Bench Verified. Kling lança seu modelo 3.0 com vídeo 1080p e diálogo realista. No lado da pesquisa, Perplexity implanta Model Council para executar três modelos simultaneamente, e roda Deep Research no Claude Opus 4.6. Mistral anuncia seu maior hackathon mundial com US$ 200 mil em prêmios.

MiniMax M2.5 — modelo frontier open-source

12 de fevereiro — MiniMax anuncia M2.5, um modelo frontier open-source projetado para produtividade real. O modelo exibe desempenho state-of-the-art em quatro áreas críticas: codificação, pesquisa web, chamadas de ferramentas agentic e trabalho de escritório.

Benchmark	Pontuação	Categoria
SWE-Bench Verified	80,2%	Resolução de bugs reais
BrowseComp	76,3%	Pesquisa e navegação web
BFCL	76,8%	Chamadas de ferramentas agentic
Office Work	Otimizado	Produttività documental

A pontuação de 80,2% no SWE-Bench Verified coloca o M2.5 entre os melhores modelos de codificação em todas as categorias. No BrowseComp, o benchmark de navegação web da OpenAI, atinge 76,3% — sinal de uma sólida capacidade de pesquisa autônoma.

MiniMax reivindica uma execução 37% mais rápida em tarefas complexas em comparação com modelos concorrentes, com um custo de US$ 1 por hora a 100 tokens/segundo. O objetivo declarado: tornar economicamente viável o scaling de agentes long-horizon.

O modelo está disponível via MiniMax Agent (agent.minimax.io) e API para desenvolvedores (platform.minimax.io). Como modelo open-source frontier, o M2.5 se posiciona diretamente contra os principais modelos proprietários.

🔗 Anúncio MiniMax M2.5

MiniMax Forge — framework RL para agentes de produção

12 de fevereiro — Paralelamente ao M2.5, MiniMax publica Forge, um framework e algoritmo de aprendizado por reforço (RL) escalável para treinar agentes de IA de produção.

Forge aborda um problema recorrente no treinamento de agentes: a instabilidade do aprendizado em larga escala. O framework oferece uma abordagem otimizada para o reward modeling de agentes, visando desenvolvedores e pesquisadores de ML que implantam agentes autônomos.

O anúncio duplo M2.5 + Forge sinaliza a ambição da MiniMax de oferecer uma stack completa para agentes de IA: modelo frontier + framework de treinamento.

🔗 Forge no MiniMax News

Kling 3.0 — “Everyone a Director”

1º de fevereiro — Kling AI lança seu modelo 3.0, uma atualização importante de seu motor de geração de vídeo posicionado em torno do conceito “Everyone a Director” (Todos diretores). O modelo visa tornar a criação cinematográfica acessível sem conhecimento técnico.

As principais melhorias concentram-se na qualidade visual e no realismo das interações humanas:

Capacidade	Detalhe
Resolução	1080p nativo
Diálogo	Expressões faciais e gestos realistas
Coerência	Estilo visual mantido em sequências longas
Flexibilidade	Do prompt simples ao storyboard cinematográfico completo

O feedback da comunidade criativa é positivo, especialmente sobre o realismo dos diálogos e a capacidade de produzir cenas com interações humanas convincentes — um ponto fraco histórico dos modelos de vídeo de IA.

🔗 Anúncio Kling 3.0

Perplexity lança Model Council — pesquisa multi-modelo

5 de fevereiro — Perplexity implanta Model Council, um recurso que executa a mesma consulta em três modelos frontier simultaneamente e produz uma única resposta sintetizada.

Em vez de alternar manualmente entre modelos, o Model Council executa a consulta no Claude Opus 4.6, GPT 5.2 e Gemini 3.0 em paralelo. Um modelo sintetizador analisa os resultados, resolve conflitos entre as respostas e mostra onde os modelos convergem ou divergem.

Caso de uso	Detalhe
Investimento	Perspectivas de mercado equilibradas
Decisões complexas	Estratégia de negócios, grandes compras
Brainstorming	Ideias criativas diversificadas
Verificação	Validar informações com maior confiança

O recurso está disponível imediatamente na web para assinantes Perplexity Max. A versão móvel está em desenvolvimento.

🔗 Introducing Model Council

Perplexity Deep Research muda para Opus 4.6

9 de fevereiro — Perplexity anuncia que Deep Research agora roda no Claude Opus 4.6, melhorando resultados state-of-the-art em benchmarks internos e externos. A atualização reforça as capacidades de raciocínio em pesquisa profunda.

O recurso está disponível imediatamente para usuários Max, com um lançamento progressivo para usuários Pro.

🔗 Anúncio Deep Research Opus 4.6

Perplexity lança DRACO Benchmark como open-source

4 de fevereiro — Perplexity torna público o DRACO, um benchmark open-source projetado para avaliar ferramentas de pesquisa profunda (Deep Research). As rubricas e a metodologia completa estão disponíveis publicamente.

DRACO valida que o Perplexity Deep Research atinge desempenho state-of-the-art em benchmarks externos, superando outras ferramentas de pesquisa profunda em precisão e confiabilidade.

🔗 Anúncio DRACO

Mistral anuncia seu maior hackathon — US$ 200 mil em prêmios

10 de fevereiro — Mistral AI lança seu maior hackathon global já organizado, programado de 28 de fevereiro a 1º de março de 2026.

Detalhe	Informação
Formato	48 horas
Locais	Paris, Londres, Nova York, São Francisco, Tóquio, Cingapura, Sydney + online
Prêmios	US$ 200 mil em recompensas
Parceiros	NVIDIA, AWS, Weights & Biases, Hugging Face
Prêmios especiais	ElevenLabs, Hugging Face

O evento acontece simultaneamente em 8 cidades e online. A lista de parceiros (NVIDIA, AWS, WandB, Hugging Face) sinaliza a confiança do principal ecossistema de IA na plataforma Mistral.

🔗 Anúncio Mistral Hackathon

Cohere assina com Magnus Carlsen como embaixador

13 de fevereiro — Cohere anuncia uma parceria com Magnus Carlsen, cinco vezes Campeão Mundial de Xadrez e número 1 do mundo, como embaixador global da marca.

Carlsen participará de campanhas de visibilidade, iniciativas de thought leadership e eventos de alto perfil da Cohere. A parceria visa ilustrar os paralelos entre a estratégia no xadrez e a abordagem da Cohere para IA empresarial: foco nos fundamentos, antecipação e vantagens sustentáveis.

🔗 Anúncio Cohere + Magnus Carlsen

Em breve

12 de fevereiro — Runway lança Story Panels, um novo fluxo de trabalho que permite criar filmes completos ou anúncios a partir de uma única imagem, com consistência de personagens, locais e estilo.

🔗 Runway Story Panels

12-13 de fevereiro — Mooncake, um alocador de memória PyTorch codesenvolvido pela Moonshot AI (Kimi) e pela Universidade Tsinghua, junta-se ao ecossistema PyTorch. A ferramenta otimiza a redução de picos de memória e a fragmentação, relevante para a implantação de LLM long-context.

🔗 Anúncio Mooncake

9 de fevereiro — Ideogram destaca sua edição de imagens via prompt em linguagem natural, permitindo modificar imagens geradas através de instruções de texto simples.

30 de janeiro — Perplexity integra Kimi K2.5, o modelo de raciocínio open-source da Moonshot AI, para seus assinantes Pro e Max. A inferência roda na infraestrutura própria da Perplexity nos EUA.

4 de fevereiro — MiniMax e Hyperbond Studio anunciam uma parceria para desenvolver companheiros de IA conversacionais com “Call Me Sensei”, usando LLMs e APIs de agentes da MiniMax.

O que isso significa

A primeira quinzena de fevereiro de 2026 confirma várias tendências de fundo. MiniMax M2.5 prova que um player menos divulgado pode lançar um modelo open-source rivalizando com os líderes em benchmarks de codificação — 80,2% no SWE-Bench Verified é uma pontuação notável para um modelo aberto. Com Forge como complemento, MiniMax oferece uma stack de agentes completa.

Perplexity acelera sua diferenciação com Model Council, uma abordagem pragmática que reconhece que nenhum modelo único domina todos os casos de uso. A integração do Opus 4.6 no Deep Research e a publicação do DRACO como open-source reforçam a transparência e a credibilidade da plataforma.

Kling 3.0 marca um avanço na geração de vídeo com diálogos realistas — um passo em direção a ferramentas de produção cinematográfica acessíveis. No lado da comunidade, o hackathon da Mistral de US$ 200 mil em 8 cidades mostra a maturidade do ecossistema open-source europeu.