MiniMax släpper M2.5, en open-source frontier-modell som når 80.2% i SWE-Bench Verified. Kling lanserar sin 3.0-modell med 1080p video och realistisk dialog. Inom forskning rullar Perplexity ut Model Council för att köra tre modeller samtidigt, och kör Deep Research på Claude Opus 4.6. Mistral tillkännager sitt största globala hackathon med $200K i priser.
MiniMax M2.5 — open-source frontier-modell
12 februari — MiniMax tillkännager M2.5, en open-source frontier-modell designad för verklig produktivitet. Modellen uppvisar state-of-the-art-prestanda inom fyra kritiska områden: kodning, web search, agentic tool calls och kontorsarbete.
| Benchmark | Poäng | Kategori |
|---|---|---|
| SWE-Bench Verified | 80.2% | Lösning av verkliga buggar |
| BrowseComp | 76.3% | Webbsökning och navigering |
| BFCL | 76.8% | Agentic tool calls |
| Office Work | Optimerad | Dokumentproduktivitet |
Poängen på 80.2% i SWE-Bench Verified placerar M2.5 bland de bästa kodningsmodellerna i alla kategorier. På BrowseComp, OpenAI:s webbnavigeringsbenchmark, når den 76.3% — ett tecken på solid autonom sökkapacitet.
MiniMax hävdar en exekvering som är 37% snabbare på komplexa uppgifter jämfört med konkurrerande modeller, till en kostnad av $1 USD per timme vid 100 tokens/sekund. Det uttalade målet: att göra skalning av long-horizon-agenter ekonomiskt hållbar.
Modellen är tillgänglig via MiniMax Agent (agent.minimax.io) och utvecklar-API:et (platform.minimax.io). Som en open-source frontier-modell positionerar sig M2.5 direkt mot ledande proprietära modeller.
🔗 Tillkännagivande MiniMax M2.5
MiniMax Forge — RL-ramverk för produktionsagenter
12 februari — Parallellt med M2.5 släpper MiniMax Forge, ett skalbart ramverk och algoritm för reinforcement learning (RL) för att träna AI-agenter för produktion.
Forge adresserar ett återkommande problem vid träning av agenter: instabiliteten i lärande i stor skala. Ramverket föreslår en optimerad metod för reward modeling av agenter, riktad till ML-utvecklare och forskare som driftsätter autonoma agenter.
Det dubbla tillkännagivandet M2.5 + Forge signalerar MiniMax ambition att erbjuda en komplett stack för AI-agenter: frontier-modell + träningsramverk.
Kling 3.0 — « Everyone a Director »
1 februari — Kling AI lanserar sin 3.0-modell, en stor uppdatering av sin videogenereringsmotor positionerad kring konceptet « Everyone a Director ». Modellen syftar till att göra filmskapande tillgängligt utan teknisk expertis.
De huvudsakliga förbättringarna gäller visuell kvalitet och realism i mänskliga interaktioner:
| Kapacitet | Detalj |
|---|---|
| Upplösning | 1080p native |
| Dialog | Realistiska ansiktsuttryck och gester |
| Koherens | Visuell stil bibehållen över långa sekvenser |
| Flexibilitet | Från enkel prompt till fullständig filmisk storyboard |
Feedback från den kreativa gemenskapen är positiv, särskilt gällande realismen i dialoger och förmågan att producera scener med övertygande mänskliga interaktioner — en historisk svaghet hos AI-videomodeller.
Perplexity lanserar Model Council — multi-model search
5 februari — Perplexity rullar ut Model Council, en funktion som kör samma fråga på tre frontier-modeller samtidigt och producerar ett enda syntetiserat svar.
Istället för att manuellt växla mellan modeller, kör Model Council frågan parallellt på Claude Opus 4.6, GPT 5.2 och Gemini 3.0. En syntetiseringsmodell analyserar resultaten, löser konflikter mellan svaren och visar var modellerna konvergerar eller divergerar.
| Användningsfall | Detalj |
|---|---|
| Investering | Balanserade perspektiv på marknader |
| Komplexa beslut | Affärsstrategi, stora inköp |
| Brainstorming | Diversifierade kreativa idéer |
| Verifiering | Validera information med ökat förtroende |
Funktionen är tillgänglig omedelbart på webben för Perplexity Max-prenumeranter. Mobilversionen är under utveckling.
Perplexity Deep Research går till Opus 4.6
9 februari — Perplexity meddelar att Deep Research nu körs på Claude Opus 4.6, vilket förbättrar state-of-the-art-resultat på interna och externa benchmarks. Uppgraderingen stärker resonemangsförmågan i djupgående forskning.
Funktionen är tillgänglig omedelbart för Max-användare, med en gradvis utrullning till Pro-användare.
🔗 Tillkännagivande Deep Research Opus 4.6
Perplexity publicerar DRACO Benchmark som open-source
4 februari — Perplexity offentliggör DRACO, ett open-source benchmark designat för att utvärdera verktyg för djupgående forskning (Deep Research). Rubriker och fullständig metodik är tillgängliga offentligt.
DRACO validerar att Perplexity Deep Research når state-of-the-art-prestanda på externa benchmarks, och överträffar andra verktyg för djupgående forskning i precision och tillförlitlighet.
Mistral tillkännager sitt största hackathon — $200K i priser
10 februari — Mistral AI lanserar sitt största globala hackathon någonsin, planerat från 28 februari till 1 mars 2026.
| Detalj | Information |
|---|---|
| Format | 48 timmar |
| Platser | Paris, London, New York, San Francisco, Tokyo, Singapore, Sydney + online |
| Priser | $200K i belöningar |
| Partners | NVIDIA, AWS, Weights & Biases, Hugging Face |
| Specialpriser | ElevenLabs, Hugging Face |
Evenemanget äger rum samtidigt i 8 städer och online. Listan över partners (NVIDIA, AWS, WandB, Hugging Face) signalerar förtroendet från det stora AI-ekosystemet för Mistral-plattformen.
🔗 Tillkännagivande Mistral Hackathon
Cohere skriver kontrakt med Magnus Carlsen som ambassadör
13 februari — Cohere tillkännager ett partnerskap med Magnus Carlsen, femfaldig världsmästare i schack och världsetta, som global varumärkesambassadör.
Carlsen kommer att delta i synlighetskampanjer, thought leadership-initiativ och högprofilerade evenemang för Cohere. Partnerskapet syftar till att illustrera parallellerna mellan strategi i schack och Coheres inställning till Enterprise AI: fokus på grunderna, anticipering och hållbara fördelar.
🔗 Tillkännagivande Cohere + Magnus Carlsen
I korthet
12 februari — Runway lanserar Story Panels, ett nytt workflow som gör det möjligt att skapa fullständiga filmer eller reklamfilmer från en enda bild, med koherens i karaktärer, platser och stil.
12-13 februari — Mooncake, en PyTorch-minnesallokator samutvecklad av Moonshot AI (Kimi) och Tsinghua University, ansluter sig till PyTorch-ekosystemet. Verktyget optimerar minskning av minnesspikar och fragmentering, relevant för driftsättning av long-context LLM.
9 februari — Ideogram lyfter fram sin bildredigering via prompt i naturligt språk, vilket möjliggör modifiering av genererade bilder via enkla textinstruktioner.
30 januari — Perplexity integrerar Kimi K2.5, open-source resonemangsmodellen från Moonshot AI, för sina Pro- och Max-prenumeranter. Inferensen körs på Perplexitys egen infrastruktur i USA.
4 februari — MiniMax och Hyperbond Studio tillkännager ett partnerskap för att utveckla konversationella AI-kompanjoner med « Call Me Sensei », med användning av LLM och agent-API:er från MiniMax.
Vad detta innebär
Första halvan av februari 2026 bekräftar flera grundläggande trender. MiniMax M2.5 bevisar att en mindre omtalad aktör kan publicera en open-source-modell som konkurrerar med ledarna på kodningsbenchmarks — 80.2% i SWE-Bench Verified är en anmärkningsvärd poäng för en öppen modell. Med Forge som komplement erbjuder MiniMax en komplett agent-stack.
Perplexity accelererar sin differentiering med Model Council, ett pragmatiskt tillvägagångssätt som erkänner att ingen enskild modell dominerar alla användningsfall. Integrationen av Opus 4.6 i Deep Research och publiceringen av DRACO som open-source stärker plattformens transparens och trovärdighet.
Kling 3.0 markerar ett framsteg inom videogenerering med realistiska dialoger — ett steg mot tillgängliga filmiska produktionsverktyg. På gemenskapssidan visar Mistral-hackathonet med $200K i 8 städer mognaden hos det europeiska open-source-ekosystemet.