MiniMax veröffentlicht M2.5, ein Frontier-Open-Source-Modell, das 80,2% im SWE-Bench Verified erreicht. Kling startet sein Modell 3.0 mit 1080p-Video und realistischem Dialog. Im Forschungsbereich führt Perplexity Model Council ein, um drei Modelle gleichzeitig auszuführen, und lässt Deep Research auf Claude Opus 4.6 laufen. Mistral kündigt seinen größten globalen Hackathon mit 200.000 $ an Preisen an.
MiniMax M2.5 — Frontier-Open-Source-Modell
12. Februar — MiniMax kündigt M2.5 an, ein Frontier-Open-Source-Modell, das für reale Produktivität entwickelt wurde. Das Modell zeigt State-of-the-Art-Leistung in vier kritischen Bereichen: Programmierung, Websuche, agentische Tool-Aufrufe und Büroarbeit.
| Benchmark | Ergebnis | Kategorie |
|---|---|---|
| SWE-Bench Verified | 80,2% | Behebung echter Fehler |
| BrowseComp | 76,3% | Websuche und Navigation |
| BFCL | 76,8% | Agentische Tool-Aufrufe |
| Office Work | Optimiert | Dokumentenproduktivität |
Das Ergebnis von 80,2% im SWE-Bench Verified platziert M2.5 unter den besten Programmiermodellen aller Kategorien. Auf BrowseComp, dem Web-Navigations-Benchmark von OpenAI, erreicht es 76,3% — ein Zeichen für solide autonome Suchfähigkeit.
MiniMax beansprucht eine 37% schnellere Ausführung bei komplexen Aufgaben im Vergleich zu Konkurrenzmodellen, bei Kosten von 1 USD pro Stunde bei 100 Token/Sekunde. Das erklärte Ziel: Die Skalierung von Long-Horizon-Agenten wirtschaftlich rentabel zu machen.
Das Modell ist über MiniMax Agent (agent.minimax.io) und die Entwickler-API (platform.minimax.io) verfügbar. Als Frontier-Open-Source-Modell positioniert sich M2.5 direkt gegen führende proprietäre Modelle.
MiniMax Forge — RL-Framework für Produktionsagenten
12. Februar — Parallel zu M2.5 veröffentlicht MiniMax Forge, ein skalierbares Reinforcement Learning (RL) Framework und Algorithmus zum Trainieren von KI-Produktionsagenten.
Forge adressiert ein wiederkehrendes Problem beim Agententraining: die Instabilität des Lernens in großem Maßstab. Das Framework bietet einen optimierten Ansatz für das Reward Modeling von Agenten und richtet sich an ML-Entwickler und Forscher, die autonome Agenten einsetzen.
Die doppelte Ankündigung von M2.5 + Forge signalisiert die Ambition von MiniMax, einen kompletten Stack für KI-Agenten anzubieten: Frontier-Modell + Trainingsframework.
Kling 3.0 — „Everyone a Director“
1. Februar — Kling AI startet sein Modell 3.0, ein großes Update seiner Videogenerierungs-Engine, das unter dem Konzept „Everyone a Director“ positioniert ist. Das Modell zielt darauf ab, filmisches Schaffen ohne technisches Fachwissen zugänglich zu machen.
Die wichtigsten Verbesserungen betreffen die visuelle Qualität und den Realismus menschlicher Interaktionen:
| Fähigkeit | Detail |
|---|---|
| Auflösung | Native 1080p |
| Dialog | Realistische Gesichtsausdrücke und Gesten |
| Konsistenz | Visueller Stil über lange Sequenzen beibehalten |
| Flexibilität | Vom einfachen Prompt zum vollständigen filmischen Storyboard |
Das Feedback aus der kreativen Community ist positiv, insbesondere zum Realismus der Dialoge und zur Fähigkeit, Szenen mit überzeugenden menschlichen Interaktionen zu produzieren — ein historischer Schwachpunkt von KI-Videomodellen.
Perplexity startet Model Council — Multi-Modell-Suche
5. Februar — Perplexity führt Model Council ein, eine Funktion, die dieselbe Anfrage auf drei Frontier-Modellen gleichzeitig ausführt und eine einzige synthetisierte Antwort liefert.
Anstatt manuell zwischen Modellen zu wechseln, führt Model Council die Anfrage parallel auf Claude Opus 4.6, GPT 5.2 und Gemini 3.0 aus. Ein Synthesizer-Modell analysiert die Ergebnisse, löst Konflikte zwischen den Antworten und zeigt auf, wo Modelle konvergieren oder divergieren.
| Anwendungsfall | Detail |
|---|---|
| Investition | Ausgewogene Marktperspektiven |
| Komplexe Entscheidungen | Unternehmensstrategie, große Anschaffungen |
| Brainstorming | Diversifizierte kreative Ideen |
| Verifizierung | Informationen mit erhöhtem Vertrauen validieren |
Die Funktion ist sofort im Web für Perplexity Max-Abonnenten verfügbar. Die mobile Version ist in Entwicklung.
Perplexity Deep Research wechselt zu Opus 4.6
9. Februar — Perplexity gibt bekannt, dass Deep Research nun auf Claude Opus 4.6 läuft, was die State-of-the-Art-Ergebnisse bei internen und externen Benchmarks verbessert. Das Upgrade stärkt die Argumentationsfähigkeiten in der Tiefenrecherche.
Die Funktion ist sofort für Max-Benutzer verfügbar, mit einer schrittweisen Einführung für Pro-Benutzer.
🔗 Ankündigung Deep Research Opus 4.6
Perplexity veröffentlicht DRACO Benchmark als Open-Source
4. Februar — Perplexity macht DRACO öffentlich, einen Open-Source-Benchmark zur Bewertung von Deep-Research-Tools. Die Rubriken und die vollständige Methodik sind öffentlich zugänglich.
DRACO validiert, dass Perplexity Deep Research State-of-the-Art-Leistung bei externen Benchmarks erzielt und andere Deep-Research-Tools in Genauigkeit und Zuverlässigkeit übertrifft.
Mistral kündigt seinen größten Hackathon an — 200.000 $ an Preisen
10. Februar — Mistral AI startet seinen größten globalen Hackathon, der jemals organisiert wurde, geplant vom 28. Februar bis 1. März 2026.
| Detail | Information |
|---|---|
| Format | 48 Stunden |
| Standorte | Paris, London, New York, San Francisco, Tokio, Singapur, Sydney + online |
| Preise | 200.000 $ an Belohnungen |
| Partner | NVIDIA, AWS, Weights & Biases, Hugging Face |
| Sonderpreise | ElevenLabs, Hugging Face |
Die Veranstaltung findet gleichzeitig in 8 Städten und online. Die Liste der Partner (NVIDIA, AWS, WandB, Hugging Face) signalisiert das Vertrauen des großen KI-Ökosystems in die Mistral-Plattform.
🔗 Ankündigung Mistral Hackathon
Cohere nimmt Magnus Carlsen als Botschafter unter Vertrag
13. Februar — Cohere kündigt eine Partnerschaft mit Magnus Carlsen, dem fünffachen Schachweltmeister und Nummer 1 der Welt, als globalen Markenbotschafter an.
Carlsen wird an Sichtbarkeitskampagnen, Thought-Leadership-Initiativen und hochkarätigen Cohere-Veranstaltungen teilnehmen. Die Partnerschaft soll die Parallelen zwischen Schachstrategie und Coheres Ansatz für Unternehmens-KI veranschaulichen: Fokus auf Grundlagen, Antizipation und nachhaltige Vorteile.
🔗 Ankündigung Cohere + Magnus Carlsen
In Kürze
12. Februar — Runway startet Story Panels, einen neuen Workflow, der die Erstellung vollständiger Filme oder Werbespots aus einem einzigen Bild ermöglicht, mit Konsistenz von Charakteren, Orten und Stil.
12.-13. Februar — Mooncake, ein PyTorch-Speicherzuweiser, der gemeinsam von Moonshot AI (Kimi) und der Tsinghua-Universität entwickelt wurde, tritt dem PyTorch-Ökosystem bei. Das Tool optimiert die Reduzierung von Speicherspitzen und Fragmentierung, was für den Einsatz von Long-Context-LLMs relevant ist.
9. Februar — Ideogram hebt seine Bildbearbeitung per natürlichsprachlichem Prompt hervor, die es ermöglicht, generierte Bilder über einfache Textanweisungen zu ändern.
30. Januar — Perplexity integriert Kimi K2.5, das Open-Source-Reasoning-Modell von Moonshot AI, für seine Pro- und Max-Abonnenten. Die Inferenz läuft auf der eigenen Infrastruktur von Perplexity in den USA.
4. Februar — MiniMax und Hyperbond Studio kündigen eine Partnerschaft zur Entwicklung von KI-Konversationsbegleitern mit „Call Me Sensei“ an, unter Verwendung von MiniMax-LLMs und Agenten-APIs.
Was das bedeutet
Die erste Februarhälfte 2026 bestätigt mehrere grundlegende Trends. MiniMax M2.5 beweist, dass ein weniger bekannter Akteur ein Open-Source-Modell veröffentlichen kann, das mit den Marktführern bei Programmier-Benchmarks konkurriert — 80,2% im SWE-Bench Verified ist ein bemerkenswertes Ergebnis für ein offenes Modell. Mit Forge als Ergänzung bietet MiniMax einen kompletten Agenten-Stack an.
Perplexity beschleunigt seine Differenzierung mit Model Council, einem pragmatischen Ansatz, der anerkennt, dass kein einzelnes Modell alle Anwendungsfälle dominiert. Die Integration von Opus 4.6 in Deep Research und die Veröffentlichung von DRACO als Open-Source stärken die Transparenz und Glaubwürdigkeit der Plattform.
Kling 3.0 markiert einen Fortschritt in der Videogenerierung mit realistischen Dialogen — ein Schritt hin zu zugänglichen Werkzeugen für die Filmproduktion. Community-seitig zeigt der 200.000-$-Hackathon von Mistral in 8 Städten die Reife des europäischen Open-Source-Ökosystems.