MiniMax M2.5 开源模型在 SWE-Bench 达到 80%，Kling 3.0 变革 AI 视频，Perplexity 推出 Model Council

MiniMax 发布了 M2.5，这是一款前沿开源模型，在 SWE-Bench Verified 上达到了 80.2%。Kling 推出了其 3.0 模型，支持 1080p 视频和逼真对话。在搜索方面，Perplexity 部署了 Model Council 以同时运行三个模型，并在 Claude Opus 4.6 上运行 Deep Research。Mistral 宣布举办其全球最大规模的黑客松，奖金达 20 万美元。

MiniMax M2.5 — 前沿开源模型

2月12日 — MiniMax 宣布推出 M2.5，这是一款专为实际生产力设计的前沿开源模型。该模型在四个关键领域展现了最先进（state-of-the-art）的性能：代码编写、网络搜索、智能体工具调用（agentic tool calling）和办公工作。

Benchmark	Score	Catégorie
SWE-Bench Verified	80.2%	解决实际 Bug
BrowseComp	76.3%	网络搜索与导航
BFCL	76.8%	智能体工具调用
Office Work	已优化	文档生产力

在 SWE-Bench Verified 上 80.2% 的得分使 M2.5 跻身所有类别的最佳编码模型之列。在 OpenAI 的网络导航 benchmark BrowseComp 上，它达到了 76.3% — 这标志着其强大的自主搜索能力。

MiniMax 声称在复杂任务上的执行速度比竞争对手模型快 37%，成本为每小时 1 美元（100 tokens/秒）。其既定目标是让长跨度（long-horizon）智能体的扩展在经济上变得可行。

该模型可通过 MiniMax Agent (agent.minimax.io) 和开发者 API (platform.minimax.io) 获取。作为一款前沿开源模型，M2.5 直接对标顶级的专有模型。

🔗 Annonce MiniMax M2.5

MiniMax Forge — 生产级智能体 RL 框架

2月12日 — 与 M2.5 同步，MiniMax 发布了 Forge，这是一个可扩展的强化学习（RL）框架和算法，用于训练生产级 AI 智能体。

Forge 解决了智能体训练中一个反复出现的问题：大规模学习的不稳定性。该框架针对部署自主智能体的开发者和机器学习研究人员，提出了一种优化的智能体奖励建模（reward modeling）方法。

M2.5 和 Forge 的双重发布表明了 MiniMax 提供完整 AI 智能体技术栈（前沿模型 + 训练框架）的雄心。

🔗 Forge sur MiniMax News

Kling 3.0 — « Everyone a Director »

2月1日 — Kling AI 推出了其 3.0 模型，这是其视频生成引擎的一次重大更新，定位围绕“Everyone a Director（人人都是导演）”的概念。该模型旨在无需技术专长即可让电影创作触手可及。

主要的改进在于视觉质量和人类互动的真实感：

Capacité	Détail
分辨率	原生 1080p
对话	逼真的面部表情和手势
一致性	在长序列中保持视觉风格
灵活性	从简单提示词到完整的电影故事板

创意社区的反馈是积极的，特别是在对话的真实感和制作包含令人信服的人类互动场景的能力（这是 AI 视频模型的历史弱点）方面。

🔗 Annonce Kling 3.0

Perplexity 推出 Model Council — 多模型搜索

2月5日 — Perplexity 部署了 Model Council，该功能可在三个前沿模型上同时执行同一个查询，并生成一个综合的单一回答。

Model Council 无需手动切换模型，而是并行地在 Claude Opus 4.6、GPT 5.2 和 Gemini 3.0 上运行查询。一个合成器模型（synthesizer model）分析结果，解决回答之间的冲突，并展示模型在何处趋同或分歧。

Cas d’usage	Détail
投资	对市场的平衡观点
复杂决策	企业战略、重大采购
头脑风暴	多样化的创意想法
验证	以更高的信心验证信息

该功能通过 Web 立即对 Perplexity Max 订阅者可用。移动版本正在开发中。

🔗 Introducing Model Council

Perplexity Deep Research 升级至 Opus 4.6

2月9日 — Perplexity 宣布 Deep Research 现在运行在 Claude Opus 4.6 上，改进了内部和外部 benchmark 上的最先进（state-of-the-art）结果。此次升级增强了深度研究中的推理能力。

该功能立即对 Max 用户可用，并将逐步向 Pro 用户推出。

🔗 Annonce Deep Research Opus 4.6

Perplexity 开源发布 DRACO Benchmark

2月4日 — Perplexity 公开了 DRACO，这是一个旨在评估深度研究（Deep Research）工具的开源 benchmark。评分标准和完整的方法论已公开。

DRACO 验证了 Perplexity Deep Research 在外部 benchmark 上达到了最先进（state-of-the-art）的性能，在准确性和可靠性方面超越了其他深度研究工具。

🔗 Annonce DRACO

Mistral 宣布举办其最大规模黑客松 — 20 万美元奖金

2月10日 — Mistral AI 宣布举办其有史以来全球最大规模的黑客松，计划于 2026 年 2 月 28 日至 3 月 1 日举行。

Détail	Information
形式	48 小时
地点	巴黎、伦敦、纽约、旧金山、东京、新加坡、悉尼 + 在线
奖金	20 万美元奖励
合作伙伴	NVIDIA, AWS, Weights & Biases, Hugging Face
特别奖	ElevenLabs, Hugging Face

该活动在 8 个城市和在线同时进行。合作伙伴名单（NVIDIA, AWS, WandB, Hugging Face）表明了主要 AI 生态系统对 Mistral 平台的信任。

🔗 Annonce Mistral Hackathon

Cohere 签约 Magnus Carlsen 为大使

2月13日 — Cohere 宣布与五届国际象棋世界冠军、世界排名第一的 Magnus Carlsen 建立全球品牌大使合作伙伴关系。

Carlsen 将参与 Cohere 的知名度活动、思想领导力（thought leadership）倡议和高规格活动。该合作伙伴关系旨在展示国际象棋策略与 Cohere 的企业 AI 方法（专注于基础、预判和持久优势）之间的相似之处。

🔗 Annonce Cohere + Magnus Carlsen

简讯

2月12日 — Runway 推出了 Story Panels，这是一种新的工作流，允许从单张图像创建完整的电影或广告，并保持角色、地点和风格的一致性。

🔗 Runway Story Panels

2月12-13日 — 由 Moonshot AI (Kimi) 和清华大学共同开发的 PyTorch 内存分配器 Mooncake 加入了 PyTorch 生态系统。该工具优化了内存峰值减少和碎片化，与长上下文（long-context）LLM 的部署相关。

🔗 Annonce Mooncake

2月9日 — Ideogram 重点推介其通过自然语言提示词进行图像编辑的功能，允许通过简单的文本指令修改生成的图像。

1月30日 — Perplexity 为其 Pro 和 Max 订阅者集成了 Kimi K2.5，这是 Moonshot AI 的开源推理模型。推理在 Perplexity 位于美国的自有基础设施上运行。

2月4日 — MiniMax 和 Hyperbond Studio 宣布建立合作伙伴关系，利用 MiniMax 的 LLM 和智能体 API 开发名为“Call Me Sensei”的对话式 AI 伴侣。

意义

2026年2月上半月证实了几个基本趋势。MiniMax M2.5 证明了一个知名度较低的参与者也可以发布在编码 benchmark 上与领导者相抗衡的开源模型 — 在 SWE-Bench Verified 上达到 80.2% 对于开放模型来说是一个了不起的分数。配合 Forge，MiniMax 提出了完整的智能体技术栈。

Perplexity 通过 Model Council 加速了其差异化，这是一种务实的方法，承认没有单一模型能主导所有用例。Opus 4.6 集成到 Deep Research 以及 DRACO 的开源发布增强了该平台的透明度和可信度。

Kling 3.0 标志着视频生成在逼真对话方面的进步 — 这是迈向可获取的电影制作工具的一步。在社区方面，Mistral 在 8 个城市举办的 20 万美元黑客松展示了欧洲开源生态系统的成熟度。