搜索

MiniMax M2.5 开源模型在 SWE-Bench 达到 80%,Kling 3.0 变革 AI 视频,Perplexity 推出 Model Council

MiniMax M2.5 开源模型在 SWE-Bench 达到 80%,Kling 3.0 变革 AI 视频,Perplexity 推出 Model Council

MiniMax 发布了 M2.5,这是一款前沿开源模型,在 SWE-Bench Verified 上达到了 80.2%。Kling 推出了其 3.0 模型,支持 1080p 视频和逼真对话。在搜索方面,Perplexity 部署了 Model Council 以同时运行三个模型,并在 Claude Opus 4.6 上运行 Deep Research。Mistral 宣布举办其全球最大规模的黑客松,奖金达 20 万美元。


MiniMax M2.5 — 前沿开源模型

2月12日 — MiniMax 宣布推出 M2.5,这是一款专为实际生产力设计的前沿开源模型。该模型在四个关键领域展现了最先进(state-of-the-art)的性能:代码编写、网络搜索、智能体工具调用(agentic tool calling)和办公工作。

BenchmarkScoreCatégorie
SWE-Bench Verified80.2%解决实际 Bug
BrowseComp76.3%网络搜索与导航
BFCL76.8%智能体工具调用
Office Work已优化文档生产力

在 SWE-Bench Verified 上 80.2% 的得分使 M2.5 跻身所有类别的最佳编码模型之列。在 OpenAI 的网络导航 benchmark BrowseComp 上,它达到了 76.3% — 这标志着其强大的自主搜索能力。

MiniMax 声称在复杂任务上的执行速度比竞争对手模型快 37%,成本为每小时 1 美元(100 tokens/秒)。其既定目标是让长跨度(long-horizon)智能体的扩展在经济上变得可行。

该模型可通过 MiniMax Agent (agent.minimax.io) 和开发者 API (platform.minimax.io) 获取。作为一款前沿开源模型,M2.5 直接对标顶级的专有模型。

🔗 Annonce MiniMax M2.5


MiniMax Forge — 生产级智能体 RL 框架

2月12日 — 与 M2.5 同步,MiniMax 发布了 Forge,这是一个可扩展的强化学习(RL)框架和算法,用于训练生产级 AI 智能体。

Forge 解决了智能体训练中一个反复出现的问题:大规模学习的不稳定性。该框架针对部署自主智能体的开发者和机器学习研究人员,提出了一种优化的智能体奖励建模(reward modeling)方法。

M2.5 和 Forge 的双重发布表明了 MiniMax 提供完整 AI 智能体技术栈(前沿模型 + 训练框架)的雄心。

🔗 Forge sur MiniMax News


Kling 3.0 — « Everyone a Director »

2月1日 — Kling AI 推出了其 3.0 模型,这是其视频生成引擎的一次重大更新,定位围绕“Everyone a Director(人人都是导演)”的概念。该模型旨在无需技术专长即可让电影创作触手可及。

主要的改进在于视觉质量和人类互动的真实感:

CapacitéDétail
分辨率原生 1080p
对话逼真的面部表情和手势
一致性在长序列中保持视觉风格
灵活性从简单提示词到完整的电影故事板

创意社区的反馈是积极的,特别是在对话的真实感和制作包含令人信服的人类互动场景的能力(这是 AI 视频模型的历史弱点)方面。

🔗 Annonce Kling 3.0


Perplexity 推出 Model Council — 多模型搜索

2月5日 — Perplexity 部署了 Model Council,该功能可在三个前沿模型上同时执行同一个查询,并生成一个综合的单一回答。

Model Council 无需手动切换模型,而是并行地在 Claude Opus 4.6、GPT 5.2 和 Gemini 3.0 上运行查询。一个合成器模型(synthesizer model)分析结果,解决回答之间的冲突,并展示模型在何处趋同或分歧。

Cas d’usageDétail
投资对市场的平衡观点
复杂决策企业战略、重大采购
头脑风暴多样化的创意想法
验证以更高的信心验证信息

该功能通过 Web 立即对 Perplexity Max 订阅者可用。移动版本正在开发中。

🔗 Introducing Model Council


Perplexity Deep Research 升级至 Opus 4.6

2月9日 — Perplexity 宣布 Deep Research 现在运行在 Claude Opus 4.6 上,改进了内部和外部 benchmark 上的最先进(state-of-the-art)结果。此次升级增强了深度研究中的推理能力。

该功能立即对 Max 用户可用,并将逐步向 Pro 用户推出。

🔗 Annonce Deep Research Opus 4.6


Perplexity 开源发布 DRACO Benchmark

2月4日 — Perplexity 公开了 DRACO,这是一个旨在评估深度研究(Deep Research)工具的开源 benchmark。评分标准和完整的方法论已公开。

DRACO 验证了 Perplexity Deep Research 在外部 benchmark 上达到了最先进(state-of-the-art)的性能,在准确性和可靠性方面超越了其他深度研究工具。

🔗 Annonce DRACO


Mistral 宣布举办其最大规模黑客松 — 20 万美元奖金

2月10日 — Mistral AI 宣布举办其有史以来全球最大规模的黑客松,计划于 2026 年 2 月 28 日至 3 月 1 日举行。

DétailInformation
形式48 小时
地点巴黎、伦敦、纽约、旧金山、东京、新加坡、悉尼 + 在线
奖金20 万美元奖励
合作伙伴NVIDIA, AWS, Weights & Biases, Hugging Face
特别奖ElevenLabs, Hugging Face

该活动在 8 个城市和在线同时进行。合作伙伴名单(NVIDIA, AWS, WandB, Hugging Face)表明了主要 AI 生态系统对 Mistral 平台的信任。

🔗 Annonce Mistral Hackathon


Cohere 签约 Magnus Carlsen 为大使

2月13日 — Cohere 宣布与五届国际象棋世界冠军、世界排名第一的 Magnus Carlsen 建立全球品牌大使合作伙伴关系。

Carlsen 将参与 Cohere 的知名度活动、思想领导力(thought leadership)倡议和高规格活动。该合作伙伴关系旨在展示国际象棋策略与 Cohere 的企业 AI 方法(专注于基础、预判和持久优势)之间的相似之处。

🔗 Annonce Cohere + Magnus Carlsen


简讯

2月12日Runway 推出了 Story Panels,这是一种新的工作流,允许从单张图像创建完整的电影或广告,并保持角色、地点和风格的一致性。

🔗 Runway Story Panels

2月12-13日 — 由 Moonshot AI (Kimi) 和清华大学共同开发的 PyTorch 内存分配器 Mooncake 加入了 PyTorch 生态系统。该工具优化了内存峰值减少和碎片化,与长上下文(long-context)LLM 的部署相关。

🔗 Annonce Mooncake

2月9日Ideogram 重点推介其通过自然语言提示词进行图像编辑的功能,允许通过简单的文本指令修改生成的图像。

1月30日Perplexity 为其 Pro 和 Max 订阅者集成了 Kimi K2.5,这是 Moonshot AI 的开源推理模型。推理在 Perplexity 位于美国的自有基础设施上运行。

2月4日MiniMaxHyperbond Studio 宣布建立合作伙伴关系,利用 MiniMax 的 LLM 和智能体 API 开发名为“Call Me Sensei”的对话式 AI 伴侣。


意义

2026年2月上半月证实了几个基本趋势。MiniMax M2.5 证明了一个知名度较低的参与者也可以发布在编码 benchmark 上与领导者相抗衡的开源模型 — 在 SWE-Bench Verified 上达到 80.2% 对于开放模型来说是一个了不起的分数。配合 Forge,MiniMax 提出了完整的智能体技术栈。

Perplexity 通过 Model Council 加速了其差异化,这是一种务实的方法,承认没有单一模型能主导所有用例。Opus 4.6 集成到 Deep Research 以及 DRACO 的开源发布增强了该平台的透明度和可信度。

Kling 3.0 标志着视频生成在逼真对话方面的进步 — 这是迈向可获取的电影制作工具的一步。在社区方面,Mistral 在 8 个城市举办的 20 万美元黑客松展示了欧洲开源生态系统的成熟度。


Sources