本周AI动态
主要公告频出的一天:Anthropic在经过1700小时的密集红队测试后,发布了一篇关于LLM安全性的研究论文。OpenAI推出了专为医院设计的具有HIPAA支持的企业版服务。ElevenLabs发布了Scribe v2,这是其新的语音转文本转录模型。
Constitutional Classifiers++:Anthropic加强安全性
2026年1月9日 — Anthropic发表了一篇重要的新研究论文,关于其防御越狱攻击的稳健性。
背景
去年,Anthropic引入了Constitutional Classifiers(宪法分类器),该系统基于指定Claude应该或不应该回答哪些查询的“宪法”来训练分类器。该系统将越狱成功率从86%降低到了4.4%,但存在两个问题:计算成本高且倾向于拒绝合法查询。
三项关键创新
新的Constitutional Classifiers++系统带来了三项重大改进:
| 创新 | 描述 |
|---|---|
| Exchange Classifiers | 在完整的对话上下文中评估回复,修正了以前系统孤立检查输出的漏洞 |
| Two-Stage Cascade | 轻量级分类器过滤所有流量,仅将可疑的交流升级到更强大的分类器 |
| Linear Probes | 可解释性的实际应用:探针观察Claude的内部激活(“直觉”)以检测可疑查询 |
结果
| 指标 | 表现 |
|---|---|
| 成本降低 | 与基线相比40倍 |
| Compute overhead | 仅约1% |
| 生产拒绝率 | 0.05% |
| 错误拒绝下降 | 87% |
| Red-teaming | 1700小时无通用越狱 |
After 1,700 cumulative hours of red-teaming, we’ve yet to identify a universal jailbreak (a consistent attack strategy that works across many queries) that works on our new system.
🇨🇳 在累计1700小时的红队测试后,我们尚未发现适用于我们新系统的通用越狱(一种在许多查询中都有效的连贯攻击策略)。 — @AnthropicAI
为什么这很重要
该系统利用Claude的内部激活作为一种难以欺骗的“直觉”。当探针检测到可疑查询时,它会将其发送到一个更强大的“exchange”分类器,该分类器会分析对话的双方。这种级联架构允许在没有前几代产品那种令人望而却步的计算成本的情况下进行稳健的保护。
OpenAI for Healthcare:AI进入医院
2026年1月8日 — OpenAI推出了专为医疗保健行业设计的企业版服务,这与前一天宣布的ChatGPT Health不同。
🔗 官方公告
与ChatGPT Health的区别
| 产品 | 目标 | 重点 |
|---|---|---|
| ChatGPT Health | 大众 | 个人健康,连接健康应用 |
| OpenAI for Healthcare | 企业 | 医院,诊所,临床工作流程 |
ChatGPT for Healthcare
专为医疗机构设计的ChatGPT企业版:
- 医疗优化模型:GPT-5.2,经过HealthBench上60个国家的260多名医生的评估
- 透明的医疗引用:回复来源包括同行评审的研究、临床指南,并附有标题、期刊和日期
- 机构对齐:SharePoint集成以遵守设施的协议和路径
- 可重用模板:出院摘要,患者说明,临床信函,事先授权支持
启动合作伙伴
| 机构 | 专科 |
|---|---|
| Boston Children’s Hospital | 儿科 |
| Stanford Medicine Children’s Health | 儿科 |
| Memorial Sloan Kettering | 肿瘤学 |
| Cedars-Sinai Medical Center | 综合医院 |
| HCA Healthcare | 医院网络 |
| UCSF | 学术医疗中心 |
| AdventHealth | 医院网络 |
| Baylor Scott & White Health | 医院网络 |
HIPAA合规性
| 方面 | 支持 |
|---|---|
| BAA | 与OpenAI的商业伙伴协议 (BAA) |
| Data residency | 数据驻留选项 |
| Audit logs | 全面的审计日志 |
| Encryption | 客户管理的加密密钥 |
| 训练 | 数据不用于训练模型 |
Healthcare is among the fastest-growing enterprise markets adopting AI, and hospitals and academic medical centers are already rolling out ChatGPT for Healthcare across their teams.
🇨🇳 医疗保健是采用AI增长最快的企业市场之一,医院和学术医疗中心已经在其团队中部署ChatGPT for Healthcare。 — OpenAI
ElevenLabs Scribe v2:下一代转录
2026年1月9日 — ElevenLabs宣布Scribe v2 API已面向开发者和企业可用。
🔗 Scribe v2 文档 | X 帖子
主要能力
| 功能 | 详情 |
|---|---|
| 语言 | 支持90+种语言 |
| Keyterm prompting | 最多100个术语,用于引导模型偏向特定词汇 |
| Entity detection | 56种实体类型(姓名,卡号,医疗状况,SSN) |
| Speaker diarization | 最多48个不同的演讲者 |
| Timestamps | 单词级精度 |
| Audio tagging | 自动检测音频事件(笑声,掌声) |
实时版本
Scribe v2也存在实时版本:
| 指标 | 表现 |
|---|---|
| 延迟 | ~150ms |
| 语言 | 90+ |
| 转录 | 通过WebSockets实时 |
企业合规性
ElevenLabs为需要HIPAA合规性的客户提供商业伙伴协议(BAA),使Scribe v2可用于医疗环境。
With Scribe v2, developers and enterprises can automate complex audio pipelines, achieve higher accuracy in global content workflows, and scale with full compliance and data residency controls.
🇨🇳 通过Scribe v2,开发者和企业可以自动化复杂的音频管道,在全球内容工作流程中实现更高的准确性,并在完全合规和数据驻留控制的情况下进行扩展。 — @elevenlabsio
这意味着什么
Anthropic继续在LLM安全性方面保持领先。可解释性+分类器级联的组合非常优雅:利用Claude的“直觉”来检测攻击比明确的规则更难绕过。错误拒绝减少87%对于企业采用至关重要。
OpenAI正面进军B2B医疗保健市场,这是受监管最严格的行业之一。包含HIPAA、BAA和知名医院合作伙伴关系的完整产品将OpenAI for Healthcare定位为传统解决方案的有力替代品。与ChatGPT Health(B2C)的差异化显示了成熟的产品战略。
ElevenLabs以最先进的STT完善了其音频堆栈。TTS(语音)+ STT(转录)+ HIPAA合规性的组合使其成为企业语音应用的全栈解决方案。Keyterm prompting对于技术术语或专有名词特别有用。