Claude Sonnet 4.6, 오픈 웨이트 Qwen3.5-397B, Google Lyria 3 출시

Anthropic은 Opus의 성능을 Sonnet 가격으로 제공하는 모델인 Claude Sonnet 4.6을 통해 강력한 행보를 보이고 있습니다. 이와 동시에 Qwen은 3,970억 파라미터를 가진 첫 번째 오픈 웨이트 모델 Qwen3.5를 공개했으며, Google은 음악 생성 모델인 Lyria 3를 Gemini에 직접 통합했습니다.

Claude Sonnet 4.6: Sonnet 가격의 Opus 성능

2월 17일 — Anthropic은 현재까지 가장 유능한 Sonnet으로 묘사되는 Claude Sonnet 4.6을 출시했습니다. 이 모델은 코딩, 컴퓨터 사용(computer use), 긴 문맥 추론, 에이전트 계획, 지식 작업 및 디자인 전반에 걸쳐 완전한 업그레이드를 나타냅니다. 베타 버전에서는 100만 token의 문맥 윈도우를 탑재했습니다.

포지셔닝은 명확합니다. Opus 모델이 필요했던 성능을 이제 Sonnet 요금, 즉 100만 token당 $3 /$ 15(Sonnet 4.5와 동일)로 이용할 수 있습니다. Sonnet 4.6은 claude.ai 및 Claude Cowork의 Free 및 Pro 요금제에서 기본 모델이 됩니다.

벤치마크 및 사용자 피드백

Claude Code에서 테스터들은 코드 수정 전 문맥 이해도가 향상되고 로직을 복제하는 대신 공유 로직으로 통합하는 점을 들어, 약 **70%**의 시간 동안 Sonnet 4.5보다 Sonnet 4.6을 선호했습니다. 더욱 주목할 만한 점은 사용자들이 과도한 엔지니어링이 적고, “게으름”이 덜하며, 지시 사항을 더 잘 따른다는 이유로 Opus 4.5(2025년 11월의 프론티어 모델)보다 Sonnet 4.6을 59% 더 선호했다는 것입니다.

Benchmark	Score
SWE-bench Verified	80.2% (프롬프트 수정 포함)
OSWorld (computer use)	16개월 동안의 주요 진전
OfficeQA	Opus 4.6과 동등
Vending-Bench Arena	투자/피벗의 새로운 전략

Computer use 또한 크게 발전했습니다. Sonnet 4.6은 Sonnet 4.5에 비해 프롬프트 인젝션에 대한 저항력도 향상되어 Opus 4.6과 비슷한 수준에 도달했습니다.

Anthropic, 실제 환경에서의 AI 에이전트 자율성 측정

2월 18일 — Anthropic은 Claude Code 및 공개 API를 통한 수백만 건의 인간-에이전트 상호작용을 분석한 연구를 발표했습니다. 목표는 인간이 실제로 에이전트의 자율성을 어떻게 관리하는지 이해하는 것입니다.

주요 결과

지표	값
최대 자율 시간 (99.9 백분위수)	~45분 (3개월 만에 두 배 증가)
자동 승인 (숙련된 사용자)	40%+ (신규 사용자는 20%)
API 트래픽 내 소프트웨어 엔지니어링 비중	~50%
가드레일이 있는 작업	80%
인간 개입(Human-in-the-loop) 작업	73%
되돌릴 수 없는 작업	0.8%

직관에 반하는 결과로, 숙련된 사용자는 자동 승인 비율과 중단 비율을 동시에 높였습니다. 그들은 작업별 감독에서 벗어나 표적 개입을 통한 능동적 모니터링으로 전환하고 있습니다. 또한 Claude는 인간이 중단시키는 것보다 더 자주 멈춰서 설명을 요청하며, 특히 복잡한 작업에서 그렇습니다.

연구는 능력과 사용 사이에 상당한 격차가 존재한다고 결론지었습니다. 모델이 관리할 수 있는 자율성은 실제로 부여된 자율성을 크게 초과하며, 연구원들은 이를 “배포되지 않은 자율성의 잉여(surplus of undeployed autonomy)“라고 부릅니다.

🔗 전체 연구 보고서

Anthropic: 르완다 및 Infosys 파트너십

2월 17일 — Sonnet 4.6 출시와 함께 Anthropic은 **르완다 정부와 양해각서(MOU)**를 체결하여 보건, 교육 및 행정 분야에 Claude를 배포하기로 했습니다. ICT 혁신부와 함께 진행되는 이 파트너십에는 공무원 교육과 아프리카 8개국에 AI 학습 동반자를 배포하는 내용이 포함됩니다.

Anthropic은 또한 통신 및 기타 규제 산업을 위한 AI 에이전트를 구축하기 위해 Infosys와의 협력을 발표했습니다.

🔗 르완다 파트너십

Qwen3.5-397B-A17B: 3.5 시리즈의 첫 오픈 웨이트

2월 16일 — Alibaba Qwen은 Qwen3.5 시리즈의 첫 번째 오픈 웨이트 모델인 Qwen3.5-397B-A17B를 공개했습니다. 이는 선형 어텐션과 희소 Mixture-of-Experts(MoE)를 결합한 하이브리드 아키텍처를 통한 중요한 진전입니다.

특징	세부 정보
총 파라미터	397B (하이브리드 MoE 아키텍처)
아키텍처	하이브리드 선형 어텐션 + 희소 MoE
처리량	Qwen3-Max 대비 8.6배 ~ 19.0배
언어	201개 언어 및 방언
라이선스	Apache 2.0
훈련	대규모 강화 학습
전문 분야	네이티브 멀티모달, 실제 에이전트

모델은 Hugging Face, ModelScope, Alibaba Cloud Model Studio 및 Qwen Code를 통해 즉시 사용할 수 있습니다. 201개 언어 지원과 Apache 2.0 라이선스를 통해 언어 커버리지와 추론 처리량 측면에서 현재 가장 야심 찬 오픈 웨이트 모델 중 하나입니다.

🔗 트윗 @Alibaba_Qwen

Google Lyria 3: Gemini에 음악 생성 도입

2월 18일 — Google과 DeepMind는 Gemini 앱에 직접 통합된 AI 음악 생성 모델 Lyria 3를 선보였습니다. 사용자는 텍스트 프롬프트, 사진 또는 비디오에서 30초 길이의 음악 트랙을 만들 수 있으며 맞춤형 가사 생성도 가능합니다.

기능	세부 정보
입력	텍스트, 이미지, 비디오
출력	30초 오디오 트랙
개인화	다양한 음악 스타일, 생성된 가사
가용성	Gemini에서 베타 (18세 이상)

Lyria 3는 악기와 장르의 조합에서 놀라운 유연성을 보여주며 징글부터 로파이(Lo-Fi) 작곡까지 다양한 창작을 가능하게 합니다. 글로벌 배포는 점진적으로 진행됩니다.

🔗 트윗 @GoogleAI

OpenAI EVMbench: 스마트 계약 보안 benchmark

2월 18일 — OpenAI와 Paradigm은 Ethereum 스마트 계약의 취약점을 탐지, 수정 및 악용하는 AI 에이전트의 능력을 평가하는 benchmark인 EVMbench를 출시했습니다. 이 benchmark는 40건의 감사(주로 Code4rena 대회)에서 큐레이팅된 120개의 취약점을 기반으로 합니다.

모드	설명	GPT-5.3-Codex	GPT-5 (6개월 전)
Exploit	드레인 공격 실행	72.2%	31.9%
Detect	취약점 감사 및 탐지	< 전체 커버리지	-
Patch	기능을 유지하며 수정	< 전체 커버리지	-

흥미로운 점은 AI 에이전트가 탐지나 수정(첫 번째 취약점 발견 후 포기하는 경우가 많음)보다 악용(명시적 목표)에서 더 나은 성과를 보인다는 것입니다. OpenAI는 방어적 사이버 보안을 위해 1,000만 달러의 API 크레딧을 제공하겠다는 약속을 재확인했습니다.

🔗 EVMbench 발표

GLM-5 Technical Report: Z.ai 모델 문서화

2월 18일 — Z.ai는 2월 11일에 출시된 모델(744B 파라미터, 40B 활성, MIT License)의 아키텍처 혁신을 상세히 기술한 GLM-5 전체 기술 보고서를 발표했습니다.

문서화된 세 가지 주요 혁신은 훈련 및 추론 비용을 줄이는 Dynamic Sparse Attention (DSA), 생성과 훈련을 분리하는 비동기 RL 인프라, 그리고 복잡하고 장기적인 상호 작용을 가능하게 하는 에이전트용 RL 알고리즘입니다. 보고서는 arXiv에서 볼 수 있습니다.

🔗 트윗 @Zai_org · 🔗 arXiv

Cohere Labs Tiny Aya: 초소형 다국어 AI

2월 17일 — Cohere Labs는 단 33.5억 파라미터로 70개 이상의 언어를 지원하는 소형 언어 모델 제품군인 Tiny Aya를 선보였습니다. 목표는 전화 및 오프라인 환경을 포함하여 어디서나 다국어 AI를 사용할 수 있게 하는 것입니다.

Tiny Aya는 비영어권 언어로 작업하는 연구원, 디지털 서비스가 부족한 커뮤니티를 위해 구축하는 개발자, 클라우드 의존 없이 안정적인 번역이 필요한 임베디드 애플리케이션을 대상으로 합니다. 이 모델에는 오프라인 번역 기능이 포함되어 있어 개인 정보를 강화하고 지연 시간을 줄입니다.

🔗 트윗 @cohere

Runway Gen-4.5 API + Claude Code Skill 사용 가능

2월 17일 — Runway는 Gen-4.5에 대한 API 액세스를 개방하여 개발자가 이미지, 비디오 및 오디오 생성을 프로젝트에 직접 통합할 수 있게 했습니다. 이번 발표와 함께 GitHub에서 사용할 수 있는 전용 Claude Code Skill도 공개되어 개발 환경을 떠나지 않고도 Runway 멀티미디어 콘텐츠를 생성할 수 있습니다.

🔗 트윗 @runwayml · 🔗 GitHub Skills

Manus Agents: 장기 기억을 가진 개인 에이전트

2월 16일 — Manus는 각 사용자가 채팅 대화 내에서 직접 개인 에이전트를 가질 수 있는 기능인 Manus Agents를 출시했습니다. 이 에이전트는 장기 기억(스타일, 어조 및 선호도 유지), 완전한 제작 능력(비디오, 슬라이드, 사이트, 이미지) 및 Gmail, Calendar, Notion과의 직접 통합을 결합합니다.

🔗 트윗 @ManusAI

ElevenAgents for Support

2월 17일 — ElevenLabs는 고객 지원을 위한 AI 대화형 에이전트 ElevenAgents for Support를 출시했습니다. 70개 이상의 언어로 음성 및 디지털 채널에서 작동하는 이 에이전트는 ElevenLabs의 에이전틱 플랫폼과 400만 개 이상의 프로덕션 배포 실적을 기반으로 합니다.

🔗 ElevenLabs Agents

NotebookLM x Zillow: 부동산 노트북

2월 18일 — NotebookLM은 Zillow와 제휴하여 주택 구매자를 위한 무료 Featured Notebook을 출시했습니다. 이는 재정 준비, 시장 평가 및 구매 절차에 대한 전문가의 조언을 중앙 집중화한 것입니다.

🔗 트윗 @NotebookLM

시사점

이번 주는 두 가지 주요 트렌드를 보여줍니다. 첫째는 프론티어 성능의 민주화입니다. Sonnet 4.6은 Opus 기능을 5분의 1 가격으로 제공하며, Qwen3.5는 397B 파라미터 모델을 Apache 2.0으로 사용할 수 있게 했습니다. 둘째는 AI 에이전트의 확장입니다. Anthropic의 연구에 따르면 가장 긴 자율 세션은 3개월 만에 두 배로 증가했으며, Manus, ElevenLabs, Runway와 같은 기업들은 전문화된 에이전트(개인 채팅, 고객 지원, 멀티미디어 제작)를 구축하고 있습니다.

Lyria 3를 통한 Gemini의 음악 생성 도입과 블록체인 보안을 위한 EVMbench는 생성형 AI와 보안 AI가 각각 독립적인 분야로 구조화되고 있음을 보여줍니다.