정상에서의 동시 출시: Anthropic은 1M 토큰 컨텍스트와 에이전트 팀을 갖춘 Claude Opus 4.6을 출시하고, OpenAI는 GPT-5.3-Codex와 엔터프라이즈 플랫폼으로 대응합니다. Google은 모든 전선에서 Gemini 3를 추진하며, GitHub는 마침내 8년 된 요청에 응답했습니다.
Claude Opus 4.6: Agentic coding의 SOTA 및 1M 컨텍스트
2월 5일 — Anthropic은 가장 지능적인 모델의 주요 업데이트인 Claude Opus 4.6을 출시했습니다. 이 모델은 계획, 긴 세션, 코드 리뷰에서 발전했으며, Opus 모델 최초로 베타 버전에서 100만 토큰 컨텍스트를 제공합니다.
| 벤치마크 | 점수 | 세부 정보 |
|---|---|---|
| Terminal-Bench 2.0 | SOTA | 가장 높은 agentic coding 점수 |
| Humanity’s Last Exam | SOTA | 다학제적 추론 |
| GDPval-AA | +144 Elo vs GPT-5.2 | 전문 업무 (금융, 법률) |
| BrowseComp | SOTA | 복잡한 정보 검색 |
| MRCR v2 (8-needle 1M) | 76% | Sonnet 4.5의 18.5% 대비 |
API 및 제품 신기능
| 기능 | 설명 |
|---|---|
| Agent teams | 여러 Claude Code 에이전트 병렬 실행 (research preview) |
| Adaptive thinking | 모델이 깊은 사고를 사용할 시기를 선택 |
| Effort controls | 4단계: 낮음, 중간, 높음(기본값), 최대 |
| Context compaction | 긴 세션을 위한 자동 컨텍스트 요약 |
| 128k output tokens | 단일 요청으로 더 긴 출력 |
| Claude in PowerPoint | Research preview (Max, Team, Enterprise) |
가격: 100만 토큰당 25(입력/출력)로 변동 없음. 200k 토큰 초과 시 프리미엄 가격(37.50).
가용성: claude.ai, API(claude-opus-4-6) 및 모든 주요 클라우드 플랫폼.
엔지니어링 블로그: 인프라 노이즈 및 C 컴파일러
Anthropic은 같은 날 두 개의 기술 기사를 게시했습니다. 첫 번째는 agentic coding 벤치마크의 인프라 노이즈를 정량화합니다. Terminal-Bench 2.0에서는 리소스 구성만으로도 설정 간에 6% 포인트의 격차가 발생할 수 있습니다. 두 번째는 16개의 Claude 에이전트가 병렬로 Rust로 C 컴파일러를 구축한 과정을 기록합니다. 10만 줄의 코드로 x86, ARM 및 RISC-V에서 Linux 6.9 커널을 컴파일할 수 있으며, 약 2,000번의 Claude Code 세션과 약 $20,000로 완료되었습니다.
GitHub Copilot의 Opus 4.6
같은 날, 전날 발표된 공개 미리 보기 이후 Claude Opus 4.6은 Agent HQ를 통해 GitHub Copilot에서 GA(일반 사용 가능)가 되었습니다.
🔗 Opus 4.6 발표 | 인프라 노이즈 | C 컴파일러 구축
GPT-5.3-Codex: 코딩 프런티어 + 프로 지식
2월 5일 — OpenAI는 GPT-5.2-Codex의 코딩 성능과 GPT-5.2의 추론 기능을 결합한 GPT-5.3-Codex를 출시했으며, 모든 것이 25% 더 빠릅니다.
| 벤치마크 | 점수 |
|---|---|
| SWE-Bench Pro (공개) | 56.8% |
| Terminal-Bench 2.0 | 77.3% |
| OSWorld-Verified | 64.7% |
| GDPval (승리 또는 무승부) | 70.9% |
| Cybersecurity CTF | 77.6% |
| SWE-Lancer IC Diamond | 81.4% |
GPT-5.3-Codex는 자체 생성에 기여한 최초의 모델입니다. 팀은 예비 버전을 사용하여 훈련 디버깅, 배포 관리 및 테스트 결과 분석을 수행했습니다.
코드를 넘어
이 모델은 프레젠테이션, 스프레드시트, 데이터 분석을 생성하고 데스크톱 환경에서 생산성 작업을 처리합니다(OSWorld-Verified에서 64.7%).
사이버 보안: 높은 역량
GPT-5.3-Codex는 OpenAI의 준비 프레임워크 하에 사이버 보안에 대해 **높은 역량(High Capability)**으로 평가된 최초의 모델이며, 소프트웨어 취약점을 식별하도록 특별히 훈련된 최초의 모델입니다.
🔗 GPT-5.3-Codex 블로그 | System Card
OpenAI: Frontier, MCP Apps, 보안 및 생명공학
OpenAI Frontier: 엔터프라이즈 에이전트 플랫폼
2월 5일 — OpenAI는 기업에서 AI 에이전트를 개발, 배포 및 관리하기 위한 플랫폼인 Frontier를 출시했습니다. 에이전트는 공유된 비즈니스 컨텍스트, 권한을 받고 경험을 통해 학습합니다.
| 측면 | 세부 정보 |
|---|---|
| 첫 고객 | HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber |
| AI 파트너 | Abridge, Clay, Ambience, Decagon, Harvey, Sierra |
| 접근 방식 | 팀에 통합된 Forward Deployed Engineers (FDE) |
| 표준 | 개방형 표준, 기존 시스템과 호환 |
ChatGPT: 베타 버전의 MCP Apps
2월 5일 — MCP Apps가 ChatGPT Business, Enterprise 및 Edu에 베타 버전으로 출시되었습니다. Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte 등의 새로운 파트너 커넥터가 추가되었습니다. 조직은 개발자 모드를 통해 맞춤형 MCP 앱을 구축할 수 있습니다.
Trusted Access for Cyber
2월 5일 — OpenAI는 고급 사이버 기능을 위한 신뢰 기반 액세스 파일럿 프로그램인 Trusted Access for Cyber를 출시했습니다. 사용자는 chatgpt.com/cyber에서 신원을 확인할 수 있습니다. Cybersecurity Grant Program을 통해 1,000만 달러의 API 크레딧이 사이버 방어에 할당됩니다.
GPT-5로 단백질 합성 비용 절감
2월 5일 — Ginkgo Bioworks와의 파트너십을 통해 OpenAI는 GPT-5를 로봇 연구소에 연결하여 무세포 단백질 합성(CFPS)을 최적화했습니다. 결과: 6번의 실험 라운드에서 580개의 자동화 플레이트에서 36,000개의 구성을 테스트한 후 생산 비용 40% 절감 및 시약 비용 57% 개선.
🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 단백질
Google: Gemini 3, 슈퍼볼 및 NotebookLM
Gemini 3: 업데이트 및 슈퍼볼
2월 5-6일 — Google은 모든 전선에서 Gemini 3를 추진하고 있습니다. 최근 출시된 Gemini 3 Flash는 Flash 속도로 Pro 수준의 추론을 제공합니다(GPQA Diamond에서 90.4%, Humanity’s Last Exam에서 33.7%(도구 제외)). Gemini 3는 Google 검색의 AI Overviews 기본 모델이 됩니다.
Google은 또한 제60회 슈퍼볼(2월 8일)을 위한 60초짜리 Gemini 광고를 준비하고 있습니다. “New Home”이라는 광고는 Gemini의 도움으로 이사를 준비하는 어린이를 보여주며 Google 포토의 검색 기능과 이미지 생성을 설명합니다.
NotebookLM: 인포그래픽 및 슬라이드 덱
이제 Gemini 3를 기반으로 구축된 NotebookLM은 Free 및 Pro 사용자를 위해 인포그래픽 및 슬라이드 덱을 출시합니다. 슬라이드 덱은 이미 두 번째로 인기 있는 출력 스튜디오입니다. Ultra 사용자는 워터마크를 제거할 수 있습니다.
🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics
GitHub: 이슈의 고정 댓글
2월 5일 — GitHub는 이슈에 **고정 댓글(pinned comments)**을 출시했습니다. 이제 컨텍스트 메뉴에서 댓글을 이슈 상단에 고정할 수 있습니다. 긴 스레드에서 결정, 업데이트 및 주요 다음 단계를 강조하기 위해 2017년부터 요청되었던 기능입니다.
🔗 변경 로그
이것이 의미하는 바
2026년 2월 5일은 기억에 남는 날이 될 것입니다. Anthropic과 OpenAI가 동시에 가장 진보된 코딩 모델을 출시했습니다. Claude Opus 4.6은 전문 업무 및 정보 검색 벤치마크를 장악하고 있으며, GPT-5.3-Codex는 터미널 코딩 및 컴퓨터 사용에서 탁월합니다. 두 모델 모두 Terminal-Bench 2.0에서 SOTA(State Of The Art)를 주장하고 있으며, 인프라 노이즈에 대한 Anthropic의 기사는 완벽하게 이해가 됩니다.
모델을 넘어 플랫폼 전쟁이 심화되고 있습니다. OpenAI Frontier는 Oracle과 Uber에 배포된 에이전트로 기업을 공략하고 있으며, Anthropic은 개발자 생태계(GitHub, Xcode, Claude Code)에 베팅하고 있습니다. Google은 검색, Chrome, NotebookLM에서 Gemini 3로 전진하고 있으며, Gemini를 주류에 안착시키기 위해 슈퍼볼을 준비하고 있습니다.
출처
- Introducing Claude Opus 4.6
- Quantifying infrastructure noise
- Building a C compiler with parallel Claudes
- Introducing GPT-5.3-Codex
- GPT-5.3-Codex System Card
- Introducing OpenAI Frontier
- Introducing apps in ChatGPT
- Trusted Access for Cyber
- GPT-5 lowers protein synthesis cost
- Gemini 3 Flash
- NotebookLM Infographics
- Pinned comments on GitHub Issues