Podwójna premiera na szczycie: Anthropic wypuszcza Claude Opus 4.6 z kontekstem 1 miliona tokenów i zespołami agentów, podczas gdy OpenAI odpowiada modelem GPT-5.3-Codex i platformą enterprise. Google promuje Gemini 3 na wszystkich frontach, a GitHub w końcu odpowiada na prośbę sprzed 8 lat.
Claude Opus 4.6: SOTA w agentic coding i kontekst 1M
5 lutego — Anthropic wprowadza Claude Opus 4.6, dużą aktualizację swojego najinteligentniejszego modelu. Model robi postępy w planowaniu, długich sesjach, przeglądzie kodu i po raz pierwszy oferuje kontekst 1 miliona tokenów w wersji beta dla modelu Opus.
| Benchmark | Wynik | Szczegóły |
|---|---|---|
| Terminal-Bench 2.0 | SOTA | Najwyższy wynik w agentic coding |
| Humanity’s Last Exam | SOTA | Rozumowanie multidyscyplinarne |
| GDPval-AA | +144 Elo vs GPT-5.2 | Praca profesjonalna (finanse, prawo) |
| BrowseComp | SOTA | Złożone wyszukiwanie informacji |
| MRCR v2 (8-needle 1M) | 76% | vs 18.5% dla Sonnet 4.5 |
Nowości w API i produkcie
| Funkcja | Opis |
|---|---|
| Agent teams | Wiele agentów Claude Code równolegle (research preview) |
| Adaptive thinking | Model wybiera, kiedy użyć głębokiego myślenia |
| Effort controls | 4 poziomy: niski, średni, wysoki (domyślny), maks |
| Context compaction | Automatyczne streszczanie kontekstu dla długich sesji |
| 128k output tokens | Dłuższe odpowiedzi w jednym zapytaniu |
| Claude in PowerPoint | Research preview (Max, Team, Enterprise) |
Cennik: Bez zmian, 5 USD / 25 USD za milion tokenów (input/output). Ceny premium powyżej 200 tys. tokenów (10 USD / 37.50 USD).
Dostępność: claude.ai, API (claude-opus-4-6) i wszystkie główne platformy chmurowe.
Blogi inżynierskie: szum infrastrukturalny i kompilator C
Anthropic publikuje tego samego dnia dwa artykuły techniczne. Pierwszy kwantyfikuje szum infrastrukturalny w benchmarkach agentic coding: w Terminal-Bench 2.0 sama konfiguracja zasobów może tworzyć różnice rzędu 6 punktów procentowych między konfiguracjami. Drugi dokumentuje budowę kompilatora C w Rust przez 16 równoległych agentów Claude: 100 000 linii kodu, zdolnego do skompilowania jądra Linux 6.9 na x86, ARM i RISC-V, w ~2000 sesji Claude Code za ~20 000 USD.
Opus 4.6 w GitHub Copilot
Tego samego dnia Claude Opus 4.6 staje się dostępny w GA w GitHub Copilot poprzez Agent HQ, po publicznej wersji zapoznawczej ogłoszonej dzień wcześniej.
🔗 Ogłoszenie Opus 4.6 | Szum infrastrukturalny | Budowa kompilatora C
GPT-5.3-Codex: granica kodowania + wiedza pro
5 lutego — OpenAI wprowadza GPT-5.3-Codex, który łączy wydajność kodowania GPT-5.2-Codex z możliwościami rozumowania GPT-5.2, wszystko 25% szybciej.
| Benchmark | Wynik |
|---|---|
| SWE-Bench Pro (Publiczny) | 56.8% |
| Terminal-Bench 2.0 | 77.3% |
| OSWorld-Verified | 64.7% |
| GDPval (wygrane lub remisy) | 70.9% |
| Cybersecurity CTF | 77.6% |
| SWE-Lancer IC Diamond | 81.4% |
GPT-5.3-Codex to pierwszy model, który przyczynił się do własnego powstania: zespół używał wstępnych wersji do debugowania treningu, zarządzania wdrożeniem i analizy wyników testów.
Poza kodem
Model tworzy prezentacje, arkusze kalkulacyjne, analizuje dane i obsługuje zadania produktywności w środowisku pulpitu (64.7% w OSWorld-Verified).
Cyberbezpieczeństwo: wysoka zdolność
GPT-5.3-Codex to pierwszy model oceniony jako wysoka zdolność w zakresie cyberbezpieczeństwa w ramach frameworku gotowości OpenAI i pierwszy specjalnie przeszkolony do identyfikowania luk w oprogramowaniu.
🔗 Blog GPT-5.3-Codex | System Card
OpenAI: Frontier, MCP Apps, bezpieczeństwo i biotech
OpenAI Frontier: platforma agentów enterprise
5 lutego — OpenAI uruchamia Frontier, platformę do tworzenia, wdrażania i zarządzania agentami AI w przedsiębiorstwie. Agenci otrzymują wspólny kontekst biznesowy, uprawnienia i uczą się przez doświadczenie.
| Aspekt | Szczegóły |
|---|---|
| Pierwsi klienci | HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber |
| Partnerzy AI | Abridge, Clay, Ambience, Decagon, Harvey, Sierra |
| Podejście | Forward Deployed Engineers (FDE) zintegrowani z zespołami |
| Standardy | Otwarte standardy, kompatybilność z istniejącymi systemami |
ChatGPT: MCP Apps w wersji beta
5 lutego — MCP Apps pojawiają się w wersji beta w ChatGPT Business, Enterprise i Edu. Nowe konektory partnerów: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte i inni. Organizacje mogą budować niestandardowe aplikacje MCP w trybie deweloperskim.
Trusted Access for Cyber
5 lutego — OpenAI uruchamia Trusted Access for Cyber, program pilotażowy dostępu opartego na zaufaniu do zaawansowanych możliwości cybernetycznych. Użytkownicy mogą zweryfikować swoją tożsamość na chatgpt.com/cyber. 10 milionów dolarów w kredytach API przeznaczono na cyberobronę w ramach Cybersecurity Grant Program.
GPT-5 obniża koszt syntezy białek
5 lutego — We współpracy z Ginkgo Bioworks, OpenAI łączy GPT-5 ze zrobotyzowanym laboratorium w celu optymalizacji bezkomórkowej syntezy białek (CFPS). Wynik: 40% redukcji kosztów produkcji i 57% poprawy kosztów odczynników, po przetestowaniu 36 000 kompozycji na 580 zautomatyzowanych płytkach w sześciu rundach eksperymentów.
🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 białka
Google: Gemini 3, Super Bowl i NotebookLM
Gemini 3: aktualizacje i Super Bowl
5-6 lutego — Google promuje Gemini 3 na wszystkich frontach. Gemini 3 Flash, niedawno wprowadzony, oferuje rozumowanie na poziomie Pro z prędkością Flash: 90.4% w GPQA Diamond i 33.7% w Humanity’s Last Exam (bez narzędzi). Gemini 3 staje się domyślnym modelem dla AI Overviews w wyszukiwarce Google.
Google przygotowuje również 60-sekundową reklamę Gemini na Super Bowl LX (8 lutego) — spot “New Home” pokazuje dziecko przygotowujące się do przeprowadzki z pomocą Gemini, ilustrując możliwości wyszukiwania w Zdjęciach Google i generowania obrazów.
NotebookLM: Infografiki i Slide Decks
NotebookLM, teraz zbudowany na Gemini 3, wdraża Infografiki i Slide Decks dla użytkowników Free i Pro. Slide Decks są już drugim najpopularniejszym studiem wyjściowym. Użytkownicy Ultra mogą usunąć znak wodny.
🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics
GitHub: przypięte komentarze w Issues
5 lutego — GitHub wprowadza przypięte komentarze w Issues. Teraz można przypiąć komentarz na górze zgłoszenia z menu kontekstowego. Funkcja, o którą proszono od 2017 roku, aby wyróżnić decyzje, aktualizacje i kluczowe kolejne kroki w długich wątkach.
Co to oznacza
5 lutego 2026 roku pozostanie pamiętnym dniem: Anthropic i OpenAI jednocześnie wprowadzają swoje najbardziej zaawansowane modele kodowania. Claude Opus 4.6 dominuje w benchmarkach pracy profesjonalnej i wyszukiwania informacji, podczas gdy GPT-5.3-Codex przoduje w kodowaniu w terminalu i obsłudze komputera. Oba modele pretendują do miana SOTA (State Of The Art) w Terminal-Bench 2.0 — artykuł Anthropic o szumie infrastrukturalnym ma głęboki sens.
Poza modelami zaostrza się walka platform: OpenAI Frontier atakuje segment enterprise z agentami wdrożonymi w Oracle i Uberze, podczas gdy Anthropic stawia na ekosystem deweloperski (GitHub, Xcode, Claude Code). Google posuwa się naprzód na wszystkich frontach z Gemini 3 w Wyszukiwarce, Chrome i NotebookLM, i przygotowuje Super Bowl, aby zakotwiczyć Gemini w świadomości masowej.
Źródła
- Introducing Claude Opus 4.6
- Quantifying infrastructure noise
- Building a C compiler with parallel Claudes
- Introducing GPT-5.3-Codex
- GPT-5.3-Codex System Card
- Introducing OpenAI Frontier
- Introducing apps in ChatGPT
- Trusted Access for Cyber
- GPT-5 lowers protein synthesis cost
- Gemini 3 Flash
- NotebookLM Infographics
- Pinned comments on GitHub Issues