Claude Opus 4.6 i GPT-5.3-Codex: Podwójna premiera, aktualizacja Gemini 3

Podwójna premiera na szczycie: Anthropic wypuszcza Claude Opus 4.6 z kontekstem 1 miliona tokenów i zespołami agentów, podczas gdy OpenAI odpowiada modelem GPT-5.3-Codex i platformą enterprise. Google promuje Gemini 3 na wszystkich frontach, a GitHub w końcu odpowiada na prośbę sprzed 8 lat.

Claude Opus 4.6: SOTA w agentic coding i kontekst 1M

5 lutego — Anthropic wprowadza Claude Opus 4.6, dużą aktualizację swojego najinteligentniejszego modelu. Model robi postępy w planowaniu, długich sesjach, przeglądzie kodu i po raz pierwszy oferuje kontekst 1 miliona tokenów w wersji beta dla modelu Opus.

Benchmark	Wynik	Szczegóły
Terminal-Bench 2.0	SOTA	Najwyższy wynik w agentic coding
Humanity’s Last Exam	SOTA	Rozumowanie multidyscyplinarne
GDPval-AA	+144 Elo vs GPT-5.2	Praca profesjonalna (finanse, prawo)
BrowseComp	SOTA	Złożone wyszukiwanie informacji
MRCR v2 (8-needle 1M)	76%	vs 18.5% dla Sonnet 4.5

Nowości w API i produkcie

Funkcja	Opis
Agent teams	Wiele agentów Claude Code równolegle (research preview)
Adaptive thinking	Model wybiera, kiedy użyć głębokiego myślenia
Effort controls	4 poziomy: niski, średni, wysoki (domyślny), maks
Context compaction	Automatyczne streszczanie kontekstu dla długich sesji
128k output tokens	Dłuższe odpowiedzi w jednym zapytaniu
Claude in PowerPoint	Research preview (Max, Team, Enterprise)

Cennik: Bez zmian, 5 USD / 25 USD za milion tokenów (input/output). Ceny premium powyżej 200 tys. tokenów (10 USD / 37.50 USD).

Dostępność: claude.ai, API (claude-opus-4-6) i wszystkie główne platformy chmurowe.

Blogi inżynierskie: szum infrastrukturalny i kompilator C

Anthropic publikuje tego samego dnia dwa artykuły techniczne. Pierwszy kwantyfikuje szum infrastrukturalny w benchmarkach agentic coding: w Terminal-Bench 2.0 sama konfiguracja zasobów może tworzyć różnice rzędu 6 punktów procentowych między konfiguracjami. Drugi dokumentuje budowę kompilatora C w Rust przez 16 równoległych agentów Claude: 100 000 linii kodu, zdolnego do skompilowania jądra Linux 6.9 na x86, ARM i RISC-V, w ~2000 sesji Claude Code za ~20 000 USD.

Opus 4.6 w GitHub Copilot

Tego samego dnia Claude Opus 4.6 staje się dostępny w GA w GitHub Copilot poprzez Agent HQ, po publicznej wersji zapoznawczej ogłoszonej dzień wcześniej.

🔗 Ogłoszenie Opus 4.6 | Szum infrastrukturalny | Budowa kompilatora C

GPT-5.3-Codex: granica kodowania + wiedza pro

5 lutego — OpenAI wprowadza GPT-5.3-Codex, który łączy wydajność kodowania GPT-5.2-Codex z możliwościami rozumowania GPT-5.2, wszystko 25% szybciej.

Benchmark	Wynik
SWE-Bench Pro (Publiczny)	56.8%
Terminal-Bench 2.0	77.3%
OSWorld-Verified	64.7%
GDPval (wygrane lub remisy)	70.9%
Cybersecurity CTF	77.6%
SWE-Lancer IC Diamond	81.4%

GPT-5.3-Codex to pierwszy model, który przyczynił się do własnego powstania: zespół używał wstępnych wersji do debugowania treningu, zarządzania wdrożeniem i analizy wyników testów.

Poza kodem

Model tworzy prezentacje, arkusze kalkulacyjne, analizuje dane i obsługuje zadania produktywności w środowisku pulpitu (64.7% w OSWorld-Verified).

Cyberbezpieczeństwo: wysoka zdolność

GPT-5.3-Codex to pierwszy model oceniony jako wysoka zdolność w zakresie cyberbezpieczeństwa w ramach frameworku gotowości OpenAI i pierwszy specjalnie przeszkolony do identyfikowania luk w oprogramowaniu.

🔗 Blog GPT-5.3-Codex | System Card

OpenAI: Frontier, MCP Apps, bezpieczeństwo i biotech

OpenAI Frontier: platforma agentów enterprise

5 lutego — OpenAI uruchamia Frontier, platformę do tworzenia, wdrażania i zarządzania agentami AI w przedsiębiorstwie. Agenci otrzymują wspólny kontekst biznesowy, uprawnienia i uczą się przez doświadczenie.

Aspekt	Szczegóły
Pierwsi klienci	HP, Intuit, Oracle, State Farm, Thermo Fisher, Uber
Partnerzy AI	Abridge, Clay, Ambience, Decagon, Harvey, Sierra
Podejście	Forward Deployed Engineers (FDE) zintegrowani z zespołami
Standardy	Otwarte standardy, kompatybilność z istniejącymi systemami

ChatGPT: MCP Apps w wersji beta

5 lutego — MCP Apps pojawiają się w wersji beta w ChatGPT Business, Enterprise i Edu. Nowe konektory partnerów: Amplitude, Fireflies, Vercel, Monday.com, Stripe, Hex, Egnyte i inni. Organizacje mogą budować niestandardowe aplikacje MCP w trybie deweloperskim.

Trusted Access for Cyber

5 lutego — OpenAI uruchamia Trusted Access for Cyber, program pilotażowy dostępu opartego na zaufaniu do zaawansowanych możliwości cybernetycznych. Użytkownicy mogą zweryfikować swoją tożsamość na chatgpt.com/cyber. 10 milionów dolarów w kredytach API przeznaczono na cyberobronę w ramach Cybersecurity Grant Program.

GPT-5 obniża koszt syntezy białek

5 lutego — We współpracy z Ginkgo Bioworks, OpenAI łączy GPT-5 ze zrobotyzowanym laboratorium w celu optymalizacji bezkomórkowej syntezy białek (CFPS). Wynik: 40% redukcji kosztów produkcji i 57% poprawy kosztów odczynników, po przetestowaniu 36 000 kompozycji na 580 zautomatyzowanych płytkach w sześciu rundach eksperymentów.

🔗 OpenAI Frontier | MCP Apps | Trusted Access for Cyber | GPT-5 białka

Google: Gemini 3, Super Bowl i NotebookLM

Gemini 3: aktualizacje i Super Bowl

5-6 lutego — Google promuje Gemini 3 na wszystkich frontach. Gemini 3 Flash, niedawno wprowadzony, oferuje rozumowanie na poziomie Pro z prędkością Flash: 90.4% w GPQA Diamond i 33.7% w Humanity’s Last Exam (bez narzędzi). Gemini 3 staje się domyślnym modelem dla AI Overviews w wyszukiwarce Google.

Google przygotowuje również 60-sekundową reklamę Gemini na Super Bowl LX (8 lutego) — spot “New Home” pokazuje dziecko przygotowujące się do przeprowadzki z pomocą Gemini, ilustrując możliwości wyszukiwania w Zdjęciach Google i generowania obrazów.

NotebookLM: Infografiki i Slide Decks

NotebookLM, teraz zbudowany na Gemini 3, wdraża Infografiki i Slide Decks dla użytkowników Free i Pro. Slide Decks są już drugim najpopularniejszym studiem wyjściowym. Użytkownicy Ultra mogą usunąć znak wodny.

🔗 Gemini 3 Flash | Gemini 3 App | NotebookLM Infographics

GitHub: przypięte komentarze w Issues

5 lutego — GitHub wprowadza przypięte komentarze w Issues. Teraz można przypiąć komentarz na górze zgłoszenia z menu kontekstowego. Funkcja, o którą proszono od 2017 roku, aby wyróżnić decyzje, aktualizacje i kluczowe kolejne kroki w długich wątkach.

🔗 Changelog

Co to oznacza

5 lutego 2026 roku pozostanie pamiętnym dniem: Anthropic i OpenAI jednocześnie wprowadzają swoje najbardziej zaawansowane modele kodowania. Claude Opus 4.6 dominuje w benchmarkach pracy profesjonalnej i wyszukiwania informacji, podczas gdy GPT-5.3-Codex przoduje w kodowaniu w terminalu i obsłudze komputera. Oba modele pretendują do miana SOTA (State Of The Art) w Terminal-Bench 2.0 — artykuł Anthropic o szumie infrastrukturalnym ma głęboki sens.

Poza modelami zaostrza się walka platform: OpenAI Frontier atakuje segment enterprise z agentami wdrożonymi w Oracle i Uberze, podczas gdy Anthropic stawia na ekosystem deweloperski (GitHub, Xcode, Claude Code). Google posuwa się naprzód na wszystkich frontach z Gemini 3 w Wyszukiwarce, Chrome i NotebookLM, i przygotowuje Super Bowl, aby zakotwiczyć Gemini w świadomości masowej.