Szukaj

Claude Code Desktop redesign, Agents SDK OpenAI, Gemini 3.1 Flash TTS et App Mac

Claude Code Desktop redesign, Agents SDK OpenAI, Gemini 3.1 Flash TTS et App Mac

Intensywny dzień 15 kwietnia: Anthropic uruchamia całkowity redesign desktopowej aplikacji Claude Code nastawionej na równoległych agentów, OpenAI publikuje Agents SDK v0.14.0 z natywną piaskownicą i ustandaryzowanymi prymitywami agentowymi, a Google jednocześnie ogłasza Gemini 3.1 Flash TTS (Elo 1 211) oraz darmową aplikację desktopową na macOS. Równolegle Mistral otwiera Connectors MCP w Studio, Anthropic publikuje dwa istotne badania o dopasowaniu, a w reklamie motoryzacyjnej pojawia się nowość: pierwszy spot Mazdy w całości wyprodukowany przez AI.


Claude Code Desktop : redesign dla równoległych agentów

14 kwietnia — Anthropic uruchamia całkowity redesign desktopowej aplikacji Claude Code, zaprojektowany z myślą o uruchamianiu wielu sesji równolegle.

“We’ve redesigned Claude Code on desktop. You can now run multiple Claude sessions side by side from the same app.”

🇵🇱 Przeprojektowaliśmy Claude Code na desktopie. Teraz możesz uruchamiać kilka sesji Claude równolegle z tej samej aplikacji.@claudeai na X

FunkcjaOpis
Pasek boczny sesjiWszystkie aktywne i ostatnie sesje, filtrowalne według statusu, projektu lub środowiska
Side chat (⌘+; / Ctrl+;)Gałąź rozmowy z głównej sesji bez zaśmiecania jej
Zintegrowany terminalUruchamianie testów lub buildów bez opuszczania aplikacji
Edytor plików w aplikacjiOtwieranie, modyfikowanie i zapisywanie plików bezpośrednio
Przebudowany diff viewerLepsza wydajność przy dużych changesetach
Rozszerzony podglądHTML, PDF, lokalne serwery w panelu podglądu
Układ drag-and-dropSwobodne rozmieszczanie terminala, podglądu, diff viewera i czatu
Parzystość wtyczek CLIWtyczki działają identycznie w aplikacji desktopowej
Rozszerzony SSH na MacOprócz Linuxa sesje mogą wskazywać maszyny zdalne
3 tryby widokuVerbose, Normal, Summary — od pełnych szczegółów po same wyniki

Pasek boczny sesji stanowi najbardziej przełomową zmianę: centralizuje wszystkie aktywne sesje w jednym miejscu, co zasadniczo zmienia sposób pracy z wieloma agentami równolegle. Side chat (⌘+; na Macu, Ctrl+; na Linux/Windows) pozwala rozpocząć poboczną rozmowę bez zanieczyszczania kontekstu głównej sesji — przydatne do zadania szybkiego pytania albo sprawdzenia hipotezy.

Rozszerzenie SSH na macOS domyka istotną lukę względem Linuxa: sesje mogą teraz wskazywać maszyny zdalne z Maca, co otwiera drogę do workflow, w których kod wykonuje się na zdalnym serwerze, pozostając jednocześnie sterowany z lokalnego interfejsu.

Dostępne teraz dla wszystkich użytkowników Claude Code w planach Pro, Max, Team, Enterprise oraz przez API Claude.

🔗 Blog Claude — Przeprojektowanie Claude Code na desktopie 🔗 Pobierz aplikację


OpenAI Agents SDK v0.14.0 : natywna piaskownica i prymitywy agentowe

15 kwietnia — OpenAI publikuje znaczącą ewolucję swojego Agents SDK (openai-agents>=0.14.0). Ogłoszenie pozycjonuje ten SDK jako standardową infrastrukturę do budowania agentów w produkcji.

Rozszerzony natywny harness

SDK integruje teraz zestaw prymitywów, które odpowiadają temu, co robią inne wiodące środowiska uruchomieniowe agentowe:

PrymitywOpis
MCP (tool use)Wywoływanie narzędzi przez protokół MCP
AGENTS.mdNiestandardowe instrukcje przez plik konfiguracyjny
shell toolWykonywanie poleceń (execution of code)
apply patch toolEdycja plików przez patch
SkillsStopniowe ujawnianie możliwości
Konfigurowalna pamięćZarządzanie długoterminowym stanem agenta

Środowisko uruchomieniowe w piaskownicy (sandbox)

Agenci mogą teraz działać w kontrolowanych środowiskach (sandboxes) z własnym systemem plików, zależnościami i narzędziami. Rozdzielenie między orchestratorem (harness) a obliczeniami (compute) zostało zaprojektowane dla trzech celów: ochrony sekretów w środowiskach, w których uruchamia się wygenerowany kod, umożliwienia trwałego wykonywania dzięki punktowi kontrolnemu (checkpoint) i rehydratacji w razie awarii kontenera oraz skalowania (scaling) z wieloma piaskownicami równolegle.

Natywnie wspierani dostawcy piaskownic: Blaxel, Cloudflare, Daytona, E2B, Modal, Runloop, Vercel.

Przechowywanie przez abstrakcję Manifest : AWS S3, Google Cloud Storage, Azure Blob Storage, Cloudflare R2.

Dostępność

Python jako pierwszy, TypeScript planowany w kolejnej wersji. Wśród firm, które testowały wcześniej: Oscar Health, LexisNexis, Thomson Reuters, Zoom.

🔗 Oficjalne ogłoszenie OpenAI


Gemini 3.1 Flash TTS : audio tags i Elo 1 211

15 kwietnia — Google uruchamia Gemini 3.1 Flash TTS, swój najbardziej ekspresyjny i sterowalny jak dotąd model syntezy mowy (text-to-speech).

Najważniejszą nowością jest wprowadzenie audio tags: poleceń w języku naturalnym osadzonych bezpośrednio w tekście wejściowym, które pozwalają sterować stylem głosu, tempem i tonem. Fragment otoczony [excitement] zostanie wypowiedziany z entuzjazmem, a fragment [explanatory] przyjmie ton dydaktyczny. Takie podejście stawia dewelopera w roli „reżysera”, który komponuje precyzyjne doświadczenia audio.

FunkcjaSzczegół
Audio tagsPolecenia w języku naturalnym w tekście
Obsługiwane języki70+ (w tym 24 oceniane w wysokiej jakości)
Dialog wielomówcowyNatywny
WatermarkingWbudowany SynthID w całym generowanym audio
Wynik Elo1 211 (Artificial Analysis TTS Leaderboard)

Ze wynikiem Elo 1 211 w referencyjnym rankingu Artificial Analysis TTS — który mierzy tysiące ludzkich preferencji w teście ślepym — model jest pozycjonowany w „najatrakcyjniejszym kwadrancie” dzięki równowadze jakości i kosztu.

W Google AI Studio dostępne są trzy zaawansowane kontrolki: Scene direction (określenie środowiska i instrukcji gry), Speaker-level specificity (unikalne profile audio dla każdej postaci) oraz Seamless export (eksport parametrów do kodu API, aby utrzymać spójność głosu między projektami).

Całe generowane audio jest niewidocznie oznaczane przez SynthID, cyfrowy znak wodny Google.

Dostępność:

  • Deweloperzy: podgląd (preview) przez API Gemini i Google AI Studio
  • Firmy: podgląd w Vertex AI
  • Użytkownicy Workspace: przez Google Vids

🔗 Artykuł blog.google — Gemini 3.1 Flash TTS


Gemini App na Maca : natywny klient desktopowy

15 kwietnia — Google uruchamia aplikację Gemini dla macOS, dostępną bezpłatnie dla wszystkich użytkowników na macOS 15 i nowszym.

FunkcjaSzczegół
Skrót globalnyOption + Space z dowolnej aplikacji
Udostępnianie oknaKontekst z lokalnych dokumentów, kodu, danych
Generowanie obrazówIntegracja Nano Banana
Generowanie wideoIntegracja Veo
DostępnośćDarmowa, macOS 15+, globalnie

Aplikacja jest dostępna z dowolnego ekranu przez Option + Space, co pozwala zadawać pytania Gemini bez wychodzenia z przepływu pracy. Może udostępniać aktywne okno, aby dostarczyć natychmiastowy kontekst dotyczący lokalnych plików, tabel, wykresów lub bloków kodu.

Google przedstawia tę wersję jako „pierwszą wersję”, która kładzie podwaliny pod osobistego i proaktywnego asystenta biurkowego, z kolejnymi zapowiedziami planowanymi na najbliższe miesiące.

🔗 Artykuł blog.google — Gemini App dla macOS


Claude Code v2.1.108 i v2.1.109 : podsumowanie sesji, caching 1h, thinking

14-15 kwietnia — Dwie nowe wersje Claude Code w dwa dni.

v2.1.108 przynosi kilka usprawnień funkcjonalnych:

FunkcjaOpis
Podsumowanie sesji/recap lub /config, uruchamiane automatycznie po nieobecności. Można wymusić przez CLAUDE_CODE_ENABLE_AWAY_SUMMARY
Prompt caching 1hZmienna ENABLE_PROMPT_CACHING_1H dla TTL 1h (API key, Bedrock, Vertex, Foundry). FORCE_PROMPT_CACHING_5M wymusza TTL 5 min
Slash commands przez Skill toolModel może wywoływać wbudowane polecenia (/init, /review, /security-review) przez Skill tool
/undo alias/undo jest teraz aliasem dla /rewind
Usprawnienia /modelOstrzeżenie przed zmianą modelu (następna odpowiedź ponownie odczytuje pełną historię bez cache)
Usprawnienia /resumeDomyślnie sesje z bieżącego katalogu; Ctrl+A do wyświetlenia wszystkich projektów

Funkcja /recap jest szczególnie przydatna w kontekście równoległych agentów: gdy wraca się do sesji pozostawionej w tle, Claude podsumowuje to, co wydarzyło się od ostatniej interakcji.

v2.1.109 przynosi usprawnienie interfejsu dla trybu extended thinking: wskaźnik postępu obraca się z rotującą podpowiedzią, aby lepiej wizualizować, że model znajduje się w fazie myślenia.

🔗 CHANGELOG Claude Code


Anthropic : zautomatyzowani badacze dopasowania (PGR 0.97)

14 kwietnia — W ramach programu Anthropic Fellows przeprowadzono oryginalny eksperyment: czy można użyć Claude Opus 4.6 do przyspieszenia badań nad dopasowaniem?

Problem nadzoru „słaby do silnego” (weak-to-strong supervision) jest proxy nadchodzącego wyzwania: jak nadzorować modele inteligentniejsze od nas? Eksperyment wykorzystuje silny model (Qwen 3-4B-Base) i słaby model jako „nauczyciela” (Qwen 1.5-0.5B-Chat). Metryka performance gap recovered (PGR) mierzy, w jakim stopniu silny model wykracza poza ograniczenia słabego nauczyciela.

Układ: 9 kopii Claude Opus 4.6 wyposażonych w narzędzia (piaskownica, wspólne forum, pamięć masowa, serwer wyników) pracuje równolegle przez 5 dni. Każda instancja otrzymuje nieco inny punkt startowy, aby zachęcić do różnorodności podejść.

WskaźnikWartość
Ludzki baseline (7 dni, 4 metody)PGR 0.23
Zautomatyzowani badacze po 5 dniach (800h łącznie)PGR 0.97
Całkowity koszt~18 000 ( 22(~22/godz. na instancję)
Uogólnienie matematycznePGR 0.94
Uogólnienie koduPGR 0.47 (dwukrotnie więcej niż baseline)
Test produkcyjny (Claude Sonnet 4)Brak istotnej poprawy

Badacze podkreślają, że wynik ten nie oznacza, iż Claude jest „uniwersalnym naukowcem od dopasowania” — wybrany problem jest wyjątkowo dobrze dopasowany do automatyzacji (jedna obiektywna miara). Eksperyment pokazuje jednak, że Claude może wielokrotnie zwiększyć tempo eksperymentów w obszarze alignementu, a różnorodność punktów startowych jest kluczowa. Kod i dane są dostępne jako open source.

🔗 Blog Anthropic — Zautomatyzowani badacze dopasowania


Subtelne uczenie w LLM-ach opublikowane w Nature

15 kwietnia — Artykuł badawczy współautorstwa Anthropic i Owaina Evansa został opublikowany w Nature na temat zjawiska subtelnego uczenia (subliminal learning) w LLM-ach.

“Research we co-authored on subliminal learning—how LLMs can pass on traits like preferences or misalignment through hidden signals in data—was published today in Nature.”

🇵🇱 Badania, które współautorowaliśmy na temat subtelnego uczenia — tego, jak LLM-y mogą przekazywać cechy takie jak preferencje lub niezestrojenie za pośrednictwem ukrytych sygnałów w danych — zostały dziś opublikowane w Nature.@AnthropicAI na X

Artykuł pokazuje, że LLM-y mogą przekazywać cechy (takie jak „lubienie sów”) przez pozornie neutralne dane (na przykład sekwencje liczb niezwiązane z daną cechą). To zjawisko ukrytej transmisji rodzi ważne pytania o bezpieczeństwo: model mógłby propagować preferencje lub niezestrojenie przez dane treningowe bez możliwości wykrycia tego podczas bezpośredniej inspekcji. Preprint został opublikowany w lipcu 2025.

🔗 Artykuł Nature — Subliminal Learning


GPT-5.4-Cyber i rozszerzenie programu TAC

14 kwietnia — OpenAI ogłasza rozszerzenie swojego programu Trusted Access for Cyber (TAC) na tysiące zweryfikowanych indywidualnych obrońców oraz setki zespołów odpowiedzialnych za ochronę krytycznego oprogramowania.

Nowy model, GPT-5.4-Cyber, jest od teraz dostępny dla użytkowników z najwyższych poziomów programu. Jest to wariant GPT-5.4 zoptymalizowany pod kątem defensywnego cyberbezpieczeństwa, z obniżonym progiem odmowy dla legalnych zastosowań i ekskluzywną możliwością binarnego reverse engineeringu (analizy skompilowanego oprogramowania bez dostępu do kodu źródłowego).

Program TAC działa na trzech poziomach:

  1. Użytkownicy indywidualni: Weryfikacja tożsamości na chatgpt.com/cyber
  2. Firmy: Dostęp zespołowy poprzez przedstawiciela OpenAI
  3. Wyższe poziomy (dostęp do GPT-5.4-Cyber) : Wzmocnione uwierzytelnianie + wyrażenie zainteresowania

Codex Security, uruchomiony na początku 2026 roku, pomógł już naprawić ponad 3 000 krytycznych i wysokich podatności.

🔗 Oficjalne ogłoszenie OpenAI


Gemini Personal Intelligence: wdrożenie globalne

15 kwietnia — Funkcja Personal Intelligence w aplikacji Gemini rozszerza się na rynki międzynarodowe. Dotychczas ograniczona do Stanów Zjednoczonych, jest teraz dostępna dla subskrybentów Google AI Ultra, Pro i Plus na całym świecie, a udostępnienie użytkownikom darmowym planowane jest wkrótce.

Personal Intelligence pozwala Gemini udzielać spersonalizowanych i kontekstowych odpowiedzi, łącząc się z aplikacjami Google użytkownika: Search, Gmail, Google Photos i YouTube. Google ogłosił również, że Personal Intelligence pojawi się w Google Chrome jeszcze w tym tygodniu.

🔗 Tweet @GeminiApp


Mistral Connectors MCP w Studio (Public Preview)

15 kwietnia — Mistral AI uruchamia Connectors w Mistral Studio w publicznym dostępie wczesnym (Public Preview), umożliwiając łączenie firmowych źródeł danych za pośrednictwem protokołu MCP.

Łącznik kapsułkuje integrację w postaci wielokrotnego użytku opartej na MCP. Po zarejestrowaniu jest zarządzany i monitorowany w Studio, a także staje się natywnym narzędziem dla każdej rozmowy, agenta lub przepływu pracy.

FunkcjonalnośćSzczegół
Wbudowane i niestandardowe MCPsDostępne dla wszystkich zapytań modeli i agentów
Bezpośrednie wywoływanie narzędziPrecyzyjna kontrola nad tym, kiedy i jak narzędzia są uruchamiane
Walidacja przez człowieka w pętliKonfigurowalny przepływ zatwierdzania przed wykonaniem narzędzi
Dostęp programowyTworzenie, modyfikacja, wyświetlanie i usuwanie łączników przez API
Scentralizowany rejestrDostępny we wszystkich aplikacjach Mistral (Le Chat, AI Studio, Vibe wkrótce)

Obsługiwane integracje: CRM, bazy wiedzy, narzędzia produktywności, GitHub, wyszukiwanie w sieci.

🔗 Ogłoszenie Mistral — Connectors


Pierwszy spot reklamowy samochodowy w całości wyprodukowany przez AI

15 kwietnia — Luma Agents zasiliło pierwszy spot reklamowy Mazdy w całości wyprodukowany przez AI. Niezależna agencja kreatywna Boundless (Johannesburg) użyła Luma do stworzenia kampanii łączącej kilka generacji MX-5 oraz dziesięciolecia storytellingu marki. Całkowity czas od koncepcji do ostatecznej akceptacji: mniej niż dwa tygodnie.

Luma wskazuje ten przypadek jako przykład kreatywnych przepływów pracy natywnych dla AI: szybsza produkcja bez kompromisów w zakresie wizji kreatywnej.

🔗 Luma Labs — Boundless × Mazda


Mniejsze ogłoszenia

Kling AI Skill (15 kwietnia) — Kling uruchamia kompleksowe opakowanie swoich API do bezpośredniej integracji w agentach AI. Agenci mogą korzystać z generowania Text/Image-to-Video, generowania obrazów 4K i spójności między scenami, bez skomplikowanej konfiguracji. Zgodne z Claude Code, Cursor, Codex, Copilot. 🔗 Dokumentacja Kling AI Skill

Qwen w OpenCode (15 kwietnia) — Qwen3.6-Plus i Qwen3.5-Plus są teraz dostępne w narzędziu do kodowania OpenCode. Qwen3.5-Plus jest 3x tańszy niż Qwen3.6-Plus, oba modele obsługują obrazy i oferują zerową retencję danych. 🔗 Tweet @Alibaba_Qwen

Copilot Cloud Agent — selektywna aktywacja (15 kwietnia) — Administratorzy GitHub Enterprise mogą teraz selektywnie aktywować Copilot Cloud Agent dla poszczególnych organizacji za pomocą właściwości niestandardowych (custom properties). Trzy nowe endpointy REST umożliwiają zarządzanie tą polityką przez API. 🔗 Changelog GitHub


Co to oznacza

Dzień 15 kwietnia pokazuje zbieżność: najwięksi gracze wyposażają swoje środowiska programistyczne w ustandaryzowaną infrastrukturę agentową. Claude Code Desktop, Agents SDK OpenAI i Mistral Connectors dzielą tę samą logikę — orkiestrują wiele agentów równolegle, wyposażają ich w prymitywy (MCP, AGENTS.md, shell, pliki) i zapewniają im odizolowane środowisko wykonawcze.

Najbardziej strukturalna pozostaje zapowiedź redesignu Claude Code Desktop: sidebar sesji i side chat zmieniają sposób pracy z wieloma agentami jednocześnie, co stopniowo staje się normą dla programistów korzystających z AI.

Po stronie badań publikacja Nature dotycząca subliminalnego uczenia się oraz eksperyment badaczy nad automatycznymi badaczami alignmentu (PGR 0.97 za 18 000 $) sygnalizują, że Anthropic równolegle inwestuje w zrozumienie długoterminowych ryzyk — równowagę między natychmiastową produktywnością a bezpieczeństwem strukturalnym.


Źródła

Ten dokument został przetłumaczony z wersji fr na język pl przy użyciu modelu gpt-5.4-mini. Aby uzyskać więcej informacji o procesie tłumaczenia, odwiedź https://github.com/jls42/ai-powered-markdown-translator