OpenAI lanserar GPT-5.5, Anthropic öppnar minnet för Managed Agents, Kimi K2.6 Agent Swarm

Den 23 april 2026 markerar en intensiv dag: OpenAI lanserar GPT-5.5 med 85 % på ARC-AGI-2 och ett API-pris på $5/M tokens in, medan Anthropic öppnar ihållande minne i beta för sina Managed Agents och publicerar en post-mortem om Claude Code. Samtidigt levererar GitHub Copilot sju uppdateringar på tre dagar, Kimi K2.6 distribuerar en svärm (swarm) av 300 underagenter, och SpaceX sluter ett kodningspartnerskap med Cursor.

GPT-5.5: OpenAIs frontier-modell

23 april — OpenAI lanserar GPT-5.5, sin hittills kraftfullaste modell, utformad för verkligt arbete och agenter. Den förbättrar avsevärt agentisk kodning, datoranvändning (computer use), kunskapsarbete och vetenskaplig forskning, samtidigt som den behåller GPT-5.4:s latens.

Tillgänglighet och prissättning

GPT-5.5 är omedelbart tillgänglig för ChatGPT Plus-, Pro-, Business- och Enterprise-prenumeranter, samt i Codex. API-åtkomst kommer “mycket snart”.

Erbjudande	API-åtkomst	Inmatning	Utmatning
GPT-5.5 standard	Snart	$5 / M tokens	$30 / M tokens
GPT-5.5 Pro	Snart	$30 / M tokens	$180 / M tokens

Kontextfönstret i Codex når 400K tokens. Ett Fast-läge — 1,5× snabbare, 2,5× kostnaden — finns tillgängligt.

Benchmarks

Utvärdering	GPT-5.5	GPT-5.4	Claude Opus 4.7	Gemini 3.1 Pro
Terminal-Bench 2.0	82.7%	75.1%	69.4%	68.5%
Expert-SWE (intern)	73.1%	68.5%	—	—
SWE-Bench Pro	58.6%	57.7%	64.3%	54.2%
GDPval	84.9%	83.0%	80.3%	67.3%
OSWorld-Verified	78.7%	75.0%	78.0%	—
ARC-AGI-2	85.0%	73.3%	75.8%	77.1%
FrontierMath Tier 4	35.4%	27.1%	22.9%	16.7%
CyberGym	81.8%	79.0%	73.1%	—
BixBench (bioinformatik)	80.5%	74.0%	—	—

GPT-5.5 ligger i täten i majoriteten av benchmarks, med ett anmärkningsvärt undantag: SWE-Bench Pro där Claude Opus 4.7 behåller övertaget (64.3 % mot 58.6 %).

Infrastruktur och säkerhet

Modellen har samutvecklats med NVIDIA GB200/GB300 NVL72. Codex använde GPT-5.5 för att optimera sin egen infrastruktur och vann +20 % i token-genereringshastighet. På cybersäkerhetssidan klassas GPT-5.5 som High i OpenAIs Preparedness Framework (inte Critical); Trusted Access Cyber-programmet utökas till den.

Vetenskaplig forskning

Utöver kod hjälpte GPT-5.5 till att bevisa en ny sats om Ramsey-tal (kombinatorik), formellt verifierad i Lean. Den analyserade också en genomisk datamängd med 62 prover och 28 000 gener på några minuter — en uppgift som skulle ha krävt månader för ett forskarteam.

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇫🇷 GPT-5.5 är märkbart smartare och mer ihärdig än GPT-5.4, med starkare kodningsprestanda och mer tillförlitlig verktygsanvändning. — Michael Truell, medgrundare och VD för Cursor

🔗 GPT-5.5-meddelande

Våg av persistenta agenter

Tre stora tillkännagivanden sammanstrålar denna 23 april kring den persistenta agenten, som kan agera autonomt under långa perioder och behålla kontext från en session till nästa.

OpenAI Workspace Agents i ChatGPT

22 april — OpenAI presenterar arbetsyteagenter (Workspace Agents): delade agenter som ett team skapar en gång, använder tillsammans i ChatGPT eller Slack, och gradvis förbättrar. Drivna av Codex i molnet kan de utföra komplexa uppgifter även när användaren är frånkopplad. Workspace Agents ersätter gradvis GPT:erna, som förblir tillgängliga under övergången.

Agenttyp	Funktion
Programvarugranskare	Granskar förfrågningar, jämför policyer, skapar IT-ärenden
Router för produktfeedback	Övervakar Slack/support/forum → prioriterade ärenden
Rapportgenerator	Extraherar data på fredagar, skapar diagram, sammanfattning
Prospekteringsagent	Söker leads, bedömer, skriver e-post, uppdaterar CRM
Ansvarig för tredjepartsrisk	Utvärderar leverantörer, producerar strukturerad rapport

Tillgängliga i research preview för Business, Enterprise, Edu och Teachers; gratis till och med 6 maj 2026, därefter debitering i krediter.

Enligt Ankur Bhatt (AI Engineering, Rippling) körs det som tidigare tog 5 till 6 timmar per vecka för säljarna nu automatiskt i bakgrunden på varje affärsmöjlighet.

🔗 Workspace Agents

Anthropic — Minnet för Claude Managed Agents

23 april — Minnet för Claude Managed Agents finns tillgängligt i offentlig beta på Claude Platform. Agenterna kan nu lära sig från en session till nästa tack vare ett minneslager som monteras direkt ovanpå ett filsystem: agenterna använder samma bash- och kodkörningsförmågor som de redan använder för agentiska uppgifter.

Funktion	Detalj
Delbara lagringar	Flera agenter, olika åtkomstnivåer (endast läs / läs-skriv)
Samtidig åtkomst	Utan överskrivning mellan parallella sessioner
Revisionslogg	Vilken session, vilken agent, vilket minne
Återgång	Till valfri tidigare version
Exporterbarhet	Minnen hanterbara via API:n

Kundresultaten illustrerar den konkreta effekten:

Kund	Resultat
Rakuten	-97 % fel vid första genomgången, -27 % kostnad, -34 % latens
Wisedocs	+30 % snabbare dokumentgranskning
Netflix	Kontekstkontinuitet mellan sessioner utan manuell uppdatering
Ando	Plattformsminne utan dedikerad infrastruktur

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇫🇷 Minnet i Claude Managed Agents gör att vi kan sätta kontinuerligt lärande i produktion i stor skala. Våra agenter destillerar lärdomar från varje session och levererar 97 % färre fel vid första genomgången, med 27 % lägre kostnad och 34 % lägre latens. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Minnet för Managed Agents

Claude Code: kvalitets-post-mortem och två nya versioner

Post-mortem och återställning av gränser

23 april — Claude Code-teamet har publicerat en post-mortem om tre kvalitetsproblem som rapporterats under den gångna månaden. Alla är åtgärdade i v2.1.116+. Användningsgränserna har återställts för alla prenumeranter.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇫🇷 Under den gångna månaden rapporterade några av er att Claude Codes kvalitet hade försämrats. Vi undersökte detta och publicerade en post-mortem om de tre problem vi fann. Alla är åtgärdade i v2.1.116+ och vi har återställt användningsgränserna för alla prenumeranter. — @ClaudeDevs

v2.1.117 och v2.1.118

Version	Huvudfunktioner
v2.1.118	Visuellt Vim-läge (`v`/`V`) med markering och operatorer; enhetlig `/usage` (slår ihop `/cost` och `/stats`); anpassade teman i `/theme`; hooks som anropar MCP-verktyg via `type: "mcp_tool"`; strikt `DISABLE_UPDATES`; ärvda managed settings i Windows via WSL
v2.1.117	Standardeffort ökad till `high` för Pro/Max på Opus 4.6 och Sonnet 4.6 (var `medium`); förgrening av underagenter kan aktiveras på externa builds; `glob`/`Grep` ersatta av inbyggda `bfs`/`ugrep` för snabbare sökningar; fix för Opus 4.7-sessioner (1M-kontekst beräknad korrekt); fix för Bedrock+Opus 4.7 med thinking avstängt

🔗 CHANGELOG Claude Code

Nya Claude-anslutningar för vardagslivet

23 april — Anthropic utökar sitt utbud av anslutningar till konsumentappar. Sedan juli 2025 har mer än 200 anslutningar för professionella verktyg varit tillgängliga; denna uppdatering lägger till 15 vardagstjänster.

Applikation	Kategori
AllTrails	Vandring
Audible	Ljudböcker
Booking.com	Resor
Instacart	Matinköp online
Intuit Credit Karma	Finans
Intuit TurboTax	Skatter
Resy	Restaurangbokningar
Spotify	Musik
StubHub	Biljetter
Taskrabbit	Hemtjänster
Thumbtack	Lokala yrkespersoner
TripAdvisor	Resor
Uber	Transport
Uber Eats	Matleverans
Viator	Turistaktiviteter

Claude föreslår nu automatiskt relevanta anslutningar beroende på konversationens kontext. Tillgängliga på alla planer (inklusive gratis), webb, desktop och mobil (mobil i beta). Ingen betald placering eller sponsrat svar; data från en app används inte för att träna modellerna.

🔗 Anslutningar för vardagslivet

GitHub Copilot — Sju uppdateringar på tre dagar

GitHub Copilot publicerade sju poster i sin changelog mellan 22 och 23 april.

Chat för pull requests (3 nya funktioner)

23 april — Copilot Chat integrerar nu tre funktioner för pull requests, tillgängliga via github.com/copilot eller Copilot-knappen på diffs (offentlig preview):

Förståelse av PR (pull request understanding) : kommentarer, ändringar, commits och granskningar integrerade som kontext
PR-granskning: strukturerad granskning på begäran
PR-sammanfattning: kort sammanfattning av ändringarna

🔗 Förbättringar i Copilot Chat för PR

Agent-sessioner styrbara från issues och projekt

23 april — Cloud agent är nu direkt styrbar från GitHub-issues och projektbrädor: sessionsindikator i issue-huvudet, sidopanel för framsteg, sessioner aktiverade som standard i alla projektvyer.

🔗 Agent-sessioner från issues

Strukturerad felsökning av stack traces på webben

23 april — Copilot Chat på github.com vägleder nu analysen av stack traces i sex strukturerade steg: vad som misslyckades, varför, rotorsaken, bevis från koden, tillförlitlighetsnivån och nästa kontroller.

🔗 Felsökning av stack traces

BYOK VS Code tillgängligt (GA)

22 april — Bring Your Own Key (ta med din egen API-nyckel) är i allmän tillgänglighet för Copilot Business- och Enterprise-användare i VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure stöds, liksom lokala modeller via Ollama och Foundry Local. Faktureringen sker direkt av den valda leverantören, utanför Copilot-kvoterna.

🔗 BYOK VS Code GA

C++ Language Server i offentlig preview för Copilot CLI

22 april — Microsoft C++ Language Server (IntelliSense-motorn i Visual Studio/VS Code) finns tillgänglig i offentlig preview för Copilot CLI. Den tillhandahåller exakta semantiska data (symbolsdefinitioner, referenser, anropshierarkier, typer) som ersättning för iterativ grep-sökning. Förutsättningar: Copilot CLI-autentisering + compile_commands.json.

🔗 C++ Language Server

Nya Business self-serve-registreringar pausas

22 april — GitHub pausar nya self-serve-registreringar för Copilot Business på planerna GitHub Free och GitHub Team. Befintliga kunder påverkas inte.

🔗 Paus för Business self-serve

Fältet `used_copilot_cloud_agent` i API-mätvärden

23 april — I samband med omprofileringen “coding agent” → “cloud agent” lägger API:n för mätvärden till fältet used_copilot_cloud_agent i användarrapporterna (rullande 1 dag och 28 dagar). Det tidigare fältet used_copilot_coding_agent behålls till 1 augusti 2026.

🔗 Mätvärden för cloud agent

Gemini CLI v0.39.0 och Deep Think för alla Ultra

Gemini CLI v0.39.0

23 april — Google publicerar Gemini CLI v0.39.0, en stabil version märkt “Latest”. Höjdpunkten är det nya kommandot /memory inbox för att granska och validera skills som CLI:n extraherar automatiskt under arbetspass.

Funktion	Beskrivning
`/memory inbox`	Granskning av skills som extraherats automatiskt
Enhetlig `invoke_subagent`	Ombyggt underagentverktyg i ett enda gränssnitt
Kompakt formatering	Bättre läsbarhet i kompakt läge
Plan Mode — bekräftelser	Validering krävs innan skills aktiveras
Lättviktsstart	Lätt föräldraprocess för snabbare start
JSONL streaming-migrering	Loggning av chatsessioner i JSONL

Tillagda kortkommandon: Ctrl+Backspace för ord-för-ord-radering (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think öppnas för alla Ultra-prenumeranter

22 april — Google öppnar läget Deep Think (djupgående resonemang, extended thinking) för samtliga Gemini Ultra-prenumeranter. Det här läget var tidigare tillgängligt i begränsad åtkomst; det finns nu direkt i appens verktygsmeny för Gemini (webb och mobil).

🔗 Tweet @GeminiApp

Kimi K2.6: svärm med 300 underagenter och open-weights-benchmarks

Agent Swarm — 300 parallella underagenter

23 april — Moonshot AI lanserar Kimi K2.6 Agent Swarm: ett system som kan distribuera 300 underagenter parallellt över 4 000 steg per körning, jämfört med 100 agenter och 1 500 steg för K2.5.

Kapacitet	K2.5	K2.6
Parallella underagenter	100	300
Steg per körning	1 500	4 000
Typer av output	Chatttext	100+ verkliga filer, 100 000-ordsgranskningar, datamängder med 20 000 rader

Underagenterna kombinerar heterogena färdigheter: webbsökning, dataanalys, kodning, långforms-skrivande och visuell generering. Tillgänglig på kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmarks: nummer 1 bland open-weights-modeller

23 april — Kimi K2.6 når förstaplatsen bland open-weights-modeller på två benchmarks: - Design Arena : samma prestationsnivå som Claude Opus 4.7

MathArena open (Think-läge) : före GLM 5.1

🔗 Design Arena

SpaceXAI × Cursor och Grok Imagine

Partnerskap SpaceXAI × Cursor

22 april — SpaceXAI (en enhet som uppstått ur sammanslagningen xAI/SpaceX) och Cursor tillkännager ett partnerskap för att skapa “världens mest kraftfulla AI för kodning och kunskapsarbete”. SpaceX bidrar med superdatorn Colossus (motsvarande en miljon H100:or); Cursor ger dem rätt att förvärva företaget senare under 2026 för $60 miljarder, eller att betala $10 miljarder för endast samarbetet.

🔗 Tweet @SpaceX

Grok Imagine — Delbara anpassade mallar

22 april — SuperGrok- och Premium+-prenumeranter kan nu skapa anpassade mallar i Grok Imagine och dela dem offentligt.

🔗 Tweet @imagine

NVIDIA × Google Cloud Next

22 april — På Google Cloud Next (Las Vegas) tillkännager NVIDIA och Google Cloud flera stora framsteg kring agentisk AI-infrastruktur.

Tillkännagivande	Detalj
A5X-instanser (Vera Rubin NVL72)	Upp till 960 000 Rubin-GPU:er i ett multisite-kluster, 10× lägre kostnad per token, 10× högre genomströmning per megawatt
Gemini på Google Distributed Cloud	Förhandsversion med Blackwell- och Blackwell Ultra-GPU:er — datasuveränitet
Confidential VMs Blackwell	Första Blackwell-erbjudandet för konfidentiell datorkraft (confidential computing) i publika molnet
Nemotron 3 Super	Tillgänglig på Gemini Enterprise Agent Platform
NeMo RL API	Hanterad förstärkningsinlärning (Reinforcement Learning) i stor skala

🔗 NVIDIA × Google Cloud-bloggen

Kling AI Video 3.0 — Inbyggt 4K-läge

23 april — Kling AI lanserar inbyggt 4K-läge i sin Video 3.0-serie. 4K-genereringen sker med ett enda klick, utan något extra uppskalningssteg. Den visuella sammanhållningen (karaktärer, texter, stilar, belysning) säkerställs i nativ upplösning för produktion i premiumklass. Finns också via fal.ai för företag.

Samtidigt anordnar Kling AI en 4K Short Film Creative Contest, en global tävling som uppmanar skapare att skicka in kortfilmer gjorda med det nya läget.

🔗 Tweet @Kling_ai

ChatGPT for Clinicians och OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 april — OpenAI lanserar ChatGPT for Clinicians, en gratisversion för verifierade vårdprofessionella i USA (läkare, specialistsjuksköterskor, läkarassistenter, farmaceuter). Tjänsten inkluderar åtkomst till frontier-modeller för komplexa kliniska frågor, skills för repetitiva arbetsflöden (remissbrev, förhandsauktorisationer), citerad klinisk forskning i realtid och automatisk generering av fortbildningspoäng (CME). HIPAA-hantering finns som tillval via avtal.

OpenAI publicerar också HealthBench Professional, ett öppet benchmark som utvärderar AI på verkliga kliniska uppgifter (700 000+ svar bedömda av läkare). GPT-5.4 i ChatGPT for Clinicians överträffar mänskliga läkare på detta benchmark under tidsobegränsade förhållanden med webbtillgång.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 april — OpenAI publicerar Privacy Filter, en open-weight-modell (Apache 2.0) för att upptäcka och maskera personligt identifierbar information (Personally Identifiable Information, PII) i text. Modellen körs lokalt (inga data skickas till en server), stöder 128K tokens kontext och når ett F1-värde på 97.43% på benchmarket PII-Masking-300k.

Egenskap	Värde
Arkitektur	Tvåvägs token-klassificerare (begränsad Viterbi-avkodning)
Storlek	1.5B totala parametrar, 50M aktiva
Kontext	128 000 tokens
Licens	Apache 2.0 (Hugging Face + GitHub)
F1	97.43% på korrigerade PII-Masking-300k

PII-kategorier som täcks: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (lösenord och API-nycklar).

🔗 OpenAI Privacy Filter

Perplexity och Cohere

Perplexity integrerar Kimi K2.6

23 april — Kimi K2.6 från Moonshot AI finns nu tillgänglig för alla Perplexitys Pro- och Max-prenumeranter.

🔗 Tweet @perplexity_ai

Cohere — W4A8 redo för produktion i vLLM

22 april — Cohere tillkännager integrationen av sin W4A8-inferens (4-bitars kvantisering för vikter, 8 bitar för aktiveringar) i vLLM. Resultat på Hopper-GPU:er jämfört med W4A16: +58% på tiden till första token (Time To First Token) och +45% på tiden per utgående token (Time Per Output Token). Integrationen riktar sig i första hand till de storskaliga MoE-modellerna Command A i produktion.

🔗 Cohere W4A8-bloggen

Kortnytt

Suno nummer 1 i musikfliken i App Store

21 april — Suno, plattformen för AI-genererad musik, når förstaplatsen i App Store i kategorin musik. CEO Mikey Shulman meddelar: « The future of music is one where everyone enjoys creating. »

🔗 Tweet @suno

Anthropic Economic Index Survey

22 april — Anthropic lanserar Anthropic Economic Index Survey, en månatlig undersökning genomförd via Anthropic Interviewer på ett slumpmässigt urval av Claude-användare. Målet är att samla in kvalitativa data om AI:s ekonomiska påverkan: delegerade uppgifter, produktivitetsvinster, förändringar i roller. Resultaten kommer att mata framtida rapporter från Anthropic Economic Index.

🔗 Undersökningsmeddelande

Anthropic — MCP-agenter i produktion: siffrorna

22 april — En teknisk artikel från Anthropic dokumenterar fördelarna med MCP för produktionsagenter: MCP SDK:er överstiger 300 miljoner nedladdningar per månad, tool search minskar antalet tokens för verktygsdefinitioner med 85%, och programmatisk tool calling minskar tokenanvändningen med 37% i komplexa flerstegsarbetflöden.

🔗 MCP-blogg om produktionsagenter

OpenAI — WebSockets i API Responses: 40% lägre latens

22 april — En tillbakablickande artikel från OpenAI som förklarar hur WebSocket-läget i API Responses minskar latensen i agentloopar med 40%. Den permanenta anslutningen håller en cache i minnet av tillståndet i tidigare svar, vilket undviker att hela historiken behöver bearbetas på nytt vid varje anrop. Redan i produktion: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).

🔗 Artikel om WebSockets

Perplexity Research — Träning av sökförstärkta modeller

22 april — Perplexity publicerar en studie om sin SFT + RL-pipeline (Supervised Fine-Tuning + Reinforcement Learning) för att förbättra kvaliteten på söksvar. Nyckelresultat: posttränade Qwen-modeller når GPT-modellers faktagrundade korrekthet till lägre kostnad.

🔗 Perplexity Research

Vad detta betyder

Den 23 april 2026 ritar upp två sammanfallande trender. Å ena sidan bekräftar GPT-5.5 att OpenAI har tagit tillbaka ledningen på de agentiska benchmarks (Terminal-Bench, ARC-AGI-2, OSWorld) efter flera månader då Claude Opus 4.7 dominerade. Gapet är fortfarande snävt på SWE-Bench Pro, där Anthropic behåller övertaget — ett tecken på att de två labben prioriterar samma användningsfall.

Å andra sidan markerar dagen inträdet i eran med persistenta agenter med minne: OpenAI Workspace Agents, Anthropic Managed Agents Memory och Kimi K2.6 Agent Swarm kommer samtidigt med olika angreppssätt (Slack-integration, filesystem-based, svärm av underagenter), men med samma mål — att agenten ska minnas, lära sig och agera utan ständig övervakning. Rakuten-siffrorna (-97% fel, -27% kostnad) ger en första industriell måttstock för effekten.

GitHub Copilot fortsätter sin strategi med djup integration i GitHub.com (PR-chat, agent-sessioner från issues, strukturerade stack traces) samtidigt som det öppnas utåt via BYOK. BYOK VS Code GA signalerar att Copilot positionerar sig lika mycket som ett gränssnitt som som en modell.

Källor

Detta dokument har översatts från fr-versionen till språket sv med hjälp av modellen gpt-5.4-mini. För mer information om översättningsprocessen, se https://gitlab.com/jls42/ai-powered-markdown-translator