Den 23 april 2026 markerar en intensiv dag: OpenAI lanserar GPT-5.5 med 85 % på ARC-AGI-2 och ett API-pris på $5/M tokens in, medan Anthropic öppnar ihållande minne i beta för sina Managed Agents och publicerar en post-mortem om Claude Code. Samtidigt levererar GitHub Copilot sju uppdateringar på tre dagar, Kimi K2.6 distribuerar en svärm (swarm) av 300 underagenter, och SpaceX sluter ett kodningspartnerskap med Cursor.
GPT-5.5: OpenAIs frontier-modell
23 april — OpenAI lanserar GPT-5.5, sin hittills kraftfullaste modell, utformad för verkligt arbete och agenter. Den förbättrar avsevärt agentisk kodning, datoranvändning (computer use), kunskapsarbete och vetenskaplig forskning, samtidigt som den behåller GPT-5.4:s latens.
Tillgänglighet och prissättning
GPT-5.5 är omedelbart tillgänglig för ChatGPT Plus-, Pro-, Business- och Enterprise-prenumeranter, samt i Codex. API-åtkomst kommer “mycket snart”.
| Erbjudande | API-åtkomst | Inmatning | Utmatning |
|---|---|---|---|
| GPT-5.5 standard | Snart | $5 / M tokens | $30 / M tokens |
| GPT-5.5 Pro | Snart | $30 / M tokens | $180 / M tokens |
Kontextfönstret i Codex når 400K tokens. Ett Fast-läge — 1,5× snabbare, 2,5× kostnaden — finns tillgängligt.
Benchmarks
| Utvärdering | GPT-5.5 | GPT-5.4 | Claude Opus 4.7 | Gemini 3.1 Pro |
|---|---|---|---|---|
| Terminal-Bench 2.0 | 82.7% | 75.1% | 69.4% | 68.5% |
| Expert-SWE (intern) | 73.1% | 68.5% | — | — |
| SWE-Bench Pro | 58.6% | 57.7% | 64.3% | 54.2% |
| GDPval | 84.9% | 83.0% | 80.3% | 67.3% |
| OSWorld-Verified | 78.7% | 75.0% | 78.0% | — |
| ARC-AGI-2 | 85.0% | 73.3% | 75.8% | 77.1% |
| FrontierMath Tier 4 | 35.4% | 27.1% | 22.9% | 16.7% |
| CyberGym | 81.8% | 79.0% | 73.1% | — |
| BixBench (bioinformatik) | 80.5% | 74.0% | — | — |
GPT-5.5 ligger i täten i majoriteten av benchmarks, med ett anmärkningsvärt undantag: SWE-Bench Pro där Claude Opus 4.7 behåller övertaget (64.3 % mot 58.6 %).
Infrastruktur och säkerhet
Modellen har samutvecklats med NVIDIA GB200/GB300 NVL72. Codex använde GPT-5.5 för att optimera sin egen infrastruktur och vann +20 % i token-genereringshastighet. På cybersäkerhetssidan klassas GPT-5.5 som High i OpenAIs Preparedness Framework (inte Critical); Trusted Access Cyber-programmet utökas till den.
Vetenskaplig forskning
Utöver kod hjälpte GPT-5.5 till att bevisa en ny sats om Ramsey-tal (kombinatorik), formellt verifierad i Lean. Den analyserade också en genomisk datamängd med 62 prover och 28 000 gener på några minuter — en uppgift som skulle ha krävt månader för ett forskarteam.
« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »
🇫🇷 GPT-5.5 är märkbart smartare och mer ihärdig än GPT-5.4, med starkare kodningsprestanda och mer tillförlitlig verktygsanvändning. — Michael Truell, medgrundare och VD för Cursor
Våg av persistenta agenter
Tre stora tillkännagivanden sammanstrålar denna 23 april kring den persistenta agenten, som kan agera autonomt under långa perioder och behålla kontext från en session till nästa.
OpenAI Workspace Agents i ChatGPT
22 april — OpenAI presenterar arbetsyteagenter (Workspace Agents): delade agenter som ett team skapar en gång, använder tillsammans i ChatGPT eller Slack, och gradvis förbättrar. Drivna av Codex i molnet kan de utföra komplexa uppgifter även när användaren är frånkopplad. Workspace Agents ersätter gradvis GPT:erna, som förblir tillgängliga under övergången.
| Agenttyp | Funktion |
|---|---|
| Programvarugranskare | Granskar förfrågningar, jämför policyer, skapar IT-ärenden |
| Router för produktfeedback | Övervakar Slack/support/forum → prioriterade ärenden |
| Rapportgenerator | Extraherar data på fredagar, skapar diagram, sammanfattning |
| Prospekteringsagent | Söker leads, bedömer, skriver e-post, uppdaterar CRM |
| Ansvarig för tredjepartsrisk | Utvärderar leverantörer, producerar strukturerad rapport |
Tillgängliga i research preview för Business, Enterprise, Edu och Teachers; gratis till och med 6 maj 2026, därefter debitering i krediter.
Enligt Ankur Bhatt (AI Engineering, Rippling) körs det som tidigare tog 5 till 6 timmar per vecka för säljarna nu automatiskt i bakgrunden på varje affärsmöjlighet.
Anthropic — Minnet för Claude Managed Agents
23 april — Minnet för Claude Managed Agents finns tillgängligt i offentlig beta på Claude Platform. Agenterna kan nu lära sig från en session till nästa tack vare ett minneslager som monteras direkt ovanpå ett filsystem: agenterna använder samma bash- och kodkörningsförmågor som de redan använder för agentiska uppgifter.
| Funktion | Detalj |
|---|---|
| Delbara lagringar | Flera agenter, olika åtkomstnivåer (endast läs / läs-skriv) |
| Samtidig åtkomst | Utan överskrivning mellan parallella sessioner |
| Revisionslogg | Vilken session, vilken agent, vilket minne |
| Återgång | Till valfri tidigare version |
| Exporterbarhet | Minnen hanterbara via API:n |
Kundresultaten illustrerar den konkreta effekten:
| Kund | Resultat |
|---|---|
| Rakuten | -97 % fel vid första genomgången, -27 % kostnad, -34 % latens |
| Wisedocs | +30 % snabbare dokumentgranskning |
| Netflix | Kontekstkontinuitet mellan sessioner utan manuell uppdatering |
| Ando | Plattformsminne utan dedikerad infrastruktur |
Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.
🇫🇷 Minnet i Claude Managed Agents gör att vi kan sätta kontinuerligt lärande i produktion i stor skala. Våra agenter destillerar lärdomar från varje session och levererar 97 % färre fel vid första genomgången, med 27 % lägre kostnad och 34 % lägre latens. — Yusuke Kaji, General Manager AI for Business, Rakuten
Claude Code: kvalitets-post-mortem och två nya versioner
Post-mortem och återställning av gränser
23 april — Claude Code-teamet har publicerat en post-mortem om tre kvalitetsproblem som rapporterats under den gångna månaden. Alla är åtgärdade i v2.1.116+. Användningsgränserna har återställts för alla prenumeranter.
Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.
🇫🇷 Under den gångna månaden rapporterade några av er att Claude Codes kvalitet hade försämrats. Vi undersökte detta och publicerade en post-mortem om de tre problem vi fann. Alla är åtgärdade i v2.1.116+ och vi har återställt användningsgränserna för alla prenumeranter. — @ClaudeDevs
v2.1.117 och v2.1.118
| Version | Huvudfunktioner |
|---|---|
| v2.1.118 | Visuellt Vim-läge (v/V) med markering och operatorer; enhetlig /usage (slår ihop /cost och /stats); anpassade teman i /theme; hooks som anropar MCP-verktyg via type: "mcp_tool"; strikt DISABLE_UPDATES; ärvda managed settings i Windows via WSL |
| v2.1.117 | Standardeffort ökad till high för Pro/Max på Opus 4.6 och Sonnet 4.6 (var medium); förgrening av underagenter kan aktiveras på externa builds; glob/Grep ersatta av inbyggda bfs/ugrep för snabbare sökningar; fix för Opus 4.7-sessioner (1M-kontekst beräknad korrekt); fix för Bedrock+Opus 4.7 med thinking avstängt |
Nya Claude-anslutningar för vardagslivet
23 april — Anthropic utökar sitt utbud av anslutningar till konsumentappar. Sedan juli 2025 har mer än 200 anslutningar för professionella verktyg varit tillgängliga; denna uppdatering lägger till 15 vardagstjänster.
| Applikation | Kategori |
|---|---|
| AllTrails | Vandring |
| Audible | Ljudböcker |
| Booking.com | Resor |
| Instacart | Matinköp online |
| Intuit Credit Karma | Finans |
| Intuit TurboTax | Skatter |
| Resy | Restaurangbokningar |
| Spotify | Musik |
| StubHub | Biljetter |
| Taskrabbit | Hemtjänster |
| Thumbtack | Lokala yrkespersoner |
| TripAdvisor | Resor |
| Uber | Transport |
| Uber Eats | Matleverans |
| Viator | Turistaktiviteter |
Claude föreslår nu automatiskt relevanta anslutningar beroende på konversationens kontext. Tillgängliga på alla planer (inklusive gratis), webb, desktop och mobil (mobil i beta). Ingen betald placering eller sponsrat svar; data från en app används inte för att träna modellerna.
🔗 Anslutningar för vardagslivet
GitHub Copilot — Sju uppdateringar på tre dagar
GitHub Copilot publicerade sju poster i sin changelog mellan 22 och 23 april.
Chat för pull requests (3 nya funktioner)
23 april — Copilot Chat integrerar nu tre funktioner för pull requests, tillgängliga via github.com/copilot eller Copilot-knappen på diffs (offentlig preview):
- Förståelse av PR (pull request understanding) : kommentarer, ändringar, commits och granskningar integrerade som kontext
- PR-granskning: strukturerad granskning på begäran
- PR-sammanfattning: kort sammanfattning av ändringarna
🔗 Förbättringar i Copilot Chat för PR
Agent-sessioner styrbara från issues och projekt
23 april — Cloud agent är nu direkt styrbar från GitHub-issues och projektbrädor: sessionsindikator i issue-huvudet, sidopanel för framsteg, sessioner aktiverade som standard i alla projektvyer.
Strukturerad felsökning av stack traces på webben
23 april — Copilot Chat på github.com vägleder nu analysen av stack traces i sex strukturerade steg: vad som misslyckades, varför, rotorsaken, bevis från koden, tillförlitlighetsnivån och nästa kontroller.
BYOK VS Code tillgängligt (GA)
22 april — Bring Your Own Key (ta med din egen API-nyckel) är i allmän tillgänglighet för Copilot Business- och Enterprise-användare i VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure stöds, liksom lokala modeller via Ollama och Foundry Local. Faktureringen sker direkt av den valda leverantören, utanför Copilot-kvoterna.
C++ Language Server i offentlig preview för Copilot CLI
22 april — Microsoft C++ Language Server (IntelliSense-motorn i Visual Studio/VS Code) finns tillgänglig i offentlig preview för Copilot CLI. Den tillhandahåller exakta semantiska data (symbolsdefinitioner, referenser, anropshierarkier, typer) som ersättning för iterativ grep-sökning. Förutsättningar: Copilot CLI-autentisering + compile_commands.json.
Nya Business self-serve-registreringar pausas
22 april — GitHub pausar nya self-serve-registreringar för Copilot Business på planerna GitHub Free och GitHub Team. Befintliga kunder påverkas inte.
🔗 Paus för Business self-serve
Fältet used_copilot_cloud_agent i API-mätvärden
23 april — I samband med omprofileringen “coding agent” → “cloud agent” lägger API:n för mätvärden till fältet used_copilot_cloud_agent i användarrapporterna (rullande 1 dag och 28 dagar). Det tidigare fältet used_copilot_coding_agent behålls till 1 augusti 2026.
Gemini CLI v0.39.0 och Deep Think för alla Ultra
Gemini CLI v0.39.0
23 april — Google publicerar Gemini CLI v0.39.0, en stabil version märkt “Latest”. Höjdpunkten är det nya kommandot /memory inbox för att granska och validera skills som CLI:n extraherar automatiskt under arbetspass.
| Funktion | Beskrivning |
|---|---|
/memory inbox | Granskning av skills som extraherats automatiskt |
Enhetlig invoke_subagent | Ombyggt underagentverktyg i ett enda gränssnitt |
| Kompakt formatering | Bättre läsbarhet i kompakt läge |
| Plan Mode — bekräftelser | Validering krävs innan skills aktiveras |
| Lättviktsstart | Lätt föräldraprocess för snabbare start |
| JSONL streaming-migrering | Loggning av chatsessioner i JSONL |
Tillagda kortkommandon: Ctrl+Backspace för ord-för-ord-radering (Windows Terminal), Ctrl+Shift+G.
Deep Think öppnas för alla Ultra-prenumeranter
22 april — Google öppnar läget Deep Think (djupgående resonemang, extended thinking) för samtliga Gemini Ultra-prenumeranter. Det här läget var tidigare tillgängligt i begränsad åtkomst; det finns nu direkt i appens verktygsmeny för Gemini (webb och mobil).
Kimi K2.6: svärm med 300 underagenter och open-weights-benchmarks
Agent Swarm — 300 parallella underagenter
23 april — Moonshot AI lanserar Kimi K2.6 Agent Swarm: ett system som kan distribuera 300 underagenter parallellt över 4 000 steg per körning, jämfört med 100 agenter och 1 500 steg för K2.5.
| Kapacitet | K2.5 | K2.6 |
|---|---|---|
| Parallella underagenter | 100 | 300 |
| Steg per körning | 1 500 | 4 000 |
| Typer av output | Chatttext | 100+ verkliga filer, 100 000-ordsgranskningar, datamängder med 20 000 rader |
Underagenterna kombinerar heterogena färdigheter: webbsökning, dataanalys, kodning, långforms-skrivande och visuell generering. Tillgänglig på kimi.com/agent-swarm.
Benchmarks: nummer 1 bland open-weights-modeller
23 april — Kimi K2.6 når förstaplatsen bland open-weights-modeller på två benchmarks: - Design Arena : samma prestationsnivå som Claude Opus 4.7
- MathArena open (Think-läge) : före GLM 5.1
SpaceXAI × Cursor och Grok Imagine
Partnerskap SpaceXAI × Cursor
22 april — SpaceXAI (en enhet som uppstått ur sammanslagningen xAI/SpaceX) och Cursor tillkännager ett partnerskap för att skapa “världens mest kraftfulla AI för kodning och kunskapsarbete”. SpaceX bidrar med superdatorn Colossus (motsvarande en miljon H100:or); Cursor ger dem rätt att förvärva företaget senare under 2026 för $60 miljarder, eller att betala $10 miljarder för endast samarbetet.
Grok Imagine — Delbara anpassade mallar
22 april — SuperGrok- och Premium+-prenumeranter kan nu skapa anpassade mallar i Grok Imagine och dela dem offentligt.
NVIDIA × Google Cloud Next
22 april — På Google Cloud Next (Las Vegas) tillkännager NVIDIA och Google Cloud flera stora framsteg kring agentisk AI-infrastruktur.
| Tillkännagivande | Detalj |
|---|---|
| A5X-instanser (Vera Rubin NVL72) | Upp till 960 000 Rubin-GPU:er i ett multisite-kluster, 10× lägre kostnad per token, 10× högre genomströmning per megawatt |
| Gemini på Google Distributed Cloud | Förhandsversion med Blackwell- och Blackwell Ultra-GPU:er — datasuveränitet |
| Confidential VMs Blackwell | Första Blackwell-erbjudandet för konfidentiell datorkraft (confidential computing) i publika molnet |
| Nemotron 3 Super | Tillgänglig på Gemini Enterprise Agent Platform |
| NeMo RL API | Hanterad förstärkningsinlärning (Reinforcement Learning) i stor skala |
🔗 NVIDIA × Google Cloud-bloggen
Kling AI Video 3.0 — Inbyggt 4K-läge
23 april — Kling AI lanserar inbyggt 4K-läge i sin Video 3.0-serie. 4K-genereringen sker med ett enda klick, utan något extra uppskalningssteg. Den visuella sammanhållningen (karaktärer, texter, stilar, belysning) säkerställs i nativ upplösning för produktion i premiumklass. Finns också via fal.ai för företag.
Samtidigt anordnar Kling AI en 4K Short Film Creative Contest, en global tävling som uppmanar skapare att skicka in kortfilmer gjorda med det nya läget.
ChatGPT for Clinicians och OpenAI Privacy Filter
ChatGPT for Clinicians + HealthBench Professional
22 april — OpenAI lanserar ChatGPT for Clinicians, en gratisversion för verifierade vårdprofessionella i USA (läkare, specialistsjuksköterskor, läkarassistenter, farmaceuter). Tjänsten inkluderar åtkomst till frontier-modeller för komplexa kliniska frågor, skills för repetitiva arbetsflöden (remissbrev, förhandsauktorisationer), citerad klinisk forskning i realtid och automatisk generering av fortbildningspoäng (CME). HIPAA-hantering finns som tillval via avtal.
OpenAI publicerar också HealthBench Professional, ett öppet benchmark som utvärderar AI på verkliga kliniska uppgifter (700 000+ svar bedömda av läkare). GPT-5.4 i ChatGPT for Clinicians överträffar mänskliga läkare på detta benchmark under tidsobegränsade förhållanden med webbtillgång.
OpenAI Privacy Filter
22 april — OpenAI publicerar Privacy Filter, en open-weight-modell (Apache 2.0) för att upptäcka och maskera personligt identifierbar information (Personally Identifiable Information, PII) i text. Modellen körs lokalt (inga data skickas till en server), stöder 128K tokens kontext och når ett F1-värde på 97.43% på benchmarket PII-Masking-300k.
| Egenskap | Värde |
|---|---|
| Arkitektur | Tvåvägs token-klassificerare (begränsad Viterbi-avkodning) |
| Storlek | 1.5B totala parametrar, 50M aktiva |
| Kontext | 128 000 tokens |
| Licens | Apache 2.0 (Hugging Face + GitHub) |
| F1 | 97.43% på korrigerade PII-Masking-300k |
PII-kategorier som täcks: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (lösenord och API-nycklar).
Perplexity och Cohere
Perplexity integrerar Kimi K2.6
23 april — Kimi K2.6 från Moonshot AI finns nu tillgänglig för alla Perplexitys Pro- och Max-prenumeranter.
Cohere — W4A8 redo för produktion i vLLM
22 april — Cohere tillkännager integrationen av sin W4A8-inferens (4-bitars kvantisering för vikter, 8 bitar för aktiveringar) i vLLM. Resultat på Hopper-GPU:er jämfört med W4A16: +58% på tiden till första token (Time To First Token) och +45% på tiden per utgående token (Time Per Output Token). Integrationen riktar sig i första hand till de storskaliga MoE-modellerna Command A i produktion.
Kortnytt
Suno nummer 1 i musikfliken i App Store
21 april — Suno, plattformen för AI-genererad musik, når förstaplatsen i App Store i kategorin musik. CEO Mikey Shulman meddelar: « The future of music is one where everyone enjoys creating. »
Anthropic Economic Index Survey
22 april — Anthropic lanserar Anthropic Economic Index Survey, en månatlig undersökning genomförd via Anthropic Interviewer på ett slumpmässigt urval av Claude-användare. Målet är att samla in kvalitativa data om AI:s ekonomiska påverkan: delegerade uppgifter, produktivitetsvinster, förändringar i roller. Resultaten kommer att mata framtida rapporter från Anthropic Economic Index.
Anthropic — MCP-agenter i produktion: siffrorna
22 april — En teknisk artikel från Anthropic dokumenterar fördelarna med MCP för produktionsagenter: MCP SDK:er överstiger 300 miljoner nedladdningar per månad, tool search minskar antalet tokens för verktygsdefinitioner med 85%, och programmatisk tool calling minskar tokenanvändningen med 37% i komplexa flerstegsarbetflöden.
🔗 MCP-blogg om produktionsagenter
OpenAI — WebSockets i API Responses: 40% lägre latens
22 april — En tillbakablickande artikel från OpenAI som förklarar hur WebSocket-läget i API Responses minskar latensen i agentloopar med 40%. Den permanenta anslutningen håller en cache i minnet av tillståndet i tidigare svar, vilket undviker att hela historiken behöver bearbetas på nytt vid varje anrop. Redan i produktion: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).
Perplexity Research — Träning av sökförstärkta modeller
22 april — Perplexity publicerar en studie om sin SFT + RL-pipeline (Supervised Fine-Tuning + Reinforcement Learning) för att förbättra kvaliteten på söksvar. Nyckelresultat: posttränade Qwen-modeller når GPT-modellers faktagrundade korrekthet till lägre kostnad.
Vad detta betyder
Den 23 april 2026 ritar upp två sammanfallande trender. Å ena sidan bekräftar GPT-5.5 att OpenAI har tagit tillbaka ledningen på de agentiska benchmarks (Terminal-Bench, ARC-AGI-2, OSWorld) efter flera månader då Claude Opus 4.7 dominerade. Gapet är fortfarande snävt på SWE-Bench Pro, där Anthropic behåller övertaget — ett tecken på att de två labben prioriterar samma användningsfall.
Å andra sidan markerar dagen inträdet i eran med persistenta agenter med minne: OpenAI Workspace Agents, Anthropic Managed Agents Memory och Kimi K2.6 Agent Swarm kommer samtidigt med olika angreppssätt (Slack-integration, filesystem-based, svärm av underagenter), men med samma mål — att agenten ska minnas, lära sig och agera utan ständig övervakning. Rakuten-siffrorna (-97% fel, -27% kostnad) ger en första industriell måttstock för effekten.
GitHub Copilot fortsätter sin strategi med djup integration i GitHub.com (PR-chat, agent-sessioner från issues, strukturerade stack traces) samtidigt som det öppnas utåt via BYOK. BYOK VS Code GA signalerar att Copilot positionerar sig lika mycket som ett gränssnitt som som en modell.
Källor
- GPT-5.5 — OpenAI
- Tweet OpenAI GPT-5.5
- Workspace Agents — OpenAI
- Tweet Workspace Agents
- ChatGPT for Clinicians
- OpenAI Privacy Filter
- WebSockets API Responses — OpenAI
- Hanterat minne för agenter — Anthropic
- Kopplingar för vardagen — Anthropic
- Tweet om kopplingar — @claudeai
- Postmortem för Claude Code — @ClaudeDevs
- Tweet @bcherny
- CHANGELOG Claude Code
- MCP produktionsagenter — Anthropic
- Anthropic Economic Index Survey
- Copilot-chat förbättringar för pull requests
- Copilot agentsessioner från issues
- Copilot felsökning av stack traces
- Copilot BYOK VS Code GA
- Copilot C++ Language Server
- Copilot Business self-serve pause
- Copilot-mått för molnagent
- Gemini CLI v0.39.0
- Gemini Deep Think Ultra — @GeminiApp
- Kimi K2.6 Agent Swarm — @Kimi_Moonshot
- Kimi K2.6 Design Arena
- Kimi K2.6 MathArena
- SpaceXAI × Cursor — @SpaceX
- Grok Imagine templates — @imagine
- NVIDIA × Google Cloud Next
- Kling AI Video 3.0 Mode 4K
- Kling AI 4K Short Film Contest
- Perplexity Kimi K2.6
- Perplexity Research Search-Augmented LMs
- Cohere W4A8 vLLM
- Suno nummer 1 App Store
Detta dokument har översatts från fr-versionen till språket sv med hjälp av modellen gpt-5.4-mini. För mer information om översättningsprocessen, se https://gitlab.com/jls42/ai-powered-markdown-translator