Sök

OpenAI lanserar GPT-5.5, Anthropic öppnar minnet för Managed Agents, Kimi K2.6 Agent Swarm

OpenAI lanserar GPT-5.5, Anthropic öppnar minnet för Managed Agents, Kimi K2.6 Agent Swarm

Den 23 april 2026 markerar en intensiv dag: OpenAI lanserar GPT-5.5 med 85 % på ARC-AGI-2 och ett API-pris på $5/M tokens in, medan Anthropic öppnar ihållande minne i beta för sina Managed Agents och publicerar en post-mortem om Claude Code. Samtidigt levererar GitHub Copilot sju uppdateringar på tre dagar, Kimi K2.6 distribuerar en svärm (swarm) av 300 underagenter, och SpaceX sluter ett kodningspartnerskap med Cursor.


GPT-5.5: OpenAIs frontier-modell

23 april — OpenAI lanserar GPT-5.5, sin hittills kraftfullaste modell, utformad för verkligt arbete och agenter. Den förbättrar avsevärt agentisk kodning, datoranvändning (computer use), kunskapsarbete och vetenskaplig forskning, samtidigt som den behåller GPT-5.4:s latens.

Tillgänglighet och prissättning

GPT-5.5 är omedelbart tillgänglig för ChatGPT Plus-, Pro-, Business- och Enterprise-prenumeranter, samt i Codex. API-åtkomst kommer “mycket snart”.

ErbjudandeAPI-åtkomstInmatningUtmatning
GPT-5.5 standardSnart$5 / M tokens$30 / M tokens
GPT-5.5 ProSnart$30 / M tokens$180 / M tokens

Kontextfönstret i Codex når 400K tokens. Ett Fast-läge — 1,5× snabbare, 2,5× kostnaden — finns tillgängligt.

Benchmarks

UtvärderingGPT-5.5GPT-5.4Claude Opus 4.7Gemini 3.1 Pro
Terminal-Bench 2.082.7%75.1%69.4%68.5%
Expert-SWE (intern)73.1%68.5%
SWE-Bench Pro58.6%57.7%64.3%54.2%
GDPval84.9%83.0%80.3%67.3%
OSWorld-Verified78.7%75.0%78.0%
ARC-AGI-285.0%73.3%75.8%77.1%
FrontierMath Tier 435.4%27.1%22.9%16.7%
CyberGym81.8%79.0%73.1%
BixBench (bioinformatik)80.5%74.0%

GPT-5.5 ligger i täten i majoriteten av benchmarks, med ett anmärkningsvärt undantag: SWE-Bench Pro där Claude Opus 4.7 behåller övertaget (64.3 % mot 58.6 %).

Infrastruktur och säkerhet

Modellen har samutvecklats med NVIDIA GB200/GB300 NVL72. Codex använde GPT-5.5 för att optimera sin egen infrastruktur och vann +20 % i token-genereringshastighet. På cybersäkerhetssidan klassas GPT-5.5 som High i OpenAIs Preparedness Framework (inte Critical); Trusted Access Cyber-programmet utökas till den.

Vetenskaplig forskning

Utöver kod hjälpte GPT-5.5 till att bevisa en ny sats om Ramsey-tal (kombinatorik), formellt verifierad i Lean. Den analyserade också en genomisk datamängd med 62 prover och 28 000 gener på några minuter — en uppgift som skulle ha krävt månader för ett forskarteam.

« GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. »

🇫🇷 GPT-5.5 är märkbart smartare och mer ihärdig än GPT-5.4, med starkare kodningsprestanda och mer tillförlitlig verktygsanvändning. — Michael Truell, medgrundare och VD för Cursor

🔗 GPT-5.5-meddelande


Våg av persistenta agenter

Tre stora tillkännagivanden sammanstrålar denna 23 april kring den persistenta agenten, som kan agera autonomt under långa perioder och behålla kontext från en session till nästa.

OpenAI Workspace Agents i ChatGPT

22 april — OpenAI presenterar arbetsyteagenter (Workspace Agents): delade agenter som ett team skapar en gång, använder tillsammans i ChatGPT eller Slack, och gradvis förbättrar. Drivna av Codex i molnet kan de utföra komplexa uppgifter även när användaren är frånkopplad. Workspace Agents ersätter gradvis GPT:erna, som förblir tillgängliga under övergången.

AgenttypFunktion
ProgramvarugranskareGranskar förfrågningar, jämför policyer, skapar IT-ärenden
Router för produktfeedbackÖvervakar Slack/support/forum → prioriterade ärenden
RapportgeneratorExtraherar data på fredagar, skapar diagram, sammanfattning
ProspekteringsagentSöker leads, bedömer, skriver e-post, uppdaterar CRM
Ansvarig för tredjepartsriskUtvärderar leverantörer, producerar strukturerad rapport

Tillgängliga i research preview för Business, Enterprise, Edu och Teachers; gratis till och med 6 maj 2026, därefter debitering i krediter.

Enligt Ankur Bhatt (AI Engineering, Rippling) körs det som tidigare tog 5 till 6 timmar per vecka för säljarna nu automatiskt i bakgrunden på varje affärsmöjlighet.

🔗 Workspace Agents


Anthropic — Minnet för Claude Managed Agents

23 april — Minnet för Claude Managed Agents finns tillgängligt i offentlig beta på Claude Platform. Agenterna kan nu lära sig från en session till nästa tack vare ett minneslager som monteras direkt ovanpå ett filsystem: agenterna använder samma bash- och kodkörningsförmågor som de redan använder för agentiska uppgifter.

FunktionDetalj
Delbara lagringarFlera agenter, olika åtkomstnivåer (endast läs / läs-skriv)
Samtidig åtkomstUtan överskrivning mellan parallella sessioner
RevisionsloggVilken session, vilken agent, vilket minne
ÅtergångTill valfri tidigare version
ExporterbarhetMinnen hanterbara via API:n

Kundresultaten illustrerar den konkreta effekten:

KundResultat
Rakuten-97 % fel vid första genomgången, -27 % kostnad, -34 % latens
Wisedocs+30 % snabbare dokumentgranskning
NetflixKontekstkontinuitet mellan sessioner utan manuell uppdatering
AndoPlattformsminne utan dedikerad infrastruktur

Memory in Claude Managed Agents lets us put continuous learning into production at scale. Our agents distill lessons from every session, delivering 97% fewer first-pass errors at 27% lower cost and 34% lower latency.

🇫🇷 Minnet i Claude Managed Agents gör att vi kan sätta kontinuerligt lärande i produktion i stor skala. Våra agenter destillerar lärdomar från varje session och levererar 97 % färre fel vid första genomgången, med 27 % lägre kostnad och 34 % lägre latens. — Yusuke Kaji, General Manager AI for Business, Rakuten

🔗 Minnet för Managed Agents


Claude Code: kvalitets-post-mortem och två nya versioner

Post-mortem och återställning av gränser

23 april — Claude Code-teamet har publicerat en post-mortem om tre kvalitetsproblem som rapporterats under den gångna månaden. Alla är åtgärdade i v2.1.116+. Användningsgränserna har återställts för alla prenumeranter.

Over the past month, some of you reported Claude Code’s quality had slipped. We investigated, and published a post-mortem on the three issues we found. All are fixed in v2.1.116+ and we’ve reset usage limits for all subscribers.

🇫🇷 Under den gångna månaden rapporterade några av er att Claude Codes kvalitet hade försämrats. Vi undersökte detta och publicerade en post-mortem om de tre problem vi fann. Alla är åtgärdade i v2.1.116+ och vi har återställt användningsgränserna för alla prenumeranter.@ClaudeDevs

v2.1.117 och v2.1.118

VersionHuvudfunktioner
v2.1.118Visuellt Vim-läge (v/V) med markering och operatorer; enhetlig /usage (slår ihop /cost och /stats); anpassade teman i /theme; hooks som anropar MCP-verktyg via type: "mcp_tool"; strikt DISABLE_UPDATES; ärvda managed settings i Windows via WSL
v2.1.117Standardeffort ökad till high för Pro/Max på Opus 4.6 och Sonnet 4.6 (var medium); förgrening av underagenter kan aktiveras på externa builds; glob/Grep ersatta av inbyggda bfs/ugrep för snabbare sökningar; fix för Opus 4.7-sessioner (1M-kontekst beräknad korrekt); fix för Bedrock+Opus 4.7 med thinking avstängt

🔗 CHANGELOG Claude Code


Nya Claude-anslutningar för vardagslivet

23 april — Anthropic utökar sitt utbud av anslutningar till konsumentappar. Sedan juli 2025 har mer än 200 anslutningar för professionella verktyg varit tillgängliga; denna uppdatering lägger till 15 vardagstjänster.

ApplikationKategori
AllTrailsVandring
AudibleLjudböcker
Booking.comResor
InstacartMatinköp online
Intuit Credit KarmaFinans
Intuit TurboTaxSkatter
ResyRestaurangbokningar
SpotifyMusik
StubHubBiljetter
TaskrabbitHemtjänster
ThumbtackLokala yrkespersoner
TripAdvisorResor
UberTransport
Uber EatsMatleverans
ViatorTuristaktiviteter

Claude föreslår nu automatiskt relevanta anslutningar beroende på konversationens kontext. Tillgängliga på alla planer (inklusive gratis), webb, desktop och mobil (mobil i beta). Ingen betald placering eller sponsrat svar; data från en app används inte för att träna modellerna.

🔗 Anslutningar för vardagslivet


GitHub Copilot — Sju uppdateringar på tre dagar

GitHub Copilot publicerade sju poster i sin changelog mellan 22 och 23 april.

Chat för pull requests (3 nya funktioner)

23 april — Copilot Chat integrerar nu tre funktioner för pull requests, tillgängliga via github.com/copilot eller Copilot-knappen på diffs (offentlig preview):

  • Förståelse av PR (pull request understanding) : kommentarer, ändringar, commits och granskningar integrerade som kontext
  • PR-granskning: strukturerad granskning på begäran
  • PR-sammanfattning: kort sammanfattning av ändringarna

🔗 Förbättringar i Copilot Chat för PR

Agent-sessioner styrbara från issues och projekt

23 april — Cloud agent är nu direkt styrbar från GitHub-issues och projektbrädor: sessionsindikator i issue-huvudet, sidopanel för framsteg, sessioner aktiverade som standard i alla projektvyer.

🔗 Agent-sessioner från issues

Strukturerad felsökning av stack traces på webben

23 april — Copilot Chat på github.com vägleder nu analysen av stack traces i sex strukturerade steg: vad som misslyckades, varför, rotorsaken, bevis från koden, tillförlitlighetsnivån och nästa kontroller.

🔗 Felsökning av stack traces

BYOK VS Code tillgängligt (GA)

22 april — Bring Your Own Key (ta med din egen API-nyckel) är i allmän tillgänglighet för Copilot Business- och Enterprise-användare i VS Code. Anthropic, Gemini, OpenAI, OpenRouter, Azure stöds, liksom lokala modeller via Ollama och Foundry Local. Faktureringen sker direkt av den valda leverantören, utanför Copilot-kvoterna.

🔗 BYOK VS Code GA

C++ Language Server i offentlig preview för Copilot CLI

22 april — Microsoft C++ Language Server (IntelliSense-motorn i Visual Studio/VS Code) finns tillgänglig i offentlig preview för Copilot CLI. Den tillhandahåller exakta semantiska data (symbolsdefinitioner, referenser, anropshierarkier, typer) som ersättning för iterativ grep-sökning. Förutsättningar: Copilot CLI-autentisering + compile_commands.json.

🔗 C++ Language Server

Nya Business self-serve-registreringar pausas

22 april — GitHub pausar nya self-serve-registreringar för Copilot Business på planerna GitHub Free och GitHub Team. Befintliga kunder påverkas inte.

🔗 Paus för Business self-serve

Fältet used_copilot_cloud_agent i API-mätvärden

23 april — I samband med omprofileringen “coding agent” → “cloud agent” lägger API:n för mätvärden till fältet used_copilot_cloud_agent i användarrapporterna (rullande 1 dag och 28 dagar). Det tidigare fältet used_copilot_coding_agent behålls till 1 augusti 2026.

🔗 Mätvärden för cloud agent


Gemini CLI v0.39.0 och Deep Think för alla Ultra

Gemini CLI v0.39.0

23 april — Google publicerar Gemini CLI v0.39.0, en stabil version märkt “Latest”. Höjdpunkten är det nya kommandot /memory inbox för att granska och validera skills som CLI:n extraherar automatiskt under arbetspass.

FunktionBeskrivning
/memory inboxGranskning av skills som extraherats automatiskt
Enhetlig invoke_subagentOmbyggt underagentverktyg i ett enda gränssnitt
Kompakt formateringBättre läsbarhet i kompakt läge
Plan Mode — bekräftelserValidering krävs innan skills aktiveras
LättviktsstartLätt föräldraprocess för snabbare start
JSONL streaming-migreringLoggning av chatsessioner i JSONL

Tillagda kortkommandon: Ctrl+Backspace för ord-för-ord-radering (Windows Terminal), Ctrl+Shift+G.

🔗 Gemini CLI v0.39.0

Deep Think öppnas för alla Ultra-prenumeranter

22 april — Google öppnar läget Deep Think (djupgående resonemang, extended thinking) för samtliga Gemini Ultra-prenumeranter. Det här läget var tidigare tillgängligt i begränsad åtkomst; det finns nu direkt i appens verktygsmeny för Gemini (webb och mobil).

🔗 Tweet @GeminiApp


Kimi K2.6: svärm med 300 underagenter och open-weights-benchmarks

Agent Swarm — 300 parallella underagenter

23 april — Moonshot AI lanserar Kimi K2.6 Agent Swarm: ett system som kan distribuera 300 underagenter parallellt över 4 000 steg per körning, jämfört med 100 agenter och 1 500 steg för K2.5.

KapacitetK2.5K2.6
Parallella underagenter100300
Steg per körning1 5004 000
Typer av outputChatttext100+ verkliga filer, 100 000-ordsgranskningar, datamängder med 20 000 rader

Underagenterna kombinerar heterogena färdigheter: webbsökning, dataanalys, kodning, långforms-skrivande och visuell generering. Tillgänglig på kimi.com/agent-swarm.

🔗 Tweet @Kimi_Moonshot

Benchmarks: nummer 1 bland open-weights-modeller

23 april — Kimi K2.6 når förstaplatsen bland open-weights-modeller på två benchmarks: - Design Arena : samma prestationsnivå som Claude Opus 4.7

  • MathArena open (Think-läge) : före GLM 5.1

🔗 Design Arena


SpaceXAI × Cursor och Grok Imagine

Partnerskap SpaceXAI × Cursor

22 april — SpaceXAI (en enhet som uppstått ur sammanslagningen xAI/SpaceX) och Cursor tillkännager ett partnerskap för att skapa “världens mest kraftfulla AI för kodning och kunskapsarbete”. SpaceX bidrar med superdatorn Colossus (motsvarande en miljon H100:or); Cursor ger dem rätt att förvärva företaget senare under 2026 för $60 miljarder, eller att betala $10 miljarder för endast samarbetet.

🔗 Tweet @SpaceX

Grok Imagine — Delbara anpassade mallar

22 april — SuperGrok- och Premium+-prenumeranter kan nu skapa anpassade mallar i Grok Imagine och dela dem offentligt.

🔗 Tweet @imagine


NVIDIA × Google Cloud Next

22 april — På Google Cloud Next (Las Vegas) tillkännager NVIDIA och Google Cloud flera stora framsteg kring agentisk AI-infrastruktur.

TillkännagivandeDetalj
A5X-instanser (Vera Rubin NVL72)Upp till 960 000 Rubin-GPU:er i ett multisite-kluster, 10× lägre kostnad per token, 10× högre genomströmning per megawatt
Gemini på Google Distributed CloudFörhandsversion med Blackwell- och Blackwell Ultra-GPU:er — datasuveränitet
Confidential VMs BlackwellFörsta Blackwell-erbjudandet för konfidentiell datorkraft (confidential computing) i publika molnet
Nemotron 3 SuperTillgänglig på Gemini Enterprise Agent Platform
NeMo RL APIHanterad förstärkningsinlärning (Reinforcement Learning) i stor skala

🔗 NVIDIA × Google Cloud-bloggen


Kling AI Video 3.0 — Inbyggt 4K-läge

23 april — Kling AI lanserar inbyggt 4K-läge i sin Video 3.0-serie. 4K-genereringen sker med ett enda klick, utan något extra uppskalningssteg. Den visuella sammanhållningen (karaktärer, texter, stilar, belysning) säkerställs i nativ upplösning för produktion i premiumklass. Finns också via fal.ai för företag.

Samtidigt anordnar Kling AI en 4K Short Film Creative Contest, en global tävling som uppmanar skapare att skicka in kortfilmer gjorda med det nya läget.

🔗 Tweet @Kling_ai


ChatGPT for Clinicians och OpenAI Privacy Filter

ChatGPT for Clinicians + HealthBench Professional

22 april — OpenAI lanserar ChatGPT for Clinicians, en gratisversion för verifierade vårdprofessionella i USA (läkare, specialistsjuksköterskor, läkarassistenter, farmaceuter). Tjänsten inkluderar åtkomst till frontier-modeller för komplexa kliniska frågor, skills för repetitiva arbetsflöden (remissbrev, förhandsauktorisationer), citerad klinisk forskning i realtid och automatisk generering av fortbildningspoäng (CME). HIPAA-hantering finns som tillval via avtal.

OpenAI publicerar också HealthBench Professional, ett öppet benchmark som utvärderar AI på verkliga kliniska uppgifter (700 000+ svar bedömda av läkare). GPT-5.4 i ChatGPT for Clinicians överträffar mänskliga läkare på detta benchmark under tidsobegränsade förhållanden med webbtillgång.

🔗 ChatGPT for Clinicians

OpenAI Privacy Filter

22 april — OpenAI publicerar Privacy Filter, en open-weight-modell (Apache 2.0) för att upptäcka och maskera personligt identifierbar information (Personally Identifiable Information, PII) i text. Modellen körs lokalt (inga data skickas till en server), stöder 128K tokens kontext och når ett F1-värde på 97.43% på benchmarket PII-Masking-300k.

EgenskapVärde
ArkitekturTvåvägs token-klassificerare (begränsad Viterbi-avkodning)
Storlek1.5B totala parametrar, 50M aktiva
Kontext128 000 tokens
LicensApache 2.0 (Hugging Face + GitHub)
F197.43% på korrigerade PII-Masking-300k

PII-kategorier som täcks: private_person, private_address, private_email, private_phone, private_url, private_date, account_number, secret (lösenord och API-nycklar).

🔗 OpenAI Privacy Filter


Perplexity och Cohere

Perplexity integrerar Kimi K2.6

23 april — Kimi K2.6 från Moonshot AI finns nu tillgänglig för alla Perplexitys Pro- och Max-prenumeranter.

🔗 Tweet @perplexity_ai

Cohere — W4A8 redo för produktion i vLLM

22 april — Cohere tillkännager integrationen av sin W4A8-inferens (4-bitars kvantisering för vikter, 8 bitar för aktiveringar) i vLLM. Resultat på Hopper-GPU:er jämfört med W4A16: +58% på tiden till första token (Time To First Token) och +45% på tiden per utgående token (Time Per Output Token). Integrationen riktar sig i första hand till de storskaliga MoE-modellerna Command A i produktion.

🔗 Cohere W4A8-bloggen


Kortnytt

Suno nummer 1 i musikfliken i App Store

21 april — Suno, plattformen för AI-genererad musik, når förstaplatsen i App Store i kategorin musik. CEO Mikey Shulman meddelar: « The future of music is one where everyone enjoys creating. »

🔗 Tweet @suno

Anthropic Economic Index Survey

22 april — Anthropic lanserar Anthropic Economic Index Survey, en månatlig undersökning genomförd via Anthropic Interviewer på ett slumpmässigt urval av Claude-användare. Målet är att samla in kvalitativa data om AI:s ekonomiska påverkan: delegerade uppgifter, produktivitetsvinster, förändringar i roller. Resultaten kommer att mata framtida rapporter från Anthropic Economic Index.

🔗 Undersökningsmeddelande

Anthropic — MCP-agenter i produktion: siffrorna

22 april — En teknisk artikel från Anthropic dokumenterar fördelarna med MCP för produktionsagenter: MCP SDK:er överstiger 300 miljoner nedladdningar per månad, tool search minskar antalet tokens för verktygsdefinitioner med 85%, och programmatisk tool calling minskar tokenanvändningen med 37% i komplexa flerstegsarbetflöden.

🔗 MCP-blogg om produktionsagenter

OpenAI — WebSockets i API Responses: 40% lägre latens

22 april — En tillbakablickande artikel från OpenAI som förklarar hur WebSocket-läget i API Responses minskar latensen i agentloopar med 40%. Den permanenta anslutningen håller en cache i minnet av tillståndet i tidigare svar, vilket undviker att hela historiken behöver bearbetas på nytt vid varje anrop. Redan i produktion: Codex, Vercel AI SDK, Cline (+39%), Cursor (+30%).

🔗 Artikel om WebSockets

Perplexity Research — Träning av sökförstärkta modeller

22 april — Perplexity publicerar en studie om sin SFT + RL-pipeline (Supervised Fine-Tuning + Reinforcement Learning) för att förbättra kvaliteten på söksvar. Nyckelresultat: posttränade Qwen-modeller når GPT-modellers faktagrundade korrekthet till lägre kostnad.

🔗 Perplexity Research


Vad detta betyder

Den 23 april 2026 ritar upp två sammanfallande trender. Å ena sidan bekräftar GPT-5.5 att OpenAI har tagit tillbaka ledningen på de agentiska benchmarks (Terminal-Bench, ARC-AGI-2, OSWorld) efter flera månader då Claude Opus 4.7 dominerade. Gapet är fortfarande snävt på SWE-Bench Pro, där Anthropic behåller övertaget — ett tecken på att de två labben prioriterar samma användningsfall.

Å andra sidan markerar dagen inträdet i eran med persistenta agenter med minne: OpenAI Workspace Agents, Anthropic Managed Agents Memory och Kimi K2.6 Agent Swarm kommer samtidigt med olika angreppssätt (Slack-integration, filesystem-based, svärm av underagenter), men med samma mål — att agenten ska minnas, lära sig och agera utan ständig övervakning. Rakuten-siffrorna (-97% fel, -27% kostnad) ger en första industriell måttstock för effekten.

GitHub Copilot fortsätter sin strategi med djup integration i GitHub.com (PR-chat, agent-sessioner från issues, strukturerade stack traces) samtidigt som det öppnas utåt via BYOK. BYOK VS Code GA signalerar att Copilot positionerar sig lika mycket som ett gränssnitt som som en modell.


Källor

Detta dokument har översatts från fr-versionen till språket sv med hjälp av modellen gpt-5.4-mini. För mer information om översättningsprocessen, se https://gitlab.com/jls42/ai-powered-markdown-translator