Rechercher

ChatGPT Images 2.0 avec thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

ChatGPT Images 2.0 avec thinking, Gemini Deep Research Max, NVIDIA x Adobe x WPP

Le 21 avril 2026, trois annonces majeures dominent l’actualité IA : OpenAI lance ChatGPT Images 2.0 avec son premier modèle image capable de raisonner, Google DeepMind présente deux agents de recherche autonomes alimentés par Gemini 3.1 Pro, et NVIDIA consolide un partenariat tri-partite avec Adobe et WPP autour d’agents créatifs pour le marketing d’entreprise. Claude Code, Codex et Git 2.54 complètent une journée riche en mises à jour outillage.


ChatGPT Images 2.0 et gpt-image-2

21 avril — OpenAI lance ChatGPT Images 2.0, disponible immédiatement pour tous les utilisateurs de ChatGPT et de Codex. Le modèle sous-jacent, gpt-image-2, est simultanément disponible via l’API.

Cette nouvelle version marque une rupture par rapport à la génération précédente : le suivi d’instructions détaillées (instruction following) est significativement amélioré, le placement et la mise en relation précise des objets sont plus fiables, le rendu de texte dense est revu, et plusieurs formats (portrait, paysage, carré) sont supportés nativement.

Le mode réflexion (thinking) est la principale nouveauté. ChatGPT Images 2.0 est le premier modèle image d’OpenAI doté de capacités de raisonnement. En mode thinking, disponible pour les abonnés Plus, Pro et Business (Enterprise bientôt), le modèle peut :

  • Chercher le web en temps réel pour des informations à jour
  • Générer plusieurs images distinctes depuis un seul prompt
  • Auto-vérifier et corriger ses propres sorties

Les équipes de recherche d’OpenAI ont détaillé les cas d’usage dans un thread : rendu multilingue et texte précis, diapositives et infographies professionnelles, multiples formats et résolutions, suivi d’instructions complexes.

FonctionnalitéDisponibilité
ChatGPT Images 2.0 (standard)Tous les utilisateurs ChatGPT et Codex
Mode thinkingChatGPT Plus, Pro, Business (Enterprise bientôt)
API gpt-image-2Disponible dès maintenant

La ligne directrice d’OpenAI pour ce lancement : le modèle “passe de la génération d’images au design stratégique, d’un outil à un système visuel.”

🔗 Introducing ChatGPT Images 2.0 🔗 Tweet @OpenAI


Google Deep Research et Deep Research Max

21 avril — Google DeepMind lance deux agents de recherche autonomes alimentés par Gemini 3.1 Pro : Deep Research et Deep Research Max.

Ces agents naviguent à la fois sur le web ouvert et sur des données personnalisées — documents internes, informations financières spécialisées — pour produire des rapports professionnels entièrement cités.

Deep Research est optimisé pour la vitesse et la faible latence, idéal pour les interfaces nécessitant des réponses rapides. Deep Research Max exploite un temps de calcul étendu (extended test-time compute) pour raisonner de façon itérative, affiner les recherches et produire un rapport de haute qualité — conçu pour les traitements asynchrones en arrière-plan.

FonctionnalitéDétail
Support MCPConnexion sécurisée à des sources propriétaires ou tierces
Génération native de visuelsPremier agent à générer graphiques et infographies (HTML ou Nano Banana 2)
Planification collaborativeL’utilisateur peut affiner le plan de recherche avant exécution
MultimodalitéPDFs, CSVs, images, audio, vidéo acceptés en entrée
DisponibilitéAPI Gemini, tiers payants, aperçu public

La génération native de visuels est notable : Deep Research Max peut produire des graphiques et infographies directement dans ses rapports, en HTML ou via Nano Banana 2, sans outil externe. Les startups et entreprises Google Cloud bénéficieront d’une disponibilité prochainement annoncée.

🔗 Annonce @GoogleDeepMind 🔗 Article blog.google


NVIDIA × Adobe × WPP — Agents créatifs pour le marketing d’entreprise

20 avril — NVIDIA élargit ses collaborations stratégiques avec Adobe et WPP pour déployer des agents IA autonomes dans les opérations marketing d’entreprise. L’annonce s’accompagne d’une démonstration live à l’Adobe Summit le 21 avril, avec Jensen Huang (CEO NVIDIA) et Shantanu Narayen (CEO Adobe).

La nouvelle solution Adobe CX Enterprise Coworker est orchestrée par des agents IA reposant sur :

  • NVIDIA OpenShell : environnement d’exécution sécurisé, observable et auditable pour workflows agentiques
  • NVIDIA Agent Toolkit et modèles Nemotron open-source
  • Adobe Firefly Foundry accéléré par infrastructure NVIDIA AI

Concrètement, un retailer mondial peut désormais générer des millions de combinaisons produit/audience/canal en quelques minutes au lieu de mois. Les jumeaux numériques 3D (Omniverse + OpenUSD) servent d’identités produits persistantes pour automatiser la production de contenu haute-fidélité à grande échelle.

🔗 Article blogs.nvidia.com 🔗 Tweet @NVIDIAAI


Claude Code v2.1.116

19–21 avril — Claude Code v2.1.116 apporte une série d’améliorations ciblées sur les performances, la fiabilité et l’expérience terminal.

La mise à jour la plus tangible : la commande /resume est jusqu’à 67 % plus rapide sur les grandes sessions (40 Mo+), avec une meilleure gestion des entrées “dead-fork”. Le démarrage MCP est également plus rapide avec plusieurs serveurs stdio configurés.

Expérience utilisateur :

  • L’indicateur de réflexion affiche maintenant la progression en ligne (“still thinking”, “thinking more”, “almost done thinking”), remplaçant la ligne d’indice séparée
  • /config peut rechercher par valeur d’option (ex : chercher “vim” trouve le paramètre Editor mode)
  • /doctor peut être ouvert pendant que Claude répond, sans attendre la fin du tour

Sécurité : le sandbox auto-allow ne contourne plus la vérification des chemins dangereux pour rm/rmdir ciblant /, $HOME ou d’autres répertoires système critiques.

8 corrections terminaux incluent : protocole clavier Kitty (Ctrl+-, Cmd+Gauche/Droite), rendu scripts Devanagari, blocage Ctrl+Z via processus wrapper, duplication scrollback en mode inline, et plusieurs corrections VS Code/Warp/Ghostty.

CatégorieChangement clé
Performance/resume 67 % plus rapide sur sessions 40 Mo+
UXThinking spinner progressif, /config par valeur
SécuritéSandbox respecte la protection des chemins critiques
Terminaux8 corrections (Kitty, VS Code, Warp, Ghostty, WezTerm)
PluginsAuto-install des dépendances manquantes

🔗 CHANGELOG Claude Code


Live Artifacts dans Claude Cowork

20 avril — Anthropic lance les “Live Artifacts” dans Claude Cowork : des tableaux de bord et trackers dynamiques directement connectés aux applications et fichiers de l’utilisateur.

Contrairement aux artefacts classiques (statiques), les Live Artifacts se rafraîchissent automatiquement à l’ouverture avec les données actuelles. Ils sont sauvegardés dans un nouvel onglet dédié avec historique de versions, accessible depuis n’importe quelle session.

“In Cowork, Claude can now build live artifacts: dashboards and trackers connected to your apps and files. Open one any time and it refreshes with current data.”

🇫🇷 “Dans Cowork, Claude peut maintenant créer des artefacts dynamiques : des tableaux de bord et trackers connectés à vos applications et fichiers. Ouvrez-en un à tout moment et il se rafraîchit avec les données actuelles.”@claudeai sur X

La fonctionnalité est disponible sur tous les plans payants via une mise à jour de l’application Claude.

🔗 Annonce @claudeai


Codex en entreprise : Codex Labs et 7 partenaires intégrateurs

21 avril — OpenAI franchit une nouvelle étape dans le déploiement enterprise de Codex : 4 millions de développeurs l’utilisent chaque semaine (contre 3 millions début avril, soit +33 % en deux semaines), et lance simultanément Codex Labs ainsi qu’un programme de partenariats avec 7 intégrateurs mondiaux.

Codex Labs amène des experts OpenAI directement dans les organisations pour des ateliers pratiques et des sessions de travail, avec pour objectif d’aider les équipes à passer d’un usage expérimental à un déploiement reproductible.

Les 7 partenaires intégrateurs (GSI) : Accenture, Capgemini, CGI, Cognizant, Infosys, PwC et Tata Consultancy Services.

EntrepriseUsage Codex
Virgin AtlanticCouverture de tests, réduction dette technique
RampAccélération des revues de code (code review)
NotionDéveloppement rapide de nouvelles fonctionnalités
CiscoCompréhension de grands dépôts interconnectés
RakutenRéponse aux incidents (incident response)

Codex s’étend désormais au-delà du développement logiciel : navigation navigateur, génération d’images, mémoire, orchestration de tâches transversales.

🔗 Scaling Codex to enterprises worldwide


Nano Banana Pro dans Google AI Studio

20 avril — Les abonnés Google AI Pro et Ultra bénéficient désormais d’un accès élargi à Google AI Studio sans clé API requise : accès à Nano Banana Pro et aux modèles Gemini Pro avec des limites d’usage augmentées.

Il suffit de se connecter avec son compte abonné pour passer du prototype à la production. Cette évolution positionne l’abonnement Google AI comme un pont pratique pour les développeurs souhaitant expérimenter sans la complexité de la facturation à la requête.

🔗 Annonce @GoogleAI 🔗 Article blog.google


Kimi FlashKDA open-source

21 avril — Moonshot AI publie en open-source FlashKDA, leur implémentation CUTLASS haute performance des Kimi Delta Attention (KDA) kernels.

MétriqueValeur
Speedup préfill vs baseline1,72× à 2,22× sur H20
IntégrationDrop-in backend pour flash-linear-attention
PrérequisSM90+, CUDA 12.9+, PyTorch 2.4+

FlashKDA fonctionne comme un backend interchangeable (drop-in) pour flash-linear-attention. L’intégration est disponible via la PR fla-org/flash-linear-attention#852.

🔗 Repo GitHub FlashKDA 🔗 Tweet @Kimi_Moonshot


Git 2.54

20 avril — Git 2.54 est disponible avec trois évolutions structurelles.

git history (expérimental) — Nouvelle sous-commande pour réécrire l’historique sans passer par git rebase -i :

  • git history reword <commit> : modifier le message d’un commit et réécrire les branches en place
  • git history split <commit> : découper un commit en deux interactivement

Config-based hooks — Les hooks peuvent désormais être définis dans les fichiers de configuration Git, plus seulement dans .git/hooks. Cela permet le partage entre plusieurs dépôts via ~/.gitconfig, plusieurs hooks pour le même événement, et la désactivation individuelle via hook.<name>.enabled = false.

Geometric repacking par défautgit maintenance utilise maintenant la stratégie géométrique par défaut, améliorant les performances sans configuration supplémentaire.

🔗 Highlights from Git 2.54 🔗 Tweet @github


Genspark Build en aperçu public

21 avril — Genspark lance Genspark Build en aperçu public (public preview) : un outil de création d’applications et de sites web propulsé par Claude Opus 4.7, couvrant l’intégralité du processus de idée à maquette design, prototype et code fonctionnel.

Les utilisateurs Plus et Pro bénéficient de 3 jours d’accès sans crédit du 21 au 24 avril (9h PT). Genspark précise lancer “rough edges and all” — l’outil est en construction active.

La même journée, Genspark intègre également Lyria 3 Music dans son AI Music Agent et Gemini 3.1 Flash TTS dans son AI Audio Agent.

🔗 Tweet Genspark Build 🔗 Tweet Lyria 3 + TTS


Cohere — Recherche sur le décodage spéculatif pour modèles MoE

21 avril — Cohere publie un article de recherche technique sur l’optimisation des modèles à mélange d’experts (Mixture-of-Experts, MoE) avec le décodage spéculatif (speculative decoding).

L’équipe valide sur ses modèles MoE en production — dont Command A (111 milliards de paramètres) — une courbe de gain non-monotonique selon la taille de lot : les gains augmentent d’abord avant de diminuer. Deux mécanismes clés sont identifiés : la corrélation temporelle dans le routage d’experts réduit de 20 à 31 % le nombre d’experts uniques à charger en mémoire, et un amortissement des coûts fixes explique les gains élevés à BS=1.

🔗 Article Cohere


Genspark Claw : Kimi K2.6 dès le jour J

21 avril — Genspark intègre Kimi K2.6 dans son outil Claw dès le jour du lancement (Day 0), via un partenariat avec Fireworks AI qui a accompagné les phases de pré-lancement et de test.

🔗 Tweet @genspark_ai


Anthropic STEM Fellows Program

21 avril — Anthropic lance le programme STEM Fellows, ciblant des experts en sciences et ingénierie pour travailler aux côtés des équipes de recherche sur des projets de quelques mois, basés à San Francisco.

🔗 Annonce @AnthropicAI


Ce que ça signifie

Le 21 avril marque une convergence entre raisonnement et génération multimodale. gpt-image-2 illustre une tendance claire : les modèles génératifs intègrent le raisonnement comme couche d’orchestration, pas seulement comme amélioration de qualité. Le résultat est un modèle capable de chercher, générer, vérifier et corriger dans une même session.

Deep Research Max pousse la même logique côté recherche : avec le support MCP, l’agent peut accéder à des données propriétaires structurées, ce qui ouvre la voie à des workflows analytiques autonomes sans export de données sensibles vers des services tiers.

Le partenariat NVIDIA × Adobe × WPP signale que l’adoption enterprise de l’IA créative sort de la phase pilote. OpenShell comme runtime auditable répond à une vraie contrainte des grandes organisations : les agents autonomes doivent pouvoir être observés et retracés, pas seulement performants.

Côté outillage, les config-based hooks de Git 2.54 sont une évolution architecturale discrète mais importante : les hooks partagés entre dépôts via ~/.gitconfig vont changer les pratiques d’équipe pour la standardisation des workflows CI locaux.


Sources