Blog

Claude Opus 4.8 : ce que change la version d'Anthropic

Claude

Anthropic sort Opus 4.8 quarante-et-un jours après Opus 4.7. Dynamic Workflows, honnêteté de code, Effort Control, benchmarks : ce qui bouge vraiment.

Anthropic vient de publier Claude Opus 4.8, à peine quarante-et-un jours après Opus 4.7. Cycle de release inhabituel pour un labo qui prend d'habitude son temps. La vraie surprise n'est pas le numéro de version : ce sont les Dynamic Workflows, un nouveau pattern d'orchestration plafonné à mille sous-agents en parallèle dans Claude Code. Voici ce qui change vraiment pour toi.

Ce qui change concrètement

Opus 4.8 garde le pricing standard de 4.7 (5 /Minput,25/M input, 25 /M output) et le model ID API claude-opus-4-8. La fenêtre de contexte reste à 1 M tokens, le knowledge cutoff à janvier 2026. Côté gains mesurés, Vellum AI a publié une comparaison directe.

Tableau de benchmarks Claude Opus 4.8 vs Opus 4.7, GPT-5.5 et Gemini 3.1 Pro
Source : Vellum AI - benchmarks publiés le 28 mai 2026.
69,2 %
SWE-bench Pro
83,4 %
OSWorld-Verified
57,9 %
Humanity's Last Exam (avec outils)
1890
GDPval-AA Elo

Le pattern : des gains réels sur les tâches agentiques (codage, computer use, recherche multi-étape), une stagnation sur les benchmarks saturés type MMLU, et un renversement sur Terminal-Bench 2.1 où Opus 4.8 (74,6 %) repasse devant Gemini 3.1 Pro (70,3 %) après que la version 4.7 avait laissé filer ce benchmark à 66,1 %. Vellum rappelle quand même que the harness matters as much as the model : l'environnement d'exécution pèse autant que le modèle dans le score final.

Dynamic Workflows : 1 000 sous-agents qui débattent

C'est le vrai changement de paradigme. Dans Claude Code v2.1.154 et au-dessus, les Dynamic Workflows (research preview) cassent une tâche en sous-tâches et les distribuent à des sous-agents qui travaillent en parallèle. Ensuite, d'autres agents tentent de réfuter les conclusions des premiers jusqu'à convergence.

Agents address problems from independent angles, then others try to refute those findings until answers converge.

DimensionApproche classique (1 agent)Dynamic Workflows
Parallélisme1 thread linéairejusqu'à 16 agents concurrents
Plafond par runn/a1 000 agents au total
Convergencetu relis et arbitresréfutation interne entre agents
Cas d'usagerefactor ciblé, debugaudit codebase, migration massive
Coût tokensprévisiblenon documenté publiquement

Concrètement, tu peux déclencher une migration sur un monorepo entier ou un audit de sécurité sur des centaines de fichiers, et laisser le système orchestrer la fan-out + la convergence sans tout piloter à la main. Attention au coût : Anthropic ne communique pas sur la consommation tokens d'un workflow plafonné à 1 000 agents, et c'est probablement le seul vrai garde-fou actuel.

Honnêteté : 4× moins de failles masquées

C'est l'annonce la plus chargée politiquement. Anthropic affirme qu'Opus 4.8 est around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked. Traduit : quand le modèle écrit du code défectueux, il le signale au lieu de le passer sous silence.

Opus 4.8's tendency to proactively flag issues with the inputs and outputs of an analysis.

Bridgewater AssociatesTechCrunch, 28 mai 2026

TechCrunch confirme indépendamment que le modèle est more likely to flag uncertainties about its work and less likely to make unsupported claims. Côté Anthropic, Kay Zhu rapporte que Claude Opus 4.8 is the only model to complete every case end-to-end sur le benchmark interne Super-Agent.

Le contre-poids honnête : les mécanismes internes derrière ce gain ne sont pas documentés publiquement. On t'annonce le résultat sans révéler la méthode (RLHF spécifique ? fine-tuning sur des traces d'audit ? autre ?).

Effort Control et Fast mode : la dimension business

Deux nouveautés produit qui touchent autant les utilisateurs claude.ai que les builders API.

L'Effort Control (claude.ai et Cowork) te laisse régler le curseur qualité vs vitesse pour une tâche donnée. Concrètement, tu acceptes plus de tokens de raisonnement quand l'enjeu est élevé, et tu laisses le modèle aller vite quand c'est un mail de relance.

Le Fast mode est l'autre annonce structurante côté pricing.

Capture de l'interface Claude Opus 4.8 avec Effort Control et fast mode
Effort Control et fast mode : deux leviers utilisateur pour arbitrer qualité, vitesse et coût.

Côté API, Anthropic ajoute une amélioration discrète mais importante : les Messages API acceptent désormais des entrées system au milieu d'une conversation sans casser le prompt cache. Pour les agents qui doivent changer de rôle ou injecter du contexte mid-run, c'est une économie tangible sur les jobs longs.

Du côté plateformes, Opus 4.8 est en GA sur GitHub Copilot Pro+, Business et Enterprise depuis le 28 mai, accessible via VS Code, Visual Studio, JetBrains, Xcode, Eclipse, GitHub.com et mobile. Multiplicateur de requêtes premium à 15× jusqu'à la facturation à l'usage prévue le 1er juin 2026.

Ce que les devs en pensent vraiment

La réception côté communauté n'est pas unanime. Sur Hacker News, NiloCK résume une frustration partagée : I don't firmly grasp any capabilities improvements over my memory of 4.5. Le rythme d'incréments rapprochés rend les gains difficiles à percevoir au quotidien, même quand les benchmarks bougent.

À l'opposé, Zavora rapporte un cas concret positif : refactored my 4.6 generated code... Simple, elegant and exactly what i wanted. Le pattern qui émerge : les améliorations se voient sur les tâches longues et structurées (refactor large, audit), moins sur le ping-pong rapide d'un chat classique.

D'autres frictions remontent : des refusals de sécurité parfois trop prudents sur du code légitime, et un bug de spend augmenté signalé sur certaines tâches. Anthropic n'a pas commenté publiquement à ce stade.

Opus 4.8 reste en dessous de Claude Mythos Preview, accessible uniquement via Project Glasswing.

C'est l'angle mort de l'annonce. Le vrai modèle haut de gamme d'Anthropic, Mythos Preview, reste en invitation-only via Project Glasswing. Axios indique une ouverture dans quelques semaines. Si tu cherches le meilleur de ce que peut faire Anthropic aujourd'hui, Opus 4.8 n'est pas la réponse complète.

FAQ

  • Quel est le model ID API pour Claude Opus 4.8 ?

    Le model ID officiel est claude-opus-4-8. Tu l'utilises tel quel dans tes appels à l'API Messages. Fenêtre de contexte 1 M tokens, sortie max 128 k tokens.

  • Combien coûte Claude Opus 4.8 par rapport à Opus 4.7 ?

    Pricing standard identique : 5 /Mtokensinput,25/M tokens input, 25 /M tokens output. Le changement est sur le Fast mode, qui descend à 10 /Minputet50/M input et 50 /M output, soit 3× moins cher que le précédent fast mode.

  • Faut-il migrer immédiatement depuis Opus 4.7 ?

    Pour les workflows agentiques (codage long, computer use, audits), oui : les gains sont mesurables. Pour le chat rapide ou les tâches courtes, l'écart est moins perceptible. Anthropic prévoit la dépréciation des modèles Opus 4 et Sonnet 4 de mai 2025 le 15 juin 2026, mais Opus 4.7 reste supporté.

  • Les Dynamic Workflows sont-ils disponibles tout de suite ?

    Oui, en research preview dans Claude Code v2.1.154 et au-dessus. Plafond technique à 16 agents concurrents et 1 000 agents au total par run. Le coût tokens n'est pas documenté publiquement, prudence en production.

Pour aller plus loin

L'annonce officielle Anthropic et la décomposition vidéo posent le contexte le plus complet. Si tu veux entendre la lecture critique en direct, le breakdown indépendant sur YouTube décortique le positionnement d'Opus 4.8 face à OpenAI et Google.

Discussion critique sur le positionnement d'Opus 4.8 face à OpenAI et Google, mai 2026.

Les sources qui ont nourri ce décryptage :

Introducing Claude Opus 4.8 - Anthropic
Annonce officielle, source canonique pour les chiffres de gain (4× honnêteté code, Online-Mind2Web 84 %) et la communication produit.
anthropic.com
Claude Opus 4.8 Benchmarks Explained - Vellum AI
Comparaison chiffrée d'Opus 4.8 face à Opus 4.7, GPT-5.5 et Gemini 3.1 Pro sur SWE-bench Pro, HLE, OSWorld, Terminal-Bench, GDPval-AA.
vellum.ai
Anthropic Ships Claude Opus 4.8 Alongside Dynamic Workflows - MarkTechPost
Détails techniques sur les Dynamic Workflows (16 concurrents, plafond 1 000 agents) et le mécanisme de convergence par réfutation entre sous-agents.
marktechpost.com
Claude Opus 4.8 - Hacker News
Thread communautaire pour la réception côté devs : gains perçus, frustrations sur les refusals trop prudents, bug de spend signalé.
news.ycombinator.com

Opus 4.8 n'est pas une révolution, c'est une livraison de précision sur les vecteurs qui comptent pour les builders d'agents : meilleure honnêteté de code, orchestration parallèle plafonnée, Fast mode trois fois moins cher. Le reste de l'histoire, on l'aura quand Mythos Preview sortira de Project Glasswing.