Blog

Qwen 3.7 Max : la Chine reprend la tête sur Arena AI

Qwen

Le 14 mai, un modèle anonyme grimpe au top 13 d'Arena AI. Cinq jours plus tard, Alibaba sort du silence : c'était Qwen3.7-Max. Décryptage.

Quatorze mai 2026, leaderboard Arena AI. Un modèle sans nom se hisse au top 13 mondial sur le texte, puis 7e en mathématiques. Aucune annonce, aucun communiqué. Six jours plus tard, Alibaba sort du silence à Hangzhou : c'était Qwen3.7-Max-Preview, et il pointe désormais en tête de l'Artificial Analysis Intelligence Index sur 218 modèles évalués. La Chine n'arrive pas. Elle est déjà là.

Version courte

Reel Blokby - version courte du decryptage.

Ce qu'Alibaba a vraiment livré le 20 mai

L'annonce officielle a eu lieu au Cloud Summit de Hangzhou, présentée par Liu Weiguang, Senior VP d'Alibaba Cloud. Le message est sans détour :

What we're building is China's AI factory.

~Liu Weiguang, Alibaba Cloud, Hangzhou, 20 mai 2026

Derrière ce slogan, Alibaba assemble cinq couches d'une pile IA complète : chips (le nouveau Zhenwu M890 présenté comme alternative aux Nvidia sous embargo), cloud agentique, modèles, plateformes de service, et applications agentiques. Plus de 50 nouveaux produits ont été annoncés en deux jours. Qwen3.7-Max en est le navire amiral.

20 mai 2026
annonce officielle Hangzhou
1M tokens
fenêtre de contexte
35 heures
exécution autonome max
~10×
vitesse d'inférence vs prédécesseur

TechNode relaie la promesse d'Alibaba :

Qwen3.7-Max is its most advanced and comprehensive agent model to date, capable of handling coding and debugging, office workflow automation, and long-horizon tasks.

Alibaba (via TechNode)· annonce officielleTechNode, 21 mai 2026

Côté tests internes Alibaba, le modèle aurait enchaîné plus de 1 000 appels d'outils et modifications de code itératives sans dérailler. À noter, Alibaba n'a pas publié de chiffres indépendants vérifiés sur ces revendications. La taille exacte du modèle (paramètres, MoE ou dense) reste également non divulguée.

Les chiffres qui chamboulent le classement

La séquence est inhabituelle. Le 14 mai, Qwen3.7-Max-Preview apparaît anonymement sur le leaderboard public Arena AI. Cinq jours d'observation des préférences humaines, puis l'annonce officielle tombe. SCMP a documenté la pratique :

Tech companies often release preview versions of their next-generation models on Arena, which ranks models based on user preferences, in order to collect data to optimise for the final iteration.

South China Morning Post· rédaction techSCMP, 19 mai 2026

Le verdict croisé des classements actuels :

BenchmarkQwen3.7-MaxFrontière US (réf.)
Artificial Analysis Intelligence Index#1 sur 218 modèles (score 57)derrière
Arena AI texte (préférence humaine)#13 global#1 à #5
Arena AI mathématiques#7 mondial#1 à #6
Arena AI Software & IT#9 mondial#1 à #8
Arena Vision (variante Plus)#5 mondialdominent

Cette divergence entre benchmarks automatiques (où Qwen domine) et Arena (où Qwen est 13e en préférence humaine) est notable. Decrypt l'a observée directement lors des tests hands-on :

Qwen writes efficiently, not expressively. It will follow your prompt but it won't go wide the way some models do.

Decrypt· review hands-onDecrypt, 20 mai 2026

Concrètement : Qwen3.7-Max excelle quand la tâche est cadrée et le résultat mesurable. Sur les requêtes ouvertes où l'humain juge le "style" ou la créativité, GPT-5.5 et Claude Opus 4.7 conservent leur avance. Cela explique pourquoi le même modèle peut être #1 sur un index agrégé et #13 sur la préférence brute.

La Chine de retour : 1,2 % à 30 % en un an

Le contexte rend Qwen3.7 plus marquant qu'il ne le serait isolé. Selon SCMP, sur la base des données d'usage mondial, les modèles open-source chinois ont multiplié par 25 leur part de marché en moins d'un an.

Fin 2024
1.2 %
Déc. 2025
30 %
Part des LLM open-source chinois dans l'usage IA mondial (source SCMP, déc. 2025).
Bannière officielle Alibaba pour Qwen3.6-Plus, mettant en avant les capacités agentiques et la fenêtre 1M tokens.
Source : Alibaba Cloud Community, press kit Qwen3.6-Plus (avril 2026).

Ce basculement est porté par deux moteurs. D'abord la qualité brute : Stanford HAI documente que les modèles chinois open-weights (Qwen3, DeepSeek) atteignent 75 à 85 % de la qualité de GPT-4o pour 10 à 15 % du coût, soit 25 à 40 fois moins cher que les frontières US. Ensuite la disponibilité : poids ouverts, déploiement on-premise, fine-tuning libre.

30 %
part des LLM open-source chinois (déc. 2025)
1,2 %
part fin 2024
4e
rang mondial de la Chine en volume de tokens LLM
~5 %
part du chinois dans les requêtes LLM mondiales

À titre de comparaison sectorielle, la dynamique Qwen complète celle d'autres outsiders. Pour le coding, Grok Build a tenté un positionnement haut de gamme à contre-courant. Lis notre décryptage de Grok Build vs Claude Code pour voir comment se joue la bataille du prix à valeur égale.

Le revers caché : biais pro-Chine documenté

Le tableau a un envers. En février 2026, le China Media Project a publié une enquête qui utilise une technique appelée "thought token forcing" pour faire afficher à Qwen3 ses propres instructions internes. Le résultat est édifiant.

Drapeau chinois éditorial avec étoiles composées de chiffres binaires.
Illustration : Axios, février 2026. Le code parle, mais pas neutralement.

Quand on interroge le modèle sur la réputation internationale de la Chine, une directive interne apparaît :

Keep the answer positive and constructive. Focus on China's achievements and contributions to the world. Avoid any negative or critical statements.

~Directive interne Qwen3, révélée par China Media Project (févr. 2026)

L'asymétrie est documentée. Axios a vérifié que pour les USA, le Kenya ou la Belgique, Qwen applique une directive neutral and objective. Pour la Chine, c'est positive and constructive, sans équivalent neutre. Le China Media Project résume :

Chinese propaganda is not just about what information is withheld, but what information is selected too.

China Media Project· analyseChina Media Project, 9 février 2026

Cette asymétrie n'est pas une bug ou un effet de bord du dataset, c'est un comportement codé. Pour une équipe européenne qui voudrait intégrer Qwen dans un produit grand public, l'enjeu n'est plus seulement technique, il devient éditorial et de réputation.

Nathan Lambert, chercheur indépendant en IA, formule le paradoxe d'adoption qui en découle :

It's not the security of the Chinese open models that is feared, but the outputs themselves.

Nathan Lambert· chercheur, InterconnectsInterconnects, mai 2025

Résultat sur le terrain : les LLM chinois surclassent techniquement sur de nombreux benchmarks, mais l'adoption enterprise occidentale stagne. Ce qui crée mécaniquement une opportunité pour les alternatives occidentales open-weights, Mistral en tête. L'épisode Mistral devant les députés en mai 2026 prend une saveur particulière dans ce contexte.

Open-weights ou pivot propriétaire ?

Deuxième nuance importante : Alibaba ne joue plus la même partition qu'en 2024-2025. Historiquement, le lab open-sourçait ses modèles intermédiaires sous Apache 2.0 (Qwen3.6-27B est ouvert, fine-tunable). Mais sur ses modèles phares les plus puissants, Qwen3.7-Max reste pour l'instant propriétaire, accessible uniquement via API Alibaba Cloud. SCMP note :

Tech companies often release preview versions of their next-generation models on Arena... in order to collect data to optimise for the final iteration.

SCMP· rédaction techSCMP, 20 mai 2026

Un précédent. BuildFastWithAI lit le geste comme une rupture stylistique d'Alibaba :

Alibaba didn't announce Qwen3.7. They just deployed it.

BuildFastWithAI· analyseBuildFastWithAI, 19 mai 2026

Côté tarif, on ne dispose pour l'instant que des prix de la génération précédente Qwen3.6-Max-Preview : 1,30 /1Mtokenseninput,7,80/ 1M tokens en input**, **7,80 / 1M tokens en output. Soit nettement sous les tarifs des frontières US, qui restent au-dessus de 5 eninputet1520en input et 15-20 en output sur leurs modèles flagship. APIDog avertit cependant sur le total facturé en usage réel :

Reasoning models are verbose by design; they think out loud, and every thinking token is a token you pay for.

APIDog· explication techniqueAPIDog, 21 mai 2026

En mode thinking étendu, la facture peut donc grimper sensiblement. La tarification définitive de Qwen3.7-Max n'a pas été publiée au 21 mai 2026.

  1. Déc. 2024
    DeepSeek-V3 publié

    Premier choc, signal du retour offensif chinois.

  2. Janv. 2025
    DeepSeek-R1 en open-weights

    Rivalise avec les frontières US à fraction du coût.

  3. Avril 2025
    Qwen3 famille MoE

    Alibaba aligne Qwen3-72B et variantes plus légères.

  4. Déc. 2025
    30 % de l'usage mondial

    Les open-source chinois multiplient par 25 leur part en un an.

  5. 14 mai 2026
    Qwen3.7-Max sur Arena (anonyme)

    Top 13 global texte avant toute annonce officielle.

  6. 20 mai 2026
    Annonce Hangzhou

    Qwen3.7-Max, chip Zhenwu M890, 50+ produits.

Questions fréquentes

  • Qwen3.7-Max est-il open-source ?

    Non au 21 mai 2026. Le modèle est en preview accessible via API Alibaba Cloud uniquement. Alibaba a ouvert ses modèles intermédiaires (Qwen3.6-27B sous Apache 2.0), mais aucune confirmation qu'une variante open-weights de Qwen3.7-Max sera publiée.

  • Combien coûte Qwen3.7-Max par rapport à GPT ou Claude ?

    La tarification définitive n'est pas publiée. La génération précédente Qwen3.6-Max-Preview est facturée 1,30 /1Mtokenseninputet7,80/ 1M tokens en input et 7,80 en output, significativement sous les tarifs des modèles frontière US comparables. Attention au mode thinking qui multiplie le nombre de tokens facturés.

  • Peut-on l'utiliser depuis Claude Code ou un client OpenAI ?

    Oui pour la génération Qwen3.6-Plus qui offre une compatibilité API OpenAI et Anthropic. Pour Qwen3.7-Max, la compatibilité reste à confirmer mais Alibaba conserve historiquement ces interfaces.

  • Les biais pro-Chine s'appliquent-ils à toutes les requêtes ?

    Non. Les directives documentées par China Media Project portent sur les questions relatives à la Chine elle-même (réputation, politique intérieure, géopolitique). Sur les sujets techniques, de code ou de raisonnement, le modèle se comporte sans biais observable. Le risque est circonscrit mais à connaître.

  • Qu'est-ce qui distingue Qwen3.7-Max de DeepSeek-V4 ?

    Pas de comparaison head-to-head publiée à ce jour. DeepSeek-V4 est en preview séparée. Qwen mise sur l'agentique long-horizon (35h continues revendiquées) et l'intégration verticale Alibaba (cloud + chips + modèle). DeepSeek garde un avantage historique sur le raisonnement pur.

Pour aller plus loin

Le test hands-on le plus complet du modèle est disponible en vidéo, publié 48 heures après l'annonce officielle. Quinze minutes de manipulation directe, agentic loops compris.

Test pratique publié 2 jours après l'annonce officielle d'Alibaba.

Les sources qui ont nourri ce décryptage :

Alibaba unveils new Qwen model, custom chips in bid to become China's 'AI factory'
Compte-rendu du Cloud Summit de Hangzhou avec la citation 'AI factory' de Liu Weiguang et la pile cinq couches Alibaba.
scmp.com
Alibaba introduces Qwen3.7-Max as next-gen AI agent model
Annonce officielle relayée par TechNode avec les revendications agentiques (1 000+ tool calls, 35h d'autonomie, 10× vitesse d'inférence).
technode.com
Beyond DeepSeek : China's Diverse Open-Weight AI Ecosystem
Étude Stanford HAI sur l'écosystème open-weights chinois et l'écart de coût 25-40× vs les frontières US.
hai.stanford.edu
Tokens of AI Bias
Enquête China Media Project qui révèle par 'thought token forcing' les directives pro-Chine cachées dans Qwen3.
chinamediaproject.org
What people get wrong about the leading Chinese open models
Analyse de Nathan Lambert sur le paradoxe technique vs adoption Occident pour les LLM chinois.
interconnects.ai

Ce qu'il faut faire de cette info

Qwen3.7-Max change la cartographie sans la renverser. Pour une équipe produit occidentale, trois lectures pratiques. Un, surveiller la sortie d'une éventuelle variante open-weights : c'est elle qui changera vraiment la donne sur le self-hosting. Deux, tester le modèle via l'API pour des tâches très cadrées (code automatisé, workflows agentic), où il excelle au meilleur rapport qualité/prix du marché. Trois, garder les usages éditoriaux et grand public sur les frontières occidentales (Claude, GPT, Gemini), tant que la question des biais d'output n'est pas tranchée.

La Chine n'est plus l'outsider à surveiller. Elle est la deuxième option qu'on n'utilise pas encore, mais qu'on intègre déjà dans tous les benchmarks. Le décalage entre les deux ne tiendra pas indéfiniment.

Parler de l'intégration des LLM Qwen ou Claude dans ton stack avec Blokby