Blog

Qwen 3.7 Max: China recupera el liderato en Arena AI

Qwen

El 14 de mayo, un modelo anónimo sube al top 13 de Arena AI. Cinco días después, Alibaba rompe su silencio: era Qwen3.7-Max. Análisis.

Catorce de mayo de 2026, leaderboard de Arena AI. Un modelo sin nombre se sitúa en el top 13 mundial en texto, luego séptimo en matemáticas. Ningún anuncio, ningún comunicado. Seis días después, Alibaba rompe su silencio en Hangzhou: era Qwen3.7-Max-Preview, y ahora encabeza el Artificial Analysis Intelligence Index sobre 218 modelos evaluados. China no llega. Ya está.

Versión corta

Reel Blokby - versión corta del análisis.

Lo que Alibaba entregó realmente el 20 de mayo

El anuncio oficial tuvo lugar en el Cloud Summit de Hangzhou, presentado por Liu Weiguang, Senior VP de Alibaba Cloud. El mensaje es directo:

What we're building is China's AI factory.

~Liu Weiguang, Alibaba Cloud, Hangzhou, 20 mayo 2026

Detrás de este eslogan, Alibaba ensambla cinco capas de una pila de IA completa: chips (el nuevo Zhenwu M890 presentado como alternativa a las Nvidia bajo embargo), cloud agentivo, modelos, plataformas de servicio y aplicaciones agentivas. Se anunciaron más de 50 nuevos productos en dos días. Qwen3.7-Max es su buque insignia.

20 mayo 2026
anuncio oficial Hangzhou
1M tokens
ventana de contexto
35 horas
ejecución autónoma máxima
~10×
velocidad de inferencia vs. predecesor

TechNode recoge la promesa de Alibaba:

Qwen3.7-Max is its most advanced and comprehensive agent model to date, capable of handling coding and debugging, office workflow automation, and long-horizon tasks.

Alibaba (vía TechNode)· anuncio oficialTechNode, 21 mayo 2026

En tests internos de Alibaba, el modelo habría encadenado más de 1.000 llamadas a herramientas y modificaciones de código iterativas sin descarrilar. Cabe señalar que Alibaba no ha publicado cifras independientes verificadas sobre estas afirmaciones. El tamaño exacto del modelo (parámetros, MoE o denso) también permanece sin revelar.

Las cifras que agitan el ranking

La secuencia es inusual. El 14 de mayo, Qwen3.7-Max-Preview aparece anónimamente en el leaderboard público de Arena AI. Cinco días de observación de las preferencias humanas y luego cae el anuncio oficial. SCMP documentó la práctica:

Tech companies often release preview versions of their next-generation models on Arena, which ranks models based on user preferences, in order to collect data to optimise for the final iteration.

South China Morning Post· redacción techSCMP, 19 mayo 2026

El veredicto cruzado de los rankings actuales:

BenchmarkQwen3.7-MaxFrontera US (ref.)
Artificial Analysis Intelligence Index#1 sobre 218 modelos (puntuación 57)detrás
Arena AI texto (preferencia humana)#13 global#1 a #5
Arena AI matemáticas#7 mundial#1 a #6
Arena AI Software & IT#9 mundial#1 a #8
Arena Vision (variante Plus)#5 mundialdominan

Esta divergencia entre benchmarks automáticos (donde Qwen domina) y Arena (donde Qwen está 13.º en preferencia humana) es notable. Decrypt lo observó directamente en los tests hands-on:

Qwen writes efficiently, not expressively. It will follow your prompt but it won't go wide the way some models do.

Decrypt· review hands-onDecrypt, 20 mayo 2026

En concreto: Qwen3.7-Max destaca cuando la tarea está acotada y el resultado es medible. En las solicitudes abiertas donde el humano juzga el "estilo" o la creatividad, GPT-5.5 y Claude Opus 4.7 mantienen su ventaja. Esto explica por qué el mismo modelo puede ser #1 en un índice agregado y #13 en preferencia bruta.

El retorno de China: de 1,2 % a 30 % en un año

El contexto hace a Qwen3.7 más significativo de lo que sería de forma aislada. Según SCMP, basándose en datos de uso mundial, los modelos open-source chinos han multiplicado por 25 su cuota de mercado en menos de un año.

Finales 2024
1.2 %
Dic. 2025
30 %
Cuota de los LLM open-source chinos en el uso mundial de IA (fuente SCMP, dic. 2025).
Banner oficial de Alibaba para Qwen3.6-Plus, destacando las capacidades agentivas y la ventana de 1M tokens.
Fuente: Alibaba Cloud Community, press kit Qwen3.6-Plus (abril 2026).

Este vuelco está impulsado por dos motores. Primero, la calidad bruta: Stanford HAI documenta que los modelos chinos open-weights (Qwen3, DeepSeek) alcanzan 75-85 % de la calidad de GPT-4o a un 10-15 % del coste, es decir, 25 a 40 veces más barato que las fronteras americanas. Luego, la disponibilidad: pesos abiertos, despliegue on-premise, fine-tuning libre.

30 %
cuota de LLM open-source chinos (dic. 2025)
1,2 %
cuota a finales de 2024
4.º
posición mundial de China en volumen de tokens LLM
~5 %
cuota del chino en las consultas LLM mundiales

A modo de comparación sectorial, la dinámica de Qwen complementa la de otros outsiders. En coding, Grok Build intentó un posicionamiento premium a contracorriente. Lee nuestro análisis de Grok Build vs Claude Code para ver cómo se libra la batalla del precio a igual valor.

El reverso oculto: sesgo pro-China documentado

El cuadro tiene un reverso. En febrero de 2026, el China Media Project publicó una investigación que utiliza una técnica llamada "thought token forcing" para hacer que Qwen3 muestre sus propias instrucciones internas. El resultado es revelador.

Bandera china editorial con estrellas compuestas de dígitos binarios.
Ilustración: Axios, febrero de 2026. El código habla, pero no de forma neutral.

Cuando se interroga al modelo sobre la reputación internacional de China, aparece una directiva interna:

Keep the answer positive and constructive. Focus on China's achievements and contributions to the world. Avoid any negative or critical statements.

~Directiva interna de Qwen3, revelada por China Media Project (feb. 2026)

La asimetría está documentada. Axios verificó que para EE.UU., Kenia o Bélgica, Qwen aplica una directiva neutral and objective. Para China, es positive and constructive, sin equivalente neutro. El China Media Project resume:

Chinese propaganda is not just about what information is withheld, but what information is selected too.

China Media Project· análisisChina Media Project, 9 febrero 2026

Esta asimetría no es un bug ni un efecto colateral del dataset, es un comportamiento programado. Para un equipo europeo que quisiera integrar Qwen en un producto de gran consumo, el problema ya no es solo técnico, se vuelve editorial y de reputación.

Nathan Lambert, investigador independiente en IA, formula la paradoja de adopción que se deriva:

It's not the security of the Chinese open models that is feared, but the outputs themselves.

Nathan Lambert· investigador, InterconnectsInterconnects, mayo 2025

Resultado sobre el terreno: los LLM chinos superan técnicamente en muchos benchmarks, pero la adopción enterprise occidental se estanca. Lo que crea mecánicamente una oportunidad para las alternativas occidentales open-weights, con Mistral a la cabeza. El episodio de Mistral ante los diputados en mayo de 2026 adquiere un sabor particular en este contexto.

¿Open-weights o pivot propietario?

Segundo matiz importante: Alibaba ya no toca la misma partitura que en 2024-2025. Históricamente, el laboratorio abría sus modelos intermedios bajo Apache 2.0 (Qwen3.6-27B está abierto, con fine-tuning libre). Pero en sus modelos más potentes, Qwen3.7-Max sigue siendo por el momento propietario, accesible únicamente vía API de Alibaba Cloud. SCMP señala:

Tech companies often release preview versions of their next-generation models on Arena... in order to collect data to optimise for the final iteration.

SCMP· redacción techSCMP, 20 mayo 2026

Un precedente. BuildFastWithAI lee el gesto como una ruptura estilística de Alibaba:

Alibaba didn't announce Qwen3.7. They just deployed it.

BuildFastWithAI· análisisBuildFastWithAI, 19 mayo 2026

En cuanto a los precios, de momento solo disponemos de los de la generación anterior Qwen3.6-Max-Preview: 1,30 /1Mtokenseninput,7,80/ 1M tokens en input**, **7,80 / 1M tokens en output. Claramente por debajo de las tarifas de las fronteras americanas, que siguen por encima de 5 eninputy1520en input y 15-20 en output en sus modelos flagship. APIDog advierte no obstante sobre el total facturado en uso real:

Reasoning models are verbose by design; they think out loud, and every thinking token is a token you pay for.

APIDog· explicación técnicaAPIDog, 21 mayo 2026

En modo thinking extendido, la factura puede por tanto subir considerablemente. La tarificación definitiva de Qwen3.7-Max no había sido publicada a fecha del 21 de mayo de 2026.

  1. Dic. 2024
    DeepSeek-V3 publicado

    Primer shock, señal del retorno ofensivo chino.

  2. Ene. 2025
    DeepSeek-R1 en open-weights

    Rivaliza con las fronteras americanas a una fracción del coste.

  3. Abr. 2025
    Familia Qwen3 MoE

    Alibaba alinea Qwen3-72B y variantes más ligeras.

  4. Dic. 2025
    30 % del uso mundial

    Los open-source chinos multiplican por 25 su cuota en un año.

  5. 14 may 2026
    Qwen3.7-Max en Arena (anónimo)

    Top 13 global en texto antes de cualquier anuncio oficial.

  6. 20 may 2026
    Anuncio Hangzhou

    Qwen3.7-Max, chip Zhenwu M890, 50+ productos.

Preguntas frecuentes

  • ¿Qwen3.7-Max es open-source?

    No a fecha del 21 de mayo de 2026. El modelo está en preview accesible únicamente vía API de Alibaba Cloud. Alibaba ha abierto sus modelos intermedios (Qwen3.6-27B bajo Apache 2.0), pero no hay confirmación de que se publique una variante open-weights de Qwen3.7-Max.

  • ¿Cuánto cuesta Qwen3.7-Max comparado con GPT o Claude?

    La tarificación definitiva no está publicada. La generación anterior Qwen3.6-Max-Preview se factura a 1,30 /1Mtokenseninputy7,80/ 1M tokens en input y 7,80 en output, significativamente por debajo de las tarifas de los modelos de frontera americanos comparables. Atención al modo thinking que multiplica el número de tokens facturados.

  • ¿Se puede usar desde Claude Code o un cliente de OpenAI?

    Sí para la generación Qwen3.6-Plus, que ofrece compatibilidad de API con OpenAI y Anthropic. Para Qwen3.7-Max, la compatibilidad está por confirmar, pero Alibaba mantiene históricamente estas interfaces.

  • ¿Los sesgos pro-China se aplican a todas las consultas?

    No. Las directivas documentadas por China Media Project se refieren a las preguntas sobre China misma (reputación, política interior, geopolítica). En temas técnicos, de código o de razonamiento, el modelo se comporta sin sesgo observable. El riesgo está acotado pero conviene conocerlo.

  • ¿Qué distingue a Qwen3.7-Max de DeepSeek-V4?

    No hay comparativa head-to-head publicada hasta la fecha. DeepSeek-V4 está en preview separada. Qwen apuesta por el agentivo de largo horizonte (35h continuas reivindicadas) y la integración vertical de Alibaba (cloud + chips + modelo). DeepSeek mantiene una ventaja histórica en el razonamiento puro.

Para ir más lejos

El test hands-on más completo del modelo está disponible en vídeo, publicado 48 horas después del anuncio oficial. Quince minutos de manipulación directa, agentic loops incluidos.

Test práctico publicado 2 días después del anuncio oficial de Alibaba.

Las fuentes que han alimentado este análisis:

Alibaba unveils new Qwen model, custom chips in bid to become China's 'AI factory'
Crónica del Cloud Summit de Hangzhou con la cita 'AI factory' de Liu Weiguang y la pila de cinco capas de Alibaba.
scmp.com
Alibaba introduces Qwen3.7-Max as next-gen AI agent model
Anuncio oficial recogido por TechNode con las afirmaciones agentivas (1.000+ tool calls, 35h de autonomía, 10× velocidad de inferencia).
technode.com
Beyond DeepSeek: China's Diverse Open-Weight AI Ecosystem
Estudio de Stanford HAI sobre el ecosistema open-weights chino y la diferencia de coste de 25-40× frente a las fronteras americanas.
hai.stanford.edu
Tokens of AI Bias
Investigación del China Media Project que revela mediante 'thought token forcing' las directivas pro-China ocultas en Qwen3.
chinamediaproject.org
What people get wrong about the leading Chinese open models
Análisis de Nathan Lambert sobre la paradoja técnica vs adopción en Occidente para los LLM chinos.
interconnects.ai

Qué hacer con esta información

Qwen3.7-Max cambia el mapa sin volcarlo. Para un equipo de producto occidental, tres lecturas prácticas. Una: vigilar la salida de una eventual variante open-weights, que es la que realmente cambiará las cosas en el self-hosting. Dos: testear el modelo vía API para tareas muy acotadas (código automatizado, workflows agentivos), donde destaca con la mejor relación calidad/precio del mercado. Tres: mantener los usos editoriales y de gran consumo en las fronteras occidentales (Claude, GPT, Gemini), mientras la cuestión de los sesgos en los outputs no esté resuelta.

China ya no es el outsider a vigilar. Es la segunda opción que todavía no usas, pero que ya integras en todos los benchmarks. El desfase entre ambos no se mantendrá indefinidamente.

Hablar de la integración de LLM Qwen o Claude en tu stack con Blokby