Catorce de mayo de 2026, leaderboard de Arena AI. Un modelo sin nombre se sitúa en el top 13 mundial en texto, luego séptimo en matemáticas. Ningún anuncio, ningún comunicado. Seis días después, Alibaba rompe su silencio en Hangzhou: era Qwen3.7-Max-Preview, y ahora encabeza el Artificial Analysis Intelligence Index sobre 218 modelos evaluados. China no llega. Ya está.
Versión corta
Lo que Alibaba entregó realmente el 20 de mayo
El anuncio oficial tuvo lugar en el Cloud Summit de Hangzhou, presentado por Liu Weiguang, Senior VP de Alibaba Cloud. El mensaje es directo:
What we're building is China's AI factory.
Detrás de este eslogan, Alibaba ensambla cinco capas de una pila de IA completa: chips (el nuevo Zhenwu M890 presentado como alternativa a las Nvidia bajo embargo), cloud agentivo, modelos, plataformas de servicio y aplicaciones agentivas. Se anunciaron más de 50 nuevos productos en dos días. Qwen3.7-Max es su buque insignia.
TechNode recoge la promesa de Alibaba:
“Qwen3.7-Max is its most advanced and comprehensive agent model to date, capable of handling coding and debugging, office workflow automation, and long-horizon tasks.
”
En tests internos de Alibaba, el modelo habría encadenado más de 1.000 llamadas a herramientas y modificaciones de código iterativas sin descarrilar. Cabe señalar que Alibaba no ha publicado cifras independientes verificadas sobre estas afirmaciones. El tamaño exacto del modelo (parámetros, MoE o denso) también permanece sin revelar.
Las cifras que agitan el ranking
La secuencia es inusual. El 14 de mayo, Qwen3.7-Max-Preview aparece anónimamente en el leaderboard público de Arena AI. Cinco días de observación de las preferencias humanas y luego cae el anuncio oficial. SCMP documentó la práctica:
“Tech companies often release preview versions of their next-generation models on Arena, which ranks models based on user preferences, in order to collect data to optimise for the final iteration.
”
El veredicto cruzado de los rankings actuales:
| Benchmark | Qwen3.7-Max | Frontera US (ref.) |
|---|---|---|
| Artificial Analysis Intelligence Index | #1 sobre 218 modelos (puntuación 57) | detrás |
| Arena AI texto (preferencia humana) | #13 global | #1 a #5 |
| Arena AI matemáticas | #7 mundial | #1 a #6 |
| Arena AI Software & IT | #9 mundial | #1 a #8 |
| Arena Vision (variante Plus) | #5 mundial | dominan |
Esta divergencia entre benchmarks automáticos (donde Qwen domina) y Arena (donde Qwen está 13.º en preferencia humana) es notable. Decrypt lo observó directamente en los tests hands-on:
“Qwen writes efficiently, not expressively. It will follow your prompt but it won't go wide the way some models do.
”
En concreto: Qwen3.7-Max destaca cuando la tarea está acotada y el resultado es medible. En las solicitudes abiertas donde el humano juzga el "estilo" o la creatividad, GPT-5.5 y Claude Opus 4.7 mantienen su ventaja. Esto explica por qué el mismo modelo puede ser #1 en un índice agregado y #13 en preferencia bruta.
El retorno de China: de 1,2 % a 30 % en un año
El contexto hace a Qwen3.7 más significativo de lo que sería de forma aislada. Según SCMP, basándose en datos de uso mundial, los modelos open-source chinos han multiplicado por 25 su cuota de mercado en menos de un año.

Este vuelco está impulsado por dos motores. Primero, la calidad bruta: Stanford HAI documenta que los modelos chinos open-weights (Qwen3, DeepSeek) alcanzan 75-85 % de la calidad de GPT-4o a un 10-15 % del coste, es decir, 25 a 40 veces más barato que las fronteras americanas. Luego, la disponibilidad: pesos abiertos, despliegue on-premise, fine-tuning libre.
A modo de comparación sectorial, la dinámica de Qwen complementa la de otros outsiders. En coding, Grok Build intentó un posicionamiento premium a contracorriente. Lee nuestro análisis de Grok Build vs Claude Code para ver cómo se libra la batalla del precio a igual valor.
El reverso oculto: sesgo pro-China documentado
El cuadro tiene un reverso. En febrero de 2026, el China Media Project publicó una investigación que utiliza una técnica llamada "thought token forcing" para hacer que Qwen3 muestre sus propias instrucciones internas. El resultado es revelador.

Cuando se interroga al modelo sobre la reputación internacional de China, aparece una directiva interna:
Keep the answer positive and constructive. Focus on China's achievements and contributions to the world. Avoid any negative or critical statements.
La asimetría está documentada. Axios verificó que para EE.UU., Kenia o Bélgica, Qwen aplica una directiva neutral and objective. Para China, es positive and constructive, sin equivalente neutro. El China Media Project resume:
“Chinese propaganda is not just about what information is withheld, but what information is selected too.
”
Esta asimetría no es un bug ni un efecto colateral del dataset, es un comportamiento programado. Para un equipo europeo que quisiera integrar Qwen en un producto de gran consumo, el problema ya no es solo técnico, se vuelve editorial y de reputación.
Nathan Lambert, investigador independiente en IA, formula la paradoja de adopción que se deriva:
“It's not the security of the Chinese open models that is feared, but the outputs themselves.
”
Resultado sobre el terreno: los LLM chinos superan técnicamente en muchos benchmarks, pero la adopción enterprise occidental se estanca. Lo que crea mecánicamente una oportunidad para las alternativas occidentales open-weights, con Mistral a la cabeza. El episodio de Mistral ante los diputados en mayo de 2026 adquiere un sabor particular en este contexto.
¿Open-weights o pivot propietario?
Segundo matiz importante: Alibaba ya no toca la misma partitura que en 2024-2025. Históricamente, el laboratorio abría sus modelos intermedios bajo Apache 2.0 (Qwen3.6-27B está abierto, con fine-tuning libre). Pero en sus modelos más potentes, Qwen3.7-Max sigue siendo por el momento propietario, accesible únicamente vía API de Alibaba Cloud. SCMP señala:
“Tech companies often release preview versions of their next-generation models on Arena... in order to collect data to optimise for the final iteration.
”
Un precedente. BuildFastWithAI lee el gesto como una ruptura estilística de Alibaba:
“Alibaba didn't announce Qwen3.7. They just deployed it.
”
En cuanto a los precios, de momento solo disponemos de los de la generación anterior Qwen3.6-Max-Preview: 1,30 / 1M tokens en output. Claramente por debajo de las tarifas de las fronteras americanas, que siguen por encima de 5 en output en sus modelos flagship. APIDog advierte no obstante sobre el total facturado en uso real:
“Reasoning models are verbose by design; they think out loud, and every thinking token is a token you pay for.
”
En modo thinking extendido, la factura puede por tanto subir considerablemente. La tarificación definitiva de Qwen3.7-Max no había sido publicada a fecha del 21 de mayo de 2026.
- Dic. 2024DeepSeek-V3 publicado
Primer shock, señal del retorno ofensivo chino.
- Ene. 2025DeepSeek-R1 en open-weights
Rivaliza con las fronteras americanas a una fracción del coste.
- Abr. 2025Familia Qwen3 MoE
Alibaba alinea Qwen3-72B y variantes más ligeras.
- Dic. 202530 % del uso mundial
Los open-source chinos multiplican por 25 su cuota en un año.
- 14 may 2026Qwen3.7-Max en Arena (anónimo)
Top 13 global en texto antes de cualquier anuncio oficial.
- 20 may 2026Anuncio Hangzhou
Qwen3.7-Max, chip Zhenwu M890, 50+ productos.
Preguntas frecuentes
¿Qwen3.7-Max es open-source?
No a fecha del 21 de mayo de 2026. El modelo está en preview accesible únicamente vía API de Alibaba Cloud. Alibaba ha abierto sus modelos intermedios (Qwen3.6-27B bajo Apache 2.0), pero no hay confirmación de que se publique una variante open-weights de Qwen3.7-Max.
¿Cuánto cuesta Qwen3.7-Max comparado con GPT o Claude?
La tarificación definitiva no está publicada. La generación anterior Qwen3.6-Max-Preview se factura a 1,30 en output, significativamente por debajo de las tarifas de los modelos de frontera americanos comparables. Atención al modo thinking que multiplica el número de tokens facturados.
¿Se puede usar desde Claude Code o un cliente de OpenAI?
Sí para la generación Qwen3.6-Plus, que ofrece compatibilidad de API con OpenAI y Anthropic. Para Qwen3.7-Max, la compatibilidad está por confirmar, pero Alibaba mantiene históricamente estas interfaces.
¿Los sesgos pro-China se aplican a todas las consultas?
No. Las directivas documentadas por China Media Project se refieren a las preguntas sobre China misma (reputación, política interior, geopolítica). En temas técnicos, de código o de razonamiento, el modelo se comporta sin sesgo observable. El riesgo está acotado pero conviene conocerlo.
¿Qué distingue a Qwen3.7-Max de DeepSeek-V4?
No hay comparativa head-to-head publicada hasta la fecha. DeepSeek-V4 está en preview separada. Qwen apuesta por el agentivo de largo horizonte (35h continuas reivindicadas) y la integración vertical de Alibaba (cloud + chips + modelo). DeepSeek mantiene una ventaja histórica en el razonamiento puro.
Para ir más lejos
El test hands-on más completo del modelo está disponible en vídeo, publicado 48 horas después del anuncio oficial. Quince minutos de manipulación directa, agentic loops incluidos.
Las fuentes que han alimentado este análisis:
Qué hacer con esta información
Qwen3.7-Max cambia el mapa sin volcarlo. Para un equipo de producto occidental, tres lecturas prácticas. Una: vigilar la salida de una eventual variante open-weights, que es la que realmente cambiará las cosas en el self-hosting. Dos: testear el modelo vía API para tareas muy acotadas (código automatizado, workflows agentivos), donde destaca con la mejor relación calidad/precio del mercado. Tres: mantener los usos editoriales y de gran consumo en las fronteras occidentales (Claude, GPT, Gemini), mientras la cuestión de los sesgos en los outputs no esté resuelta.
China ya no es el outsider a vigilar. Es la segunda opción que todavía no usas, pero que ya integras en todos los benchmarks. El desfase entre ambos no se mantendrá indefinidamente.
Hablar de la integración de LLM Qwen o Claude en tu stack con Blokby
