⏱️ Lectura: 11 min
El laboratorio chino Z.ai (antes Zhipu AI) publicó GLM-5.2 y, por primera vez, un modelo de pesos abiertos encabeza el Artificial Analysis Intelligence Index, el ranking independiente que mide la inteligencia agregada de los modelos de lenguaje. Con un índice de 51 puntos, GLM-5.2 superó a los anteriores líderes abiertos —MiniMax M3 y DeepSeek V4 Pro, empatados en 44— y recortó la distancia frente a los modelos cerrados de frontera.
📑 En este artículo
- TL;DR
- Qué pasó: GLM-5.2 toma la cima de los pesos abiertos
- Qué es GLM-5.2 y cómo está construido
- Contexto e historia: la carrera de los modelos abiertos chinos
- Datos y cifras: cómo se mide y cuánto cuesta
- Cómo probarlo en minutos
- Impacto y análisis: cerca de Opus, pero con asteriscos
- Qué sigue
- Preguntas frecuentes
- Referencias
El dato que más conversación generó no es solo la cifra: el modelo se entrenó íntegramente sobre chips Huawei Ascend, sin hardware de Nvidia, y se publica bajo licencia MIT. Eso lo convierte en un caso de estudio sobre soberanía tecnológica y sobre dónde está realmente la brecha entre lo abierto y lo cerrado.
TL;DR
- GLM-5.2, de Z.ai, alcanzó 51 puntos en el Artificial Analysis Intelligence Index y es el primer modelo de pesos abiertos en liderar el ranking.
- Superó a MiniMax M3 y DeepSeek V4 Pro, que estaban empatados en 44 puntos como líderes abiertos del índice.
- Es un MoE de 744.000 millones de parámetros totales y unos 40.000 millones activos por token, con 384 expertos.
- Se entrenó con 28,5 billones de tokens sobre chips Huawei Ascend 910B usando MindSpore, sin GPU de Nvidia.
- Tiene una ventana de contexto de 1 millón de tokens y licencia MIT, que permite uso comercial.
- Precio de API: 1,40 USD por millón de tokens de entrada y 4,40 USD de salida; entre 110 y 300 tokens por segundo.
- En foros lo sitúan cerca de la calidad de Opus 4.7 en código, aunque ‘razona de más’ y gasta muchos tokens.
Qué pasó: GLM-5.2 toma la cima de los pesos abiertos
El 13 de junio de 2026, Z.ai liberó GLM-5.2, la nueva versión de su familia de modelos GLM (General Language Model). Días después, Artificial Analysis —una firma independiente que evalúa modelos con una batería estandarizada de pruebas— lo colocó en el primer puesto entre los modelos de pesos abiertos de su Intelligence Index, con 51 puntos sobre un campo de 92 modelos comparables.
La distinción es importante. Un modelo de pesos abiertos publica los parámetros entrenados para que cualquiera los descargue, ejecute en su propia infraestructura y los ajuste, sin depender de la API de un proveedor. Hasta ahora, los modelos abiertos quedaban un escalón por debajo de los cerrados en los rankings agregados. Que GLM-5.2 lidere ese índice marca un cambio de fase: la frontera de lo público se acercó a la de lo privado más rápido de lo que muchos esperaban.
💭 Clave: No es que GLM-5.2 supere a los mejores modelos cerrados. Lo relevante es que, por primera vez, el modelo abierto número uno encabeza el índice general, y no solo categorías sueltas como matemáticas o código.
Qué es GLM-5.2 y cómo está construido
GLM-5.2 es un modelo de mezcla de expertos (MoE, por Mixture of Experts) con 744.000 millones de parámetros totales, de los cuales solo unos 40.000 millones se activan por cada token procesado. Esa arquitectura reparte el conocimiento entre 384 expertos especializados y, en cada paso, un componente llamado router decide qué pequeño subconjunto de expertos atiende la entrada. El resultado: la capacidad de un modelo enorme con el costo de cómputo de uno mucho más chico.
El siguiente diagrama resume cómo fluye un token a través de la arquitectura MoE:
graph LR
A["Token de entrada"] --> B["Router"]
B --> C["Experto 1"]
B --> D["Experto 2"]
B --> E["... 384 expertos"]
C --> F["Salida (40B activos)"]
D --> F
E --> F
Entre las decisiones de diseño destacan una ventana de contexto de 1 millón de tokens —cinco veces mayor que los 200.000 de GLM-5.1— y el uso de DeepSeek Sparse Attention, una técnica de atención dispersa que abarata procesar entradas tan largas. El máximo de salida por respuesta es de 131.072 tokens. El modelo es, por ahora, solo de texto: no procesa imágenes, una limitación frente a competidores multimodales.
Contexto e historia: la carrera de los modelos abiertos chinos
GLM-5.2 no aparece en el vacío. La primera mitad de 2026 fue una avalancha de modelos de pesos abiertos chinos. DeepSeek V4 Pro llegó el 24 de abril; MiniMax M3 el 1 de junio; Kimi K2.7 Code el 12 de junio; y GLM-5.2 al día siguiente. En cuestión de semanas, el listón de lo abierto se movió varias veces.
El patrón de fondo es la presión sobre el hardware. Las restricciones a la exportación de GPU de gama alta empujaron a los laboratorios chinos a entrenar sobre silicio nacional. GLM-5.2 se entrenó sobre chips Huawei Ascend 910B con el framework MindSpore, sin pasar por Nvidia. Que un modelo entrenado fuera del ecosistema CUDA llegue a la cima de un ranking independiente es, en sí mismo, una señal de que la dependencia de un único proveedor de cómputo ya no es absoluta.
La licencia también importa. GLM-5.2 se publica bajo licencia MIT, una de las más permisivas que existen: permite uso comercial, modificación y redistribución sin las cláusulas restrictivas de otras licencias de modelos. Para una empresa que quiere desplegar IA sin enviar sus datos a un tercero, esa combinación —pesos descargables más licencia MIT— es exactamente lo que faltaba.
Datos y cifras: cómo se mide y cuánto cuesta
El Artificial Analysis Intelligence Index no es un solo examen, sino el promedio de nueve pruebas, entre ellas GPQA Diamond (preguntas científicas de nivel doctorado), Humanity’s Last Exam, SciCode, GDPval-AA v2 y CritPt. GLM-5.2 obtuvo 51 puntos en ese agregado; los líderes abiertos previos, MiniMax M3 y DeepSeek V4 Pro, estaban empatados en 44. La diferencia de siete puntos, en una escala donde los modelos de frontera se mueven en márgenes estrechos, es notable.
En el plano económico, la API cuesta 1,40 USD por millón de tokens de entrada y 4,40 USD por millón de salida, con un descuento del 81% (0,26 USD) cuando hay acierto de caché. La velocidad de generación reportada va de 110 a 300 tokens por segundo según el proveedor y la configuración, con un tiempo hasta el primer token de unos 2,4 segundos.
Para quien prefiere una tarifa plana, Z.ai ofrece el GLM Coding Plan en tres niveles aproximados: Lite (~10 USD al mes, unos 400 prompts por semana), Pro (~30 USD, ~2.000 prompts) y Max (~80 USD, ~8.000 prompts). El modelo trae soporte de primer día para ocho agentes de código, entre ellos Claude Code, Cline, OpenCode, Roo Code y Goose.
⚠️ Ojo: Usuarios reportan que el modo de razonamiento Max ‘piensa de más’: hasta 45.000 tokens en tareas donde GPT-5.5 gasta unos 16.000. El modo High usa entre 2 y 2,5 veces menos tokens con poca pérdida de calidad. Conviene no dejar el Max por defecto.
Cómo probarlo en minutos
Al exponer una API compatible con el formato de OpenAI, integrar GLM-5.2 en código existente es directo. Un ejemplo con curl contra un endpoint compatible:
curl https://api.z.ai/v1/chat/completions \
-H "Authorization: Bearer $GLM_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model": "glm-5.2",
"reasoning_effort": "high",
"messages": [
{"role": "user", "content": "Refactoriza esta funcion para que sea O(n)"}
]
}'
Como los pesos se publican en abierto vía la cuenta de HuggingFace de la organización, también se puede ejecutar de forma local con motores de inferencia como vLLM o SGLang, siempre que se disponga de suficiente memoria de GPU para alojar un MoE de este tamaño. La cuantización reduce ese requisito, aunque la comunidad advierte que la calidad puede variar según el proveedor que sirva la versión cuantizada.
Impacto y análisis: cerca de Opus, pero con asteriscos
En la discusión de Hacker News, varios usuarios sitúan a GLM-5.2 alrededor de la calidad de Opus 4.7 para tareas de programación —algunos lo empujan hasta cerca de Opus 4.8—, con la diferencia de un precio mucho menor. Una frase resume el sentir: ‘calidad Opus 4.7 a precios ridículos’. Pero el entusiasmo viene con matices.
El primero es la verbosidad. El modelo tiende a sobre-razonar, lo que infla el consumo de tokens y, con él, el costo real frente al teórico. Quien lo use a través de agregadores como OpenRouter puede quemar ‘5 dólares en tokens bastante rápido’ si no controla la configuración de razonamiento. El segundo es la falta de visión: al ser solo de texto, queda por detrás de modelos multimodales en cualquier flujo que involucre imágenes. El tercero es el escepticismo habitual con los benchmarks: liderar un índice agregado no garantiza la mejor experiencia en cada tarea concreta, y la distancia con los mejores modelos cerrados sigue siendo real.
Aun con esas reservas, el significado estratégico es claro. La narrativa de que los modelos abiertos van irremediablemente ‘uno o dos años por detrás’ de los cerrados se debilita: la comunidad estima ahora un rezago de cuatro a siete meses, y algunos anticipan modelos abiertos de nivel Fable 5 antes de fin de año. Para desarrolladores y empresas, eso significa que la opción de no depender de una sola API propietaria dejó de implicar una renuncia grande de capacidad.
Qué sigue
El movimiento de GLM-5.2 presiona en tres frentes a la vez. Frente a los modelos cerrados, recorta la ventaja que justificaba sus precios; frente a los demás modelos abiertos chinos, sube el listón en un mercado que ya itera cada pocas semanas; y frente al ecosistema de hardware, demuestra que se puede entrenar un modelo de primer nivel fuera de CUDA, lo que tiene implicaciones para la cadena de suministro global de cómputo.
Lo que conviene vigilar en las próximas semanas: la publicación de puntajes oficiales en SWE-bench y LiveCodeBench, que Z.ai no detalló al lanzamiento; la estabilidad de las versiones cuantizadas que sirven los proveedores externos; y si la tendencia de un nuevo líder abierto cada pocas semanas se sostiene o se enfría. Si GLM-5.2 mantiene su puesto más de un mes, será la primera vez que lo abierto encabece el índice de forma sostenida, y no como un pico pasajero.
📖 Resumen en Telegram: Ver resumen
Preguntas frecuentes
¿Qué significa que GLM-5.2 sea un modelo de pesos abiertos?
Significa que Z.ai publica los parámetros entrenados del modelo para que cualquiera los descargue, ejecute en su propia infraestructura y los ajuste, sin depender de una API externa. Con licencia MIT, además se permite el uso comercial.
¿GLM-5.2 es mejor que los modelos cerrados como Opus o GPT-5.5?
No en términos absolutos. Lidera el índice agregado de modelos de pesos abiertos con 51 puntos, pero los mejores modelos cerrados de frontera siguen por delante. Usuarios lo comparan con la calidad de Opus 4.7 en código, a un precio mucho menor.
¿Por qué importa que se entrenara en chips Huawei?
Porque demuestra que es posible entrenar un modelo de primer nivel sin GPU de Nvidia ni el ecosistema CUDA. En un contexto de restricciones a la exportación de hardware, eso reduce la dependencia de un único proveedor de cómputo.
¿Cuánto cuesta usar GLM-5.2?
Vía API, 1,40 USD por millón de tokens de entrada y 4,40 USD por millón de salida. También existe el GLM Coding Plan con tarifas planas desde unos 10 USD al mes. El costo real puede subir porque el modelo tiende a consumir muchos tokens al razonar.
¿Qué arquitectura usa?
Es un MoE (mezcla de expertos) con 744.000 millones de parámetros totales, unos 40.000 millones activos por token y 384 expertos. Tiene 1 millón de tokens de contexto y, por ahora, procesa solo texto.
¿Qué modelos lideraban antes el ranking abierto?
MiniMax M3 y DeepSeek V4 Pro, empatados en 44 puntos en el Artificial Analysis Intelligence Index. GLM-5.2 los superó con 51 puntos.
Referencias
- Artificial Analysis — GLM-5.2 — ficha oficial con índice de inteligencia, precios y métricas de rendimiento.
- Hacker News — discusión sobre GLM-5.2 como nuevo líder de pesos abiertos.
- Awesome Agents — GLM-5.2 — detalles de arquitectura, entrenamiento en chips Huawei y agentes de código compatibles.
- Build Fast with AI — ranking comparativo de los mejores modelos abiertos de junio de 2026.
📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.
0 Comentarios