Kimi K2.6: el modelo abierto chino que ya lidera…

⏱️ Lectura: 7 min

El 20 de abril de 2026, Moonshot AI liberó Kimi K2.6, un modelo Mixture-of-Experts de un trillón de pesos totales con 32 mil millones activados por token que se publica con pesos abiertos en HuggingFace. En las dos semanas que llevan desde el release, los benchmarks oficiales muestran a K2.6 liderando SWE-Bench Pro, DeepSearchQA, HLE con herramientas y BrowseComp en modo Agent Swarm sobre GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro, con cifras que en SWE-Bench Verified quedan a menos de un punto del estado del arte cerrado.

📑 En este artículo

Arquitectura: 384 expertos, MLA, 256K de contexto
Benchmarks oficiales: dónde lidera y dónde no
Agent Swarm: 300 sub-agentes en paralelo
Cómo correrlo en serio
1. Tamaños y memoria
2. Despliegue
El asterisco de la licencia: Modified MIT
Por qué importa para el ecosistema
Fuentes

Es la primera vez que un modelo distribuido bajo licencia abierta compite cabeza a cabeza con la frontera comercial en evaluaciones de código y agentes, y lo hace al mismo tiempo que pone los 595 GB de pesos en block-fp8 a disposición de cualquiera para descargar.

Arquitectura: 384 expertos, MLA, 256K de contexto

La hoja técnica del model card oficial deja todo a la vista:

Especificación	Valor
Parámetros totales	1 T
Parámetros activados por token	32 B
Layers	61 (incluye 1 layer dense)
Expertos MoE	384 (8 seleccionados por token, 1 compartido)
Attention heads	64
Hidden dim (atención)	7 168
Hidden dim (MoE por experto)	2 048
Mecanismo de atención	MLA
Activación	SwiGLU
Vocabulario	160 K tokens
Contexto	256 K
Vision encoder	MoonViT (400 M parámetros)

La elección de MLA (Multi-head Latent Attention) y un router con top-8 of 384 hace que el cómputo activo por token sea de 32 B en lugar de los 1 T totales: el modelo entrega calidad de un trillonario sin pagar el precio en latencia o memoria de uno denso. La pre-entrenamiento corrió, según el tech report del K2 original, sobre 15,5 billones de tokens con el optimizador Muon y “cero inestabilidad de entrenamiento” reportada — un detalle no menor en MoEs gigantes donde el route collapse suele forzar reinicios.

Benchmarks oficiales: dónde lidera y dónde no

Las cifras de la propia tabla de Moonshot, comparando con los principales competidores cerrados:

Código

Benchmark	Kimi K2.6	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
SWE-Bench Verified	80.2	—	80.8	80.6
SWE-Bench Pro	58.6	57.7	53.4	54.2
SWE-Bench Multilingual	76.7	—	77.8	76.9
Terminal-Bench 2.0	66.7	65.4	65.4	68.5
LiveCodeBench v6	89.6	—	88.8	91.7

K2.6 lidera SWE-Bench Pro, la versión más reciente y exigente del benchmark de Princeton, y queda dentro de un punto de Opus 4.6 en SWE-Bench Verified. En LiveCodeBench la primera posición la mantiene Gemini 3.1 Pro, pero la diferencia (89.6 vs 91.7) es marginal para uso real.

Agentic y búsqueda

Benchmark	Kimi K2.6	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
HLE-Full (w/ tools)	54.0	52.1	53.0	51.4
DeepSearchQA (F1)	92.5	78.6	91.3	81.9
BrowseComp	83.2	82.7	83.7	85.9
BrowseComp (Agent Swarm)	86.3	78.4	—	—
OSWorld-Verified	73.1	75.0	72.7	—

Acá K2.6 brilla con luz propia: DeepSearchQA con 14 puntos de diferencia sobre GPT-5.4 y el modo Agent Swarm sumando casi 8 puntos extra a BrowseComp. La narrativa “open source es agentic-ready” deja de ser ambición.

Razonamiento puro y multimodal

Benchmark	Kimi K2.6	GPT-5.4	Claude Opus 4.6	Gemini 3.1 Pro
AIME 2026	96.4	99.2	96.7	98.3
HMMT 2026	92.7	97.7	96.2	94.7
GPQA-Diamond	90.5	92.8	91.3	94.3
MMMU-Pro	79.4	81.2	73.9	83.0

En matemática competitiva pura (AIME, HMMT) y razonamiento científico (GPQA), GPT-5.4 todavía manda; K2.6 queda 2-5 puntos por debajo. En visión multimodal Gemini 3.1 Pro lidera. La lectura honesta: K2.6 es par o superior en código, agentes y búsqueda larga; ligeramente por detrás en olimpiadas matemáticas y vision general.

Agent Swarm: 300 sub-agentes en paralelo

La feature distintiva del release es el Agent Swarm Mode: K2.6 puede orquestar hasta 300 sub-agentes ejecutando 4 000 pasos coordinados sobre una misma tarea. El modelo card lo describe como capacidad para “long-horizon coding” robusto en Rust, Go y Python, abarcando frontend, DevOps y optimización de performance dentro de la misma sesión sin colapsar el contexto.

La diferencia entre BrowseComp single (83.2) y BrowseComp con Agent Swarm (86.3) es la métrica más concreta de cuánto rinde la orquestación: +3 puntos directos vs lo que da el modelo plano. No es marketing — está en la tabla oficial.

Cómo correrlo en serio

Tamaños y memoria

Los pesos completos en el repo de HuggingFace pesan 595 GB en formato block-fp8. Eso descarta correrlo nativo en una sola GPU: lo natural es desplegar con vLLM, SGLang o KTransformers en un nodo multi-GPU con NVLink, o usar versiones cuantizadas:

unsloth/Kimi-K2.6-GGUF: cuantizaciones dinámicas Unsloth 2.0, optimizadas para preservar calidad.
ubergarm/Kimi-K2.6-GGUF: incluye el “full size” con perplejidad PPL 1.84 sobre 568 chunks (n_ctx=512).

Los claims que circulan en X de “corre en 13 GB de RAM” se refieren a quants Q1/Q2 muy agresivos que degradan la calidad considerablemente. Para uso real esperá Q4_K_M o superior, lo que en la práctica significa 80-150 GB de memoria total (system + GPU) según la cuantización.

Despliegue

El stack recomendado por Moonshot:

# Inferencia con vLLM
pip install "vllm>=0.7.0" "transformers>=4.57.1,<5.0.0"
vllm serve moonshotai/Kimi-K2.6 \
  --tensor-parallel-size 8 \
  --max-model-len 262144 \
  --enable-prefix-caching

# Modo thinking (default): temperature=1.0, top_p=0.95
# Modo instant: añadir {'thinking': {'type': 'disabled'}}, temperature=0.6

Para quien no quiera self-host, el API está en platform.moonshot.ai con endpoints compatibles con OpenAI y Anthropic — switchear de Claude a Kimi con la SDK de Anthropic se reduce a cambiar base_url y la API key. Hay además proveedores third-party (GMI Cloud, OpenRouter) que ya hostean el modelo con auditoría vía la herramienta Kimi Vendor Verifier que Moonshot también liberó open source para detectar degradaciones de inferencia entre proveedores.

El asterisco de la licencia: Modified MIT

K2.6 se distribuye bajo Modified MIT License, no MIT estándar. Los términos modificados están en el archivo LICENSE del repositorio y son consistentes con la postura de Moonshot en versiones previas: la mayoría de uso comercial sin fricción, pero clausulas de attribution y restricciones explícitas para uso en aplicaciones a gran escala con condiciones de revenue thresholds (similar a la “LTX-Video Open Weights License” o las cláusulas de Llama). En la práctica, para developers individuales, startups, investigación académica y la mayoría de uso productivo, las cláusulas no son una traba — pero si pensás integrar K2.6 en un producto SaaS de scale, leé el LICENSE antes de firmar nada.

Esto sigue siendo “open weight”, no “open source OSI puro”. Distinción importante para quien las palabras importan.

Por qué importa para el ecosistema

Tres lecturas que dejan estos benchmarks:

El gap closed-vs-open en código se cerró. Hace dos años GPT-4 dominaba SWE-Bench por 30+ puntos sobre cualquier abierto. Hoy K2.6 lidera SWE-Bench Pro y queda dentro de 1 punto de Opus en Verified. Para un equipo de ingeniería que use Kimi como backend de su agente coder, la diferencia con Claude desaparece para la mayoría de las tareas.
Los modos agenticos benefician al open. La brecha de 14 puntos en DeepSearchQA frente a GPT-5.4 sugiere que cuando dejás que el modelo orqueste herramientas, búsquedas y sub-agentes — patrón que ya domina los workflows reales — K2.6 puede superar a la frontera cerrada. Para constructores de agentes, esto cambia la ecuación de costo.
El control sobre el stack vuelve a ser viable. Self-hostear un trillonario sigue siendo caro, pero con el API de Moonshot a fracción del costo de Claude/GPT, una empresa LATAM puede mantener su lógica agentic en Spanish, integrar con WhatsApp Business o herramientas locales, y no estar pagando $20/M tokens cuando una llamada equivalente cuesta una cuarta parte. La arquitectura MoE además abre la puerta a quantizaciones agresivas que reducen el costo per token aún más.

Para programadores en LATAM que dependen de modelos frontier para coding asistido o agentes autónomos, K2.6 es la primera alternativa abierta seria desde DeepSeek V3. Para empresas, es razón concreta para revisar el contrato con Anthropic u OpenAI antes de renovarlo.

El siguiente paso lógico de Moonshot es K2.7 con razonamiento visual mejorado y la versión “thinking” extended. Mientras tanto, K2.6 ya está disponible para descarga y prueba.

Kimi K2.6: el modelo abierto chino que ya lidera SWE-Bench Pro frente a la frontera cerrada

Publicado por Andrés Morales en 30 abril, 2026

Arquitectura: 384 expertos, MLA, 256K de contexto