⏱️ Lectura: 7 min
El 20 de abril de 2026, Moonshot AI liberó Kimi K2.6, un modelo Mixture-of-Experts de un trillón de pesos totales con 32 mil millones activados por token que se publica con pesos abiertos en HuggingFace. En las dos semanas que llevan desde el release, los benchmarks oficiales muestran a K2.6 liderando SWE-Bench Pro, DeepSearchQA, HLE con herramientas y BrowseComp en modo Agent Swarm sobre GPT-5.4, Claude Opus 4.6 y Gemini 3.1 Pro, con cifras que en SWE-Bench Verified quedan a menos de un punto del estado del arte cerrado.
📑 En este artículo
Es la primera vez que un modelo distribuido bajo licencia abierta compite cabeza a cabeza con la frontera comercial en evaluaciones de código y agentes, y lo hace al mismo tiempo que pone los 595 GB de pesos en block-fp8 a disposición de cualquiera para descargar.
Arquitectura: 384 expertos, MLA, 256K de contexto
La hoja técnica del model card oficial deja todo a la vista:
| Especificación | Valor |
|---|---|
| Parámetros totales | 1 T |
| Parámetros activados por token | 32 B |
| Layers | 61 (incluye 1 layer dense) |
| Expertos MoE | 384 (8 seleccionados por token, 1 compartido) |
| Attention heads | 64 |
| Hidden dim (atención) | 7 168 |
| Hidden dim (MoE por experto) | 2 048 |
| Mecanismo de atención | MLA |
| Activación | SwiGLU |
| Vocabulario | 160 K tokens |
| Contexto | 256 K |
| Vision encoder | MoonViT (400 M parámetros) |
La elección de MLA (Multi-head Latent Attention) y un router con top-8 of 384 hace que el cómputo activo por token sea de 32 B en lugar de los 1 T totales: el modelo entrega calidad de un trillonario sin pagar el precio en latencia o memoria de uno denso. La pre-entrenamiento corrió, según el tech report del K2 original, sobre 15,5 billones de tokens con el optimizador Muon y “cero inestabilidad de entrenamiento” reportada — un detalle no menor en MoEs gigantes donde el route collapse suele forzar reinicios.
Benchmarks oficiales: dónde lidera y dónde no
Las cifras de la propia tabla de Moonshot, comparando con los principales competidores cerrados:
Código
| Benchmark | Kimi K2.6 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| SWE-Bench Verified | 80.2 | — | 80.8 | 80.6 |
| SWE-Bench Pro | 58.6 | 57.7 | 53.4 | 54.2 |
| SWE-Bench Multilingual | 76.7 | — | 77.8 | 76.9 |
| Terminal-Bench 2.0 | 66.7 | 65.4 | 65.4 | 68.5 |
| LiveCodeBench v6 | 89.6 | — | 88.8 | 91.7 |
K2.6 lidera SWE-Bench Pro, la versión más reciente y exigente del benchmark de Princeton, y queda dentro de un punto de Opus 4.6 en SWE-Bench Verified. En LiveCodeBench la primera posición la mantiene Gemini 3.1 Pro, pero la diferencia (89.6 vs 91.7) es marginal para uso real.
Agentic y búsqueda
| Benchmark | Kimi K2.6 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| HLE-Full (w/ tools) | 54.0 | 52.1 | 53.0 | 51.4 |
| DeepSearchQA (F1) | 92.5 | 78.6 | 91.3 | 81.9 |
| BrowseComp | 83.2 | 82.7 | 83.7 | 85.9 |
| BrowseComp (Agent Swarm) | 86.3 | 78.4 | — | — |
| OSWorld-Verified | 73.1 | 75.0 | 72.7 | — |
Acá K2.6 brilla con luz propia: DeepSearchQA con 14 puntos de diferencia sobre GPT-5.4 y el modo Agent Swarm sumando casi 8 puntos extra a BrowseComp. La narrativa “open source es agentic-ready” deja de ser ambición.
Razonamiento puro y multimodal
| Benchmark | Kimi K2.6 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|
| AIME 2026 | 96.4 | 99.2 | 96.7 | 98.3 |
| HMMT 2026 | 92.7 | 97.7 | 96.2 | 94.7 |
| GPQA-Diamond | 90.5 | 92.8 | 91.3 | 94.3 |
| MMMU-Pro | 79.4 | 81.2 | 73.9 | 83.0 |
En matemática competitiva pura (AIME, HMMT) y razonamiento científico (GPQA), GPT-5.4 todavía manda; K2.6 queda 2-5 puntos por debajo. En visión multimodal Gemini 3.1 Pro lidera. La lectura honesta: K2.6 es par o superior en código, agentes y búsqueda larga; ligeramente por detrás en olimpiadas matemáticas y vision general.
Agent Swarm: 300 sub-agentes en paralelo
La feature distintiva del release es el Agent Swarm Mode: K2.6 puede orquestar hasta 300 sub-agentes ejecutando 4 000 pasos coordinados sobre una misma tarea. El modelo card lo describe como capacidad para “long-horizon coding” robusto en Rust, Go y Python, abarcando frontend, DevOps y optimización de performance dentro de la misma sesión sin colapsar el contexto.
La diferencia entre BrowseComp single (83.2) y BrowseComp con Agent Swarm (86.3) es la métrica más concreta de cuánto rinde la orquestación: +3 puntos directos vs lo que da el modelo plano. No es marketing — está en la tabla oficial.
Cómo correrlo en serio
Tamaños y memoria
Los pesos completos en el repo de HuggingFace pesan 595 GB en formato block-fp8. Eso descarta correrlo nativo en una sola GPU: lo natural es desplegar con vLLM, SGLang o KTransformers en un nodo multi-GPU con NVLink, o usar versiones cuantizadas:
- unsloth/Kimi-K2.6-GGUF: cuantizaciones dinámicas Unsloth 2.0, optimizadas para preservar calidad.
- ubergarm/Kimi-K2.6-GGUF: incluye el “full size” con perplejidad PPL 1.84 sobre 568 chunks (n_ctx=512).
Los claims que circulan en X de “corre en 13 GB de RAM” se refieren a quants Q1/Q2 muy agresivos que degradan la calidad considerablemente. Para uso real esperá Q4_K_M o superior, lo que en la práctica significa 80-150 GB de memoria total (system + GPU) según la cuantización.
Despliegue
El stack recomendado por Moonshot:
# Inferencia con vLLM
pip install "vllm>=0.7.0" "transformers>=4.57.1,<5.0.0"
vllm serve moonshotai/Kimi-K2.6 \
--tensor-parallel-size 8 \
--max-model-len 262144 \
--enable-prefix-caching
# Modo thinking (default): temperature=1.0, top_p=0.95
# Modo instant: añadir {'thinking': {'type': 'disabled'}}, temperature=0.6
Para quien no quiera self-host, el API está en platform.moonshot.ai con endpoints compatibles con OpenAI y Anthropic — switchear de Claude a Kimi con la SDK de Anthropic se reduce a cambiar base_url y la API key. Hay además proveedores third-party (GMI Cloud, OpenRouter) que ya hostean el modelo con auditoría vía la herramienta Kimi Vendor Verifier que Moonshot también liberó open source para detectar degradaciones de inferencia entre proveedores.
El asterisco de la licencia: Modified MIT
K2.6 se distribuye bajo Modified MIT License, no MIT estándar. Los términos modificados están en el archivo LICENSE del repositorio y son consistentes con la postura de Moonshot en versiones previas: la mayoría de uso comercial sin fricción, pero clausulas de attribution y restricciones explícitas para uso en aplicaciones a gran escala con condiciones de revenue thresholds (similar a la “LTX-Video Open Weights License” o las cláusulas de Llama). En la práctica, para developers individuales, startups, investigación académica y la mayoría de uso productivo, las cláusulas no son una traba — pero si pensás integrar K2.6 en un producto SaaS de scale, leé el LICENSE antes de firmar nada.
Esto sigue siendo “open weight”, no “open source OSI puro”. Distinción importante para quien las palabras importan.
Por qué importa para el ecosistema
Tres lecturas que dejan estos benchmarks:
-
El gap closed-vs-open en código se cerró. Hace dos años GPT-4 dominaba SWE-Bench por 30+ puntos sobre cualquier abierto. Hoy K2.6 lidera SWE-Bench Pro y queda dentro de 1 punto de Opus en Verified. Para un equipo de ingeniería que use Kimi como backend de su agente coder, la diferencia con Claude desaparece para la mayoría de las tareas.
-
Los modos agenticos benefician al open. La brecha de 14 puntos en DeepSearchQA frente a GPT-5.4 sugiere que cuando dejás que el modelo orqueste herramientas, búsquedas y sub-agentes — patrón que ya domina los workflows reales — K2.6 puede superar a la frontera cerrada. Para constructores de agentes, esto cambia la ecuación de costo.
-
El control sobre el stack vuelve a ser viable. Self-hostear un trillonario sigue siendo caro, pero con el API de Moonshot a fracción del costo de Claude/GPT, una empresa LATAM puede mantener su lógica agentic en Spanish, integrar con WhatsApp Business o herramientas locales, y no estar pagando $20/M tokens cuando una llamada equivalente cuesta una cuarta parte. La arquitectura MoE además abre la puerta a quantizaciones agresivas que reducen el costo per token aún más.
Para programadores en LATAM que dependen de modelos frontier para coding asistido o agentes autónomos, K2.6 es la primera alternativa abierta seria desde DeepSeek V3. Para empresas, es razón concreta para revisar el contrato con Anthropic u OpenAI antes de renovarlo.
El siguiente paso lógico de Moonshot es K2.7 con razonamiento visual mejorado y la versión “thinking” extended. Mientras tanto, K2.6 ya está disponible para descarga y prueba.
Fuentes
- Kimi K2.6 — Model Card oficial en HuggingFace
- MoonshotAI/Kimi-K2 — Repositorio GitHub
- Kimi K2 Tech Report (arXiv:2507.20534)
- unsloth/Kimi-K2.6-GGUF — Cuantizaciones dinámicas
- ubergarm/Kimi-K2.6-GGUF — Full size GGUF
- Kimi K2.6 en llm-stats.com — pricing y benchmarks
- Awesome Agents — Kimi K2.6 Open Weights, 300 Agents, Top Coding Score
- OfficeChai — Moonshot AI Releases Kimi K2.6, Beats Top US Models
0 Comentarios