Benchmark matemático: LLM resuelven 98 de 100 en Leipzig

⏱️ Lectura: 11 min

Un grupo de 49 matemáticos se reunió en Leipzig para diseñar 100 problemas de matemática a nivel de investigación, todos con respuesta conocida, y usarlos como benchmark matemático contra los modelos de lenguaje más avanzados de 2026. El resultado sorprendió incluso a los escépticos.

📑 En este artículo

TL;DR
Qué pasó: un examen hecho por matemáticos, no por ingenieros
Cómo se evaluó: tres etapas con presión creciente
Contexto: por qué este benchmark matemático es distinto
Datos y cifras
Impacto y análisis: qué significa realmente “resolver”
Qué sigue
Preguntas frecuentes
Referencias

Tras tres rondas de evaluación cada vez más exigentes, solo 2 de los 100 problemas quedaron sin resolver. La pregunta ya no es si los LLM pueden hacer matemáticas, sino qué tan lejos llega su razonamiento.

TL;DR

Entre el 1 de abril y el 15 de mayo de 2026, 49 matemáticos compilaron 100 problemas de investigación con respuesta conocida.
El núcleo del trabajo se hizo en un taller de 3 días con 35 participantes en el Max Planck Institute MiS de Leipzig, Alemania.
Etapa 1: un solo intento de 5 LLM de punta dejó 41 problemas sin resolver.
Etapa 2: 20 intentos por modelo con 3 modelos bajó la cifra a 16 sin resolver.
Etapa 3: 3 intentos con 2 modelos de razonamiento profundo dejó solo 2 problemas sin resolver.
El paper (arXiv:2606.05818) suma 8 páginas, 8 tablas de estadísticas y un apéndice de 20 páginas con los 100 problemas.
Entre los 49 autores figura Bernd Sturmfels, referente de la geometría algebraica aplicada.

Qué pasó: un examen hecho por matemáticos, no por ingenieros

Entre el 1 de abril y el 15 de mayo de 2026, un colectivo de 49 matemáticos compiló un conjunto de datos de 100 preguntas de matemática a nivel de investigación. La mayor parte del trabajo se concentró en un taller de tres días, Benchmarks in Leipzig, con 35 participantes en el Max Planck Institute for Mathematics in the Sciences (MPI MiS) de Leipzig, Alemania. El artículo resultante, publicado en arXiv el 4 de junio de 2026, lleva la firma de nombres de peso de la comunidad, incluido Bernd Sturmfels.

La idea central es simple pero poderosa: en lugar de que un equipo de ingeniería de IA construya el examen, fueron los propios matemáticos quienes diseñaron preguntas con respuesta conocida y verificable. Eso permite calificar a un modelo de forma objetiva —acertó o no acertó— sin depender de un juez humano que tenga que interpretar una demostración larga y ambigua. Cada problema proviene de áreas especializadas como geometría algebraica, combinatoria y teoría de representaciones, los campos en los que trabajan a diario los autores.

📌 Nota: que la respuesta sea conocida no significa que sea fácil. Un problema puede tener como solución un número entero concreto y aun así requerir páginas de razonamiento para llegar a él. Lo conocido es la meta, no el camino.

Cómo se evaluó: tres etapas con presión creciente

El equipo no se limitó a lanzar las 100 preguntas una sola vez. Diseñó un protocolo de tres etapas, cada una más exigente que la anterior, para distinguir entre lo que un modelo acierta por suerte y lo que resuelve de forma consistente.

graph LR
  A["100 problemas"] --> B["Etapa 1: 1 intento, 5 LLM"]
  B --> C["41 sin resolver"]
  C --> D["Etapa 2: 20 intentos, 3 modelos"]
  D --> E["16 sin resolver"]
  E --> F["Etapa 3: 3 intentos, 2 modelos pesados"]
  F --> G["2 sin resolver"]

En la Etapa 1, cada uno de los cinco modelos de punta recibió un único intento por problema. Tras esa primera pasada, 41 de las 100 preguntas seguían completamente sin resolver: ningún modelo había dado con la respuesta correcta. Para muchos observadores, ese número ya era una señal de que el conjunto era genuinamente difícil.

En la Etapa 2, los autores eligieron tres de esos modelos y los corrieron 20 veces por pregunta. La lógica es estadística: si un modelo tiene una probabilidad pequeña pero real de resolver un problema, repetir el intento muchas veces eleva la probabilidad de éxito al menos una vez. Con este enfoque, las preguntas sin resolver cayeron de 41 a 16.

Finalmente, la Etapa 3 reservó los problemas más duros para dos modelos de “razonamiento profundo” (heavy-thinking), con tres intentos cada uno. El resultado fue contundente: solo 2 de los 100 problemas resistieron. La conclusión de los autores es directa: las capacidades de razonamiento matemático de los LLM se están volviendo impresionantes.

💭 Clave: la diferencia entre 41 y 2 problemas sin resolver no mide solo el poder bruto del modelo, sino el efecto de darle más intentos. Es la diferencia entre evaluar pass@1 y pass@k.

Esa métrica, pass@k, es la columna vertebral de este tipo de evaluaciones. Estima la probabilidad de que, en k intentos, al menos uno sea correcto. Una implementación clásica se ve así:

from math import comb

def pass_at_k(n, c, k):
    # n = intentos totales realizados
    # c = intentos correctos observados
    # k = presupuesto de intentos a evaluar
    if n - c < k:
        return 1.0
    return 1.0 - comb(n - c, k) / comb(n, k)

# Etapa 2: 20 corridas por modelo
print(pass_at_k(20, 3, 1))   # acertar con 1 intento
print(pass_at_k(20, 3, 5))   # acertar con 5 intentos
print(pass_at_k(20, 3, 20))  # acertar con 20 intentos

Con apenas 3 aciertos en 20 corridas, la probabilidad de resolver el problema con un solo intento es baja (alrededor del 15%), pero sube de forma marcada al permitir más intentos. Ese es exactamente el mecanismo que explica el embudo de 41 a 16 a 2.

Personas trabajando en una pizarra con ecuaciones durante un taller de matemáticas — El taller en Leipzig reunió a 35 participantes durante tres días.

Contexto: por qué este benchmark matemático es distinto

Para entender por qué este experimento llama tanto la atención hay que mirar la historia reciente de los benchmarks. Durante años, los conjuntos de referencia para medir matemáticas en IA fueron pruebas como GSM8K (problemas de aritmética escolar) y MATH (competencias de secundaria y olimpiadas). Ambos eran desafiantes en su momento, pero los modelos modernos los resuelven casi por completo: están saturados. Un benchmark saturado deja de informar, porque todos los modelos sacan notas cercanas al máximo.

A eso se suma el problema de la contaminación de datos. Si un conjunto de preguntas circula por internet, es muy probable que termine en el corpus de entrenamiento del siguiente modelo. Cuando eso ocurre, ya no estás midiendo razonamiento: estás midiendo memoria. Por eso el campo ha migrado hacia pruebas más duras y recientes, como FrontierMath (problemas de investigación curados por matemáticos profesionales) y Humanity’s Last Exam (preguntas de frontera en múltiples disciplinas).

El benchmark matemático de Leipzig se inscribe en esa misma corriente, pero con un sello propio: fue construido por una comunidad amplia y diversa de matemáticos en activo, no por una sola organización. Las preguntas nacen de problemas reales de áreas como la teoría de representaciones o la geometría algebraica, terrenos donde la intuición humana especializada todavía parecía una ventaja decisiva. Que casi todas hayan caído es, precisamente, lo que vuelve relevante al estudio para el público hispano interesado en el avance de la IA.

Datos y cifras

El artículo resume el experimento en números concretos que conviene tener a mano:

49 autores firmaron el trabajo; 35 participantes asistieron al taller presencial.
100 preguntas con respuesta conocida componen el conjunto de datos.
5 modelos de punta en la Etapa 1, 3 modelos con 20 corridas en la Etapa 2 y 2 modelos pesados con 3 corridas en la Etapa 3.
41 → 16 → 2: la progresión de problemas sin resolver a lo largo de las tres etapas.
8 páginas de texto principal, 8 tablas de estadísticas y un apéndice de 20 páginas con el enunciado completo de los 100 problemas.

Las áreas cubiertas no son menores. El paper se clasifica en arXiv bajo History and Overview (math.HO), pero también en Inteligencia Artificial (cs.AI), Geometría Algebraica (math.AG), Combinatoria (math.CO) y Teoría de Representaciones (math.RT). Esa mezcla refleja la ambición del conjunto: cubrir un abanico de subdisciplinas donde el conocimiento es técnico y especializado.

Visualización abstracta de datos y razonamiento de inteligencia artificial — El protocolo distingue suerte de razonamiento consistente con pass@k.

Impacto y análisis: qué significa realmente “resolver”

El titular es seductor —98 de 100 problemas resueltos— pero conviene leerlo con precisión técnica. “Resolver” aquí significa que el modelo produjo la respuesta correcta conocida, no necesariamente que entregó una demostración completa, rigurosa y verificada paso a paso por un humano. En matemáticas de investigación, la respuesta y la prueba son cosas distintas: dar el número correcto sin justificación impecable no equivale a publicar un teorema.

Esta distinción importa porque el formato de respuesta-verificable es lo que hace posible una evaluación automática y objetiva, pero también limita lo que el benchmark puede afirmar. Mide la capacidad de llegar al resultado correcto, que ya es notable, sin certificar que el razonamiento intermedio fuera sólido en cada caso.

⚠️ Ojo: un modelo puede acertar la respuesta por un camino con errores que se cancelan, o reconstruyendo un resultado que vio durante el entrenamiento. El equipo mitigó la contaminación usando problemas nuevos y especializados, pero ningún benchmark elimina del todo este riesgo.

Aun con esas cautelas, la tendencia es difícil de ignorar. Que el número de problemas irresolubles cayera de 41 a 2 en tres etapas muestra dos cosas a la vez: que los modelos de razonamiento profundo de 2026 son genuinamente capaces, y que el cómputo en inferencia —dejar pensar más, intentar más veces— es una palanca tan importante como el tamaño del modelo. Para desarrolladores en LATAM que construyen aplicaciones con IA, la lección práctica es clara: la estrategia de muestreo (cuántos intentos, con qué modelo, con qué temperatura) puede cambiar drásticamente la tasa de éxito en tareas de razonamiento.

También hay una lectura cultural. Un grupo de 49 matemáticos dedicó un taller entero a intentar construir preguntas que la IA no pudiera responder, y en su mayoría fracasó en ese objetivo defensivo. Ese giro —humanos esforzándose por encontrar los límites de la máquina y descubriendo que casi no los hay en este formato— es la verdadera noticia.

Qué sigue

El propio diseño del estudio sugiere el siguiente paso: si 98 de 100 cayeron, el próximo benchmark deberá ser aún más duro, o cambiar el criterio de éxito de “respuesta correcta” a “demostración verificada formalmente” mediante asistentes de prueba como Lean. Ese sería un listón mucho más alto y mucho más informativo.

Es razonable esperar más colaboraciones de este tipo, donde comunidades enteras de especialistas curan problemas para medir la frontera del razonamiento. Mientras los benchmarks tradicionales se saturan en meses, los conjuntos a nivel de investigación —caros de producir, difíciles de contaminar— se perfilan como la nueva vara de medir. El experimento de Leipzig no cierra la conversación sobre si la IA “entiende” matemáticas; la abre con datos frescos y un método replicable que cualquiera puede revisar en el apéndice del paper.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿Qué es el benchmark de Leipzig?

Es un conjunto de 100 problemas de matemática a nivel de investigación, con respuesta conocida, creado por 49 matemáticos entre abril y mayo de 2026 para medir la capacidad de razonamiento de los modelos de lenguaje. Se publicó en arXiv con el identificador 2606.05818.

¿Cuántos problemas resolvieron los LLM?

Tras tres etapas de evaluación, los modelos resolvieron 98 de los 100 problemas. La cifra de problemas sin resolver bajó de 41 (un intento) a 16 (20 intentos) y finalmente a 2 (modelos de razonamiento profundo).

¿”Resolver” significa que el modelo escribió una demostración completa?

No necesariamente. Significa que produjo la respuesta correcta conocida. El formato permite una calificación objetiva, pero no certifica que toda la demostración intermedia fuera rigurosa y verificada por humanos.

¿Por qué importa que las preguntas tengan respuesta conocida?

Porque permite evaluar de forma automática y objetiva si un modelo acierta, sin depender de un juez humano que interprete pruebas largas. Es lo que hace escalable y reproducible el experimento.

¿Qué es pass@k y por qué aparece tanto?

Es una métrica que estima la probabilidad de que, en k intentos, al menos uno sea correcto. Explica por qué dar más intentos a un modelo (de pass@1 a pass@20) reduce tanto el número de problemas sin resolver.

¿Cómo se compara con FrontierMath o GSM8K?

GSM8K y MATH ya están saturados (los modelos los resuelven casi por completo). El benchmark de Leipzig pertenece a la nueva generación de pruebas a nivel de investigación, como FrontierMath, diseñadas para ser difíciles de memorizar y de contaminar.

Referencias

arXiv:2606.05818 — Benchmarks in Leipzig — artículo original con el método y los 100 problemas en el apéndice.
DOI 10.48550/arXiv.2606.05818 — registro DOI del paper vía DataCite.
Max Planck Institute for Mathematics in the Sciences — institución anfitriona del taller en Leipzig, Alemania.

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

49 matemáticos crean 100 retos y los LLM resuelven 98