⏱️ Lectura: 11 min
MaxProof, un sistema de demostración matemática construido sobre la serie de modelos MiniMax-M3, acaba de cruzar una frontera que parecía lejana: resolver problemas de olimpiada al nivel de un medallista de oro humano. Según un paper publicado el 11 de junio de 2026 en arXiv, el sistema obtuvo 35 de 42 puntos en la IMO 2025 y 36 de 42 en la USAMO 2026, superando el umbral de oro en ambas competencias.
📑 En este artículo
La clave no está solo en un modelo más grande, sino en una forma distinta de usar el cómputo en el momento de responder. Veamos qué hace diferente a MaxProof y por qué importa para el futuro del razonamiento automatizado.
TL;DR
- MaxProof obtuvo 35/42 puntos en la IMO 2025 y 36/42 en la USAMO 2026, superando el umbral de medalla de oro humana en ambas.
- Está construido sobre MiniMax-M3, que combina generación, verificación y reparación de demostraciones en un solo modelo liberado.
- El verificador generativo usa un diseño defense-in-depth optimizado para una tasa baja de falsos positivos.
- En inferencia, MaxProof genera una población de pruebas candidatas y elige la final por selección de torneo.
- El mismo modelo actúa como generador, verificador, refinador y rankeador de demostraciones.
- El paper se publicó el 11 de junio de 2026 en arXiv (2606.13473) y mide pruebas formales, no respuestas numéricas.
- Refuerza la idea de que el escalado en tiempo de inferencia puede valer tanto como agrandar el modelo.
Qué pasó
Un equipo de 23 autores, encabezado por Jiacheng Chen, presentó MaxProof, un framework de escalado a nivel de población en tiempo de inferencia (en inglés, population-level test-time scaling) para demostración matemática de nivel competencia. El sistema se apoya en la serie de modelos MiniMax-M3 y reporta dos resultados que llaman la atención: 35 de 42 puntos en la Olimpiada Internacional de Matemáticas (IMO) 2025 y 36 de 42 en la Olimpiada Matemática de Estados Unidos (USAMO) 2026.
Para dimensionar la cifra: en estas competencias cada uno de los seis problemas vale 7 puntos, y el umbral para medalla de oro suele ubicarse alrededor de los 35 puntos. Que un sistema automatizado iguale o supere ese corte no es lo mismo que resolver ejercicios de aritmética. Aquí no basta con dar el número correcto al final: hay que demostrar un teorema, es decir, construir una cadena de razonamiento formal donde cada paso se sigue lógicamente del anterior.
💭 Clave: demostrar es mucho más difícil que responder. En un problema de respuesta numérica, una solución correcta por casualidad sigue siendo correcta. En una demostración, un solo paso inválido invalida todo el argumento, aunque la conclusión sea cierta.
Contexto e historia
Durante años, los modelos de lenguaje fueron buenos para problemas matemáticos con respuesta cerrada (benchmarks como GSM8K o MATH) pero flojeaban en demostraciones. El motivo es estructural: cuando el objetivo es un número, podés verificar la respuesta de forma barata y entrenar con esa señal. Cuando el objetivo es una prueba de varias páginas, verificar si el argumento es válido es casi tan difícil como producirlo.
El año 2025 fue un punto de inflexión. Varios laboratorios reportaron sistemas que alcanzaban nivel de medalla en la IMO, y la comunidad empezó a tomar en serio la idea de que el razonamiento matemático formal estaba al alcance de los modelos de propósito general. Lo que aporta MaxProof a esa conversación es una receta concreta y reproducible que combina entrenamiento especializado con una estrategia agresiva de cómputo en inferencia.
La filosofía detrás de MaxProof conecta con una tendencia más amplia de 2024-2026: el test-time scaling, o escalado en tiempo de inferencia. La idea es que, en lugar de invertir todo el presupuesto en hacer el modelo más grande durante el entrenamiento, conviene dejarlo “pensar” más al momento de responder: generar muchos intentos, criticarlos, repararlos y elegir el mejor. MaxProof lleva esta idea al extremo, tratando una población entera de demostraciones candidatas como material de búsqueda.
Cómo funciona MaxProof
El sistema entrena primero tres capacidades orientadas a pruebas dentro de MiniMax-M3, y luego las fusiona en un único modelo liberado:
- Generación de demostraciones — producir un argumento formal completo para un problema dado.
- Verificación de demostraciones — juzgar si una prueba es válida. Aquí está el corazón del diseño: un verificador generativo con arquitectura defense-in-depth, optimizado para minimizar los falsos positivos (marcar como válida una prueba que en realidad falla).
- Reparación condicionada por crítica — dada una prueba y una crítica del verificador, corregir el paso defectuoso en vez de empezar de cero.
En tiempo de inferencia, el mismo modelo cumple cuatro roles —generador, verificador, refinador y rankeador— y opera sobre un conjunto de candidatos. El flujo, simplificado, se ve así:
graph TD
A["Generador: N pruebas candidatas"] --> B["Verificador generativo"]
B -->|"prueba valida"| D["Ranking por torneo"]
B -->|"prueba con fallo"| C["Reparador: critique-conditioned repair"]
C --> B
D --> E["Prueba final seleccionada"]
Si lo expresamos como pseudocódigo, la lógica de MaxProof se parece a un bucle de búsqueda sobre una población de soluciones, donde cada candidato se intenta arreglar antes de descartarlo:
def maxproof(problema, n_candidatos=64, max_reparaciones=3):
poblacion = [modelo.generar_prueba(problema) for _ in range(n_candidatos)]
sobrevivientes = []
for prueba in poblacion:
veredicto = modelo.verificar(problema, prueba)
reparaciones = 0
# Reparacion condicionada por la critica del verificador
while not veredicto.es_valida and reparaciones < max_reparaciones:
prueba = modelo.reparar(problema, prueba, veredicto.critica)
veredicto = modelo.verificar(problema, prueba)
reparaciones += 1
if veredicto.es_valida:
sobrevivientes.append(prueba)
# Seleccion por torneo entre las pruebas que sobrevivieron
return seleccion_por_torneo(modelo, problema, sobrevivientes)
Nótese un detalle de diseño importante: el verificador prioriza no equivocarse al aprobar. En un pipeline así, un falso positivo es venenoso, porque una demostración incorrecta marcada como válida puede ganar el torneo y convertirse en la respuesta final. Por eso el paper insiste en la baja tasa de falsos positivos como objetivo de ingeniería, no como un efecto secundario.
💡 Tip: esta estructura —generar muchas soluciones, verificarlas con un crítico estricto, reparar las que casi funcionan y rankear el resto— es un patrón reutilizable más allá de las matemáticas. Sirve para generación de código, pruebas de software o cualquier tarea donde verificar sea más barato que producir.
Datos y cifras
Los números reportados son la parte más concreta del anuncio:
- IMO 2025: 35/42 puntos. El umbral de oro en olimpiadas internacionales ronda los 35 puntos, así que el sistema queda justo en el corte de medalla de oro.
- USAMO 2026: 36/42 puntos, por encima del umbral de oro de esa competencia.
- Equipo: 23 autores, liderados por Jiacheng Chen.
- Publicación: 11 de junio de 2026, arXiv 2606.13473, categorías cs.LG, cs.AI y cs.CL.
Es importante leer estas cifras con cuidado. Son resultados autoreportados en un preprint que, al momento de su publicación, aún no había pasado por revisión por pares. La comunidad querrá ver verificación independiente: que las demostraciones generadas sean revisadas por matemáticos o por verificadores formales (tipo Lean o Coq) antes de dar el resultado por consolidado. Aun así, la magnitud del salto justifica la atención.
Impacto y análisis
Para desarrolladores en LATAM y en cualquier parte, el aporte más transferible de MaxProof no es el puntaje de olimpiada, sino la receta. El patrón generar-verificar-reparar-rankear es exactamente la clase de arquitectura que ya usamos —de forma más rudimentaria— cuando pedimos a un modelo que escriba código, lo ejecutamos contra una suite de tests y lo corregimos según los errores. MaxProof lo formaliza y lo escala.
Hay tres lecciones prácticas. La primera: el verificador importa tanto como el generador. Un crítico laxo arruina todo el sistema. Si construís un pipeline agéntico, invertir en una verificación estricta y con bajos falsos positivos rinde más que afinar solo la generación. La segunda: la búsqueda sobre poblaciones gana a la cadena única. Generar 64 intentos diversos y filtrarlos suele superar a generar uno solo y perfeccionarlo. La tercera: el cómputo en inferencia es una palanca real. No siempre hace falta un modelo más grande; a veces basta con dejarlo trabajar más al momento de responder.
⚠️ Ojo: el escalado a nivel de población no es gratis. Generar y verificar decenas de candidatos por problema multiplica el costo de inferencia. Para tareas de producción hay que medir el compromiso entre calidad y costo antes de copiar la receta a ciegas.
También conviene matizar el alcance. Resolver problemas de olimpiada —difíciles pero acotados, con enunciados limpios y solución conocida— no es lo mismo que demostrar teoremas abiertos de investigación. El salto de “nivel medalla de oro” a “matemático que descubre teoremas nuevos” sigue siendo enorme. Lo que MaxProof muestra es que el razonamiento estructurado y verificable está madurando rápido.
Qué sigue
Los próximos pasos lógicos son la verificación independiente de los resultados, idealmente formalizando las demostraciones en asistentes de prueba como Lean para eliminar cualquier duda sobre falsos positivos, y la publicación de pesos o detalles de entrenamiento que permitan reproducir el sistema. Si la receta de MaxProof se sostiene, es razonable esperar que la combinación verificador-fuerte más búsqueda-en-población se vuelva estándar en tareas de razonamiento, desde matemáticas hasta generación de código y demostración formal de software.
Para quien quiera experimentar hoy, no hace falta un modelo de olimpiada: el patrón se puede prototipar con cualquier LLM razonablemente capaz, definiendo un verificador estricto (otra llamada al modelo, o un test automatizado) y un bucle de reparación. La idea de fondo —pensar más, verificar duro y elegir lo mejor— es independiente de la escala.
📖 Resumen en Telegram: Ver resumen
Preguntas frecuentes
¿Qué es MaxProof exactamente?
Es un framework de escalado en tiempo de inferencia para demostración matemática de nivel competencia, construido sobre la serie de modelos MiniMax-M3. Genera una población de pruebas candidatas, las verifica, repara las defectuosas y elige la final mediante selección de torneo.
¿Qué significa que superó el umbral de medalla de oro?
En la IMO y la USAMO, el corte de medalla de oro ronda los 35 de 42 puntos. MaxProof reportó 35/42 en la IMO 2025 y 36/42 en la USAMO 2026, igualando o superando ese corte que normalmente alcanzan los mejores competidores humanos.
¿En qué se diferencia demostrar de responder un problema numérico?
En un problema de respuesta cerrada basta con dar el número correcto. En una demostración hay que construir una cadena de razonamiento formal donde cada paso es válido; un solo paso erróneo invalida todo el argumento, aunque la conclusión sea cierta.
¿Por qué el verificador es tan importante?
Porque en un pipeline que filtra candidatos, un falso positivo —aprobar una prueba inválida— puede ganar el torneo y volverse la respuesta final. Por eso MaxProof diseñó un verificador generativo defense-in-depth optimizado para minimizar falsos positivos.
¿Puedo aplicar esta idea sin un modelo de olimpiada?
Sí. El patrón generar-verificar-reparar-rankear funciona con cualquier LLM capaz. Lo aplicás, por ejemplo, generando varias soluciones de código, verificándolas contra tests, reparando las que casi pasan y eligiendo la mejor.
¿Estos resultados ya están confirmados?
Son resultados autoreportados en un preprint de arXiv del 11 de junio de 2026. Aún falta verificación independiente y revisión por pares; lo ideal sería formalizar las demostraciones en asistentes como Lean para descartar falsos positivos.
Referencias
- arXiv 2606.13473 — paper original: “MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling”.
- DOI 10.48550/arXiv.2606.13473 — identificador persistente del trabajo.
- International Mathematical Olympiad — contexto sobre la IMO y sus umbrales de medalla.
- USA Mathematical Olympiad — contexto sobre la USAMO.
📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.
0 Comentarios