MaxProof supera la medalla de oro en IMO y USAMO

⏱️ Lectura: 11 min

MaxProof, un sistema de demostración matemática construido sobre la serie de modelos MiniMax-M3, acaba de cruzar una frontera que parecía lejana: resolver problemas de olimpiada al nivel de un medallista de oro humano. Según un paper publicado el 11 de junio de 2026 en arXiv, el sistema obtuvo 35 de 42 puntos en la IMO 2025 y 36 de 42 en la USAMO 2026, superando el umbral de oro en ambas competencias.

📑 En este artículo

TL;DR
Qué pasó
Contexto e historia
Cómo funciona MaxProof
Datos y cifras
Impacto y análisis
Qué sigue
Preguntas frecuentes
Referencias

La clave no está solo en un modelo más grande, sino en una forma distinta de usar el cómputo en el momento de responder. Veamos qué hace diferente a MaxProof y por qué importa para el futuro del razonamiento automatizado.

TL;DR

MaxProof obtuvo 35/42 puntos en la IMO 2025 y 36/42 en la USAMO 2026, superando el umbral de medalla de oro humana en ambas.
Está construido sobre MiniMax-M3, que combina generación, verificación y reparación de demostraciones en un solo modelo liberado.
El verificador generativo usa un diseño defense-in-depth optimizado para una tasa baja de falsos positivos.
En inferencia, MaxProof genera una población de pruebas candidatas y elige la final por selección de torneo.
El mismo modelo actúa como generador, verificador, refinador y rankeador de demostraciones.
El paper se publicó el 11 de junio de 2026 en arXiv (2606.13473) y mide pruebas formales, no respuestas numéricas.
Refuerza la idea de que el escalado en tiempo de inferencia puede valer tanto como agrandar el modelo.

Qué pasó

Un equipo de 23 autores, encabezado por Jiacheng Chen, presentó MaxProof, un framework de escalado a nivel de población en tiempo de inferencia (en inglés, population-level test-time scaling) para demostración matemática de nivel competencia. El sistema se apoya en la serie de modelos MiniMax-M3 y reporta dos resultados que llaman la atención: 35 de 42 puntos en la Olimpiada Internacional de Matemáticas (IMO) 2025 y 36 de 42 en la Olimpiada Matemática de Estados Unidos (USAMO) 2026.

Para dimensionar la cifra: en estas competencias cada uno de los seis problemas vale 7 puntos, y el umbral para medalla de oro suele ubicarse alrededor de los 35 puntos. Que un sistema automatizado iguale o supere ese corte no es lo mismo que resolver ejercicios de aritmética. Aquí no basta con dar el número correcto al final: hay que demostrar un teorema, es decir, construir una cadena de razonamiento formal donde cada paso se sigue lógicamente del anterior.

💭 Clave: demostrar es mucho más difícil que responder. En un problema de respuesta numérica, una solución correcta por casualidad sigue siendo correcta. En una demostración, un solo paso inválido invalida todo el argumento, aunque la conclusión sea cierta.

Pizarra con ecuaciones de una demostración matemática de olimpiada — Las demostraciones de olimpiada exigen cadenas de razonamiento verificables, no solo respuestas.

Contexto e historia

Durante años, los modelos de lenguaje fueron buenos para problemas matemáticos con respuesta cerrada (benchmarks como GSM8K o MATH) pero flojeaban en demostraciones. El motivo es estructural: cuando el objetivo es un número, podés verificar la respuesta de forma barata y entrenar con esa señal. Cuando el objetivo es una prueba de varias páginas, verificar si el argumento es válido es casi tan difícil como producirlo.

El año 2025 fue un punto de inflexión. Varios laboratorios reportaron sistemas que alcanzaban nivel de medalla en la IMO, y la comunidad empezó a tomar en serio la idea de que el razonamiento matemático formal estaba al alcance de los modelos de propósito general. Lo que aporta MaxProof a esa conversación es una receta concreta y reproducible que combina entrenamiento especializado con una estrategia agresiva de cómputo en inferencia.

La filosofía detrás de MaxProof conecta con una tendencia más amplia de 2024-2026: el test-time scaling, o escalado en tiempo de inferencia. La idea es que, en lugar de invertir todo el presupuesto en hacer el modelo más grande durante el entrenamiento, conviene dejarlo “pensar” más al momento de responder: generar muchos intentos, criticarlos, repararlos y elegir el mejor. MaxProof lleva esta idea al extremo, tratando una población entera de demostraciones candidatas como material de búsqueda.

Cómo funciona MaxProof

El sistema entrena primero tres capacidades orientadas a pruebas dentro de MiniMax-M3, y luego las fusiona en un único modelo liberado:

Generación de demostraciones — producir un argumento formal completo para un problema dado.
Verificación de demostraciones — juzgar si una prueba es válida. Aquí está el corazón del diseño: un verificador generativo con arquitectura defense-in-depth, optimizado para minimizar los falsos positivos (marcar como válida una prueba que en realidad falla).
Reparación condicionada por crítica — dada una prueba y una crítica del verificador, corregir el paso defectuoso en vez de empezar de cero.

En tiempo de inferencia, el mismo modelo cumple cuatro roles —generador, verificador, refinador y rankeador— y opera sobre un conjunto de candidatos. El flujo, simplificado, se ve así:

graph TD
    A["Generador: N pruebas candidatas"] --> B["Verificador generativo"]
    B -->|"prueba valida"| D["Ranking por torneo"]
    B -->|"prueba con fallo"| C["Reparador: critique-conditioned repair"]
    C --> B
    D --> E["Prueba final seleccionada"]

Si lo expresamos como pseudocódigo, la lógica de MaxProof se parece a un bucle de búsqueda sobre una población de soluciones, donde cada candidato se intenta arreglar antes de descartarlo:

def maxproof(problema, n_candidatos=64, max_reparaciones=3):
    poblacion = [modelo.generar_prueba(problema) for _ in range(n_candidatos)]
    sobrevivientes = []

    for prueba in poblacion:
        veredicto = modelo.verificar(problema, prueba)
        reparaciones = 0
        # Reparacion condicionada por la critica del verificador
        while not veredicto.es_valida and reparaciones < max_reparaciones:
            prueba = modelo.reparar(problema, prueba, veredicto.critica)
            veredicto = modelo.verificar(problema, prueba)
            reparaciones += 1
        if veredicto.es_valida:
            sobrevivientes.append(prueba)

    # Seleccion por torneo entre las pruebas que sobrevivieron
    return seleccion_por_torneo(modelo, problema, sobrevivientes)

Nótese un detalle de diseño importante: el verificador prioriza no equivocarse al aprobar. En un pipeline así, un falso positivo es venenoso, porque una demostración incorrecta marcada como válida puede ganar el torneo y convertirse en la respuesta final. Por eso el paper insiste en la baja tasa de falsos positivos como objetivo de ingeniería, no como un efecto secundario.

💡 Tip: esta estructura —generar muchas soluciones, verificarlas con un crítico estricto, reparar las que casi funcionan y rankear el resto— es un patrón reutilizable más allá de las matemáticas. Sirve para generación de código, pruebas de software o cualquier tarea donde verificar sea más barato que producir.

Visualización de múltiples caminos de razonamiento convergiendo en una solución — MaxProof busca sobre una población de pruebas y elige la final por torneo.

Datos y cifras

Los números reportados son la parte más concreta del anuncio:

IMO 2025: 35/42 puntos. El umbral de oro en olimpiadas internacionales ronda los 35 puntos, así que el sistema queda justo en el corte de medalla de oro.
USAMO 2026: 36/42 puntos, por encima del umbral de oro de esa competencia.
Equipo: 23 autores, liderados por Jiacheng Chen.
Publicación: 11 de junio de 2026, arXiv 2606.13473, categorías cs.LG, cs.AI y cs.CL.

Es importante leer estas cifras con cuidado. Son resultados autoreportados en un preprint que, al momento de su publicación, aún no había pasado por revisión por pares. La comunidad querrá ver verificación independiente: que las demostraciones generadas sean revisadas por matemáticos o por verificadores formales (tipo Lean o Coq) antes de dar el resultado por consolidado. Aun así, la magnitud del salto justifica la atención.

Impacto y análisis

Para desarrolladores en LATAM y en cualquier parte, el aporte más transferible de MaxProof no es el puntaje de olimpiada, sino la receta. El patrón generar-verificar-reparar-rankear es exactamente la clase de arquitectura que ya usamos —de forma más rudimentaria— cuando pedimos a un modelo que escriba código, lo ejecutamos contra una suite de tests y lo corregimos según los errores. MaxProof lo formaliza y lo escala.

Hay tres lecciones prácticas. La primera: el verificador importa tanto como el generador. Un crítico laxo arruina todo el sistema. Si construís un pipeline agéntico, invertir en una verificación estricta y con bajos falsos positivos rinde más que afinar solo la generación. La segunda: la búsqueda sobre poblaciones gana a la cadena única. Generar 64 intentos diversos y filtrarlos suele superar a generar uno solo y perfeccionarlo. La tercera: el cómputo en inferencia es una palanca real. No siempre hace falta un modelo más grande; a veces basta con dejarlo trabajar más al momento de responder.

⚠️ Ojo: el escalado a nivel de población no es gratis. Generar y verificar decenas de candidatos por problema multiplica el costo de inferencia. Para tareas de producción hay que medir el compromiso entre calidad y costo antes de copiar la receta a ciegas.

También conviene matizar el alcance. Resolver problemas de olimpiada —difíciles pero acotados, con enunciados limpios y solución conocida— no es lo mismo que demostrar teoremas abiertos de investigación. El salto de “nivel medalla de oro” a “matemático que descubre teoremas nuevos” sigue siendo enorme. Lo que MaxProof muestra es que el razonamiento estructurado y verificable está madurando rápido.

Qué sigue

Los próximos pasos lógicos son la verificación independiente de los resultados, idealmente formalizando las demostraciones en asistentes de prueba como Lean para eliminar cualquier duda sobre falsos positivos, y la publicación de pesos o detalles de entrenamiento que permitan reproducir el sistema. Si la receta de MaxProof se sostiene, es razonable esperar que la combinación verificador-fuerte más búsqueda-en-población se vuelva estándar en tareas de razonamiento, desde matemáticas hasta generación de código y demostración formal de software.

Para quien quiera experimentar hoy, no hace falta un modelo de olimpiada: el patrón se puede prototipar con cualquier LLM razonablemente capaz, definiendo un verificador estricto (otra llamada al modelo, o un test automatizado) y un bucle de reparación. La idea de fondo —pensar más, verificar duro y elegir lo mejor— es independiente de la escala.

📖 Resumen en Telegram: Ver resumen

Preguntas frecuentes

¿Qué es MaxProof exactamente?

Es un framework de escalado en tiempo de inferencia para demostración matemática de nivel competencia, construido sobre la serie de modelos MiniMax-M3. Genera una población de pruebas candidatas, las verifica, repara las defectuosas y elige la final mediante selección de torneo.

¿Qué significa que superó el umbral de medalla de oro?

En la IMO y la USAMO, el corte de medalla de oro ronda los 35 de 42 puntos. MaxProof reportó 35/42 en la IMO 2025 y 36/42 en la USAMO 2026, igualando o superando ese corte que normalmente alcanzan los mejores competidores humanos.

¿En qué se diferencia demostrar de responder un problema numérico?

En un problema de respuesta cerrada basta con dar el número correcto. En una demostración hay que construir una cadena de razonamiento formal donde cada paso es válido; un solo paso erróneo invalida todo el argumento, aunque la conclusión sea cierta.

¿Por qué el verificador es tan importante?

Porque en un pipeline que filtra candidatos, un falso positivo —aprobar una prueba inválida— puede ganar el torneo y volverse la respuesta final. Por eso MaxProof diseñó un verificador generativo defense-in-depth optimizado para minimizar falsos positivos.

¿Puedo aplicar esta idea sin un modelo de olimpiada?

Sí. El patrón generar-verificar-reparar-rankear funciona con cualquier LLM capaz. Lo aplicás, por ejemplo, generando varias soluciones de código, verificándolas contra tests, reparando las que casi pasan y eligiendo la mejor.

¿Estos resultados ya están confirmados?

Son resultados autoreportados en un preprint de arXiv del 11 de junio de 2026. Aún falta verificación independiente y revisión por pares; lo ideal sería formalizar las demostraciones en asistentes como Lean para descartar falsos positivos.

Referencias

arXiv 2606.13473 — paper original: “MaxProof: Scaling Mathematical Proof with Generative-Verifier RL and Population-Level Test-Time Scaling”.
DOI 10.48550/arXiv.2606.13473 — identificador persistente del trabajo.
International Mathematical Olympiad — contexto sobre la IMO y sus umbrales de medalla.
USA Mathematical Olympiad — contexto sobre la USAMO.

📱 ¿Te gusta este contenido? Únete a nuestro canal de Telegram @programacion donde publicamos a diario lo más relevante de tecnología, IA y desarrollo. Resúmenes rápidos, contenido fresco todos los días.

MaxProof logra 36/42 en USAMO 2026 y supera la medalla de oro

Publicado por Andrés Morales en 12 junio, 2026

TL;DR

Qué pasó

Contexto e historia

Cómo funciona MaxProof

Datos y cifras

Impacto y análisis

Qué sigue

Preguntas frecuentes

¿Qué es MaxProof exactamente?

¿Qué significa que superó el umbral de medalla de oro?

¿En qué se diferencia demostrar de responder un problema numérico?

¿Por qué el verificador es tan importante?

¿Puedo aplicar esta idea sin un modelo de olimpiada?

¿Estos resultados ya están confirmados?

Referencias

Andrés Morales

0 Comentarios

Deja un comentario Cancelar respuesta

Noticias Tech

EE.UU. accedió a correos de funcionarios neerlandeses vía Microsoft

Noticias Tech

Trampa de capacidad: el modelo del MIT que explica por qué fracasa la mejora

Noticias Tech

Petición e-7416 exige frenar el C-22 y sus puertas traseras de cifrado

MaxProof logra 36/42 en USAMO 2026 y supera la medalla de oro

Publicado por Andrés Morales en 12 junio, 2026

TL;DR

Qué pasó

Contexto e historia

Cómo funciona MaxProof

Datos y cifras

Impacto y análisis

Qué sigue

Preguntas frecuentes

¿Qué es MaxProof exactamente?

¿Qué significa que superó el umbral de medalla de oro?

¿En qué se diferencia demostrar de responder un problema numérico?

¿Por qué el verificador es tan importante?

¿Puedo aplicar esta idea sin un modelo de olimpiada?

¿Estos resultados ya están confirmados?

Referencias

Andrés Morales

0 Comentarios

Deja un comentario Cancelar respuesta

Entradas relacionadas

Noticias Tech

EE.UU. accedió a correos de funcionarios neerlandeses vía Microsoft

Noticias Tech

Trampa de capacidad: el modelo del MIT que explica por qué fracasa la mejora

Noticias Tech

Petición e-7416 exige frenar el C-22 y sus puertas traseras de cifrado