Jaque mate al algoritmo: el test definitivo que la IA no pudo ganar a los humanos

Vivimos en una era donde parece que la inteligencia artificial puede hacerlo absolutamente todo. Le pides que te redacte un correo electrónico para pedir un aumento, que dibuje un astronauta montando un dinosaurio en Marte o que programe un sitio web desde cero, y lo hace en cuestión de segundos. Sin embargo, cuando se trata de pensamiento lógico puro, abstracto y creativo, las máquinas todavía tienen mucho que aprender de nosotros.

Un nuevo y riguroso examen de matemáticas llamado First Proof ha puesto a prueba a los modelos de inteligencia artificial más avanzados del planeta frente a problemas matemáticos nunca antes vistos. ¿El resultado? Los humanos siguen siendo los reyes indiscutibles de la pista. El modelo de IA con mejor rendimiento apenas logró resolver 6 de cada 10 problemas, demostrando que, cuando las reglas del juego cambian y no se puede recurrir a la memoria, los algoritmos se quedan cortos.

A continuación, te contamos cómo se gestó este histórico enfrentamiento entre el cerebro humano y el silicio, por qué las IA fallaron y qué significa esto para el futuro de la tecnología.

¿Qué es "First Proof" y por qué es la pesadilla de cualquier IA?

Para entender la magnitud de este examen, primero debemos entender cómo aprenden los modelos de lenguaje actuales (LLM). Imagina que estás estudiando para un examen de historia y te memorizas todo el libro de texto. Si el profesor te hace una pregunta que viene literalmente en la página 42, responderás a la perfección. Pero si te pide que relaciones dos conceptos abstractos que no estaban en el libro, es probable que te bloquees.

Eso es exactamente lo que les pasa a las inteligencias artificiales gracias al fenómeno de la memorización de datos de entrenamiento. Muchas veces creemos que una IA es "inteligente" cuando en realidad solo está repitiendo, de forma muy sofisticada, información que ya leyó en internet.

Para evitar esta "trampa", el proyecto First Proof diseñó un examen bajo tres condiciones extremadamente estrictas:

Matemáticas de nivel de investigación: Nada de álgebra de secundaria o problemas sencillos de cálculo. Eran preguntas complejas, del tipo que resuelven los matemáticos profesionales en su día a día.
Problemas inéditos: Las preguntas no existían en internet ni en ninguna literatura publicada. Diez investigadores de diversas áreas de las matemáticas aportaron problemas que ellos mismos habían resuelto recientemente en sus investigaciones, pero que aún no habían publicado. Cero posibilidades de que la IA los hubiera "leído" antes.
Evaluación humana rigurosa: Las respuestas de las máquinas fueron calificadas formalmente por un jurado anónimo compuesto por 30 matemáticos expertos en cada materia.

Las reglas del juego: Sin trampas y con el código abierto

El equipo de First Proof ya había realizado un ensayo en febrero de este año, pero en esa ocasión cualquiera podía probar sus propios sistemas y no había forma de verificar si los humanos habían ayudado en secreto a las máquinas.

Para esta edición oficial, cuyos resultados se revelaron el pasado 10 de junio, las reglas fueron claras: los modelos debían resolver los problemas de forma 100% autónoma y tenían que ser sistemas disponibles públicamente.

Esto último dejó fuera de la competencia a proyectos experimentales muy comentados en el sector tecnológico, como Aletheia de Google (diseñada específicamente para matemáticas) o la versión completa y no lanzada de Claude Mythos (desarrollada por la firma Anthropic).

Al final, la única gran empresa tecnológica que participó de forma directa fue OpenAI con su modelo ChatGPT 5.5 Pro. Los otros tres competidores fueron desarrollados por prestigiosas instituciones académicas que diseñaron "arneses" de software sobre modelos ya existentes:

La Universidad de California en Los Ángeles (UCLA)
La Universidad de Princeton
El Instituto Federal de Tecnología de Zúrich (ETH Zurich)

¿Qué es un "arnés" de IA y cómo ayudó a los modelos?

En el mundo de la programación, un arnés (o harness) es una estructura de software externa que envuelve a la IA para mejorar su rendimiento. Imagina que el chatbot es un estudiante brillante pero muy distraído que suele responder lo primero que se le viene a la mente. El arnés actúa como un tutor estricto que le dice: "Vuelve a leer la pregunta, revisa tu procedimiento y asegúrate de que no haya errores antes de entregar".

Estos arneses automatizados permiten que un chatbot genere una respuesta, se la envíe a otro chatbot para que la revise, y realicen un proceso de debate interno (un "ida y vuelta") hasta obtener el resultado más pulido posible.

A continuación, vemos cómo quedaron distribuidos los resultados de esta intensa jornada matemática:

Tabla de rendimiento en el examen First Proof

Posición	Equipo / Creador	Sistema / Base de IA	Estrategia utilizada	Puntuación (sobre 10)
1º	ETH Zurich	ChatGPT + Gemini + Claude	Arnés con "Consejo de Sabios" (Multi-modelo)	6 / 10
2º	UCLA	ChatGPT	Arnés de optimización matemática	Segundo lugar
3º	OpenAI	ChatGPT 5.5 Pro	Modelo puro (sin arnés externo)	Tercer lugar
4º	Princeton	Gemini 3.1 Pro	Arnés de revisión lógica	Cuarto lugar

El "Consejo de Sabios" que se llevó la corona

El gran ganador de la prueba fue el modelo desarrollado por el equipo suizo de ETH Zurich, que logró resolver 6 de los 10 problemas inéditos. ¿Su secreto? No confiar en una sola mente de silicio.

El equipo de Zúrich diseñó un sistema de control de calidad impecable: un consejo asesor compuesto por los tres grandes modelos lingüísticos del mercado (ChatGPT, Gemini de Google y Claude de Anthropic). Cuando el sistema principal proponía una solución matemática, este "consejo de sabios" virtual analizaba la respuesta, buscaba fallos lógicos, proponía mejoras y obligaba al sistema a corregir sus propios errores.

Este enfoque colaborativo demostró ser muy superior a la fuerza bruta de un solo modelo, superando incluso al potente ChatGPT 5.5 Pro de OpenAI que funcionaba de manera individual y sin intermediarios.

¿Por qué a la inteligencia artificial le cuesta tanto la matemática abstracta?

Para nosotros, resolver una suma larga puede ser aburrido y difícil, mientras que para una calculadora es cuestión de milisegundos. Sin embargo, con las matemáticas de alto nivel ocurre todo lo contrario.

La matemática abstracta no se trata de calcular números grandes; se trata de crear conceptos, conectar ideas que parecen no tener relación y construir demostraciones lógicas impecables.

Los modelos de lenguaje actuales funcionan mediante la predicción de la palabra más probable que debería venir a continuación. En la literatura o en la redacción creativa, esto funciona de maravilla porque existe un margen de error aceptable. Pero en una demostración matemática, un solo signo incorrecto o una suposición lógica errónea destruyen por completo todo el trabajo.

A pesar de que recientemente OpenAI logró que uno de sus modelos resolviera un problema matemático de 80 años de antigüedad planteado por el célebre matemático Paul Erdős, el test de First Proof deja claro que cuando la IA se enfrenta a un territorio completamente inexplorado y sin pistas previas en la web, su capacidad de razonamiento creativo todavía tiene límites muy claros.

El futuro: ¿Sustitutos o asistentes de investigación?

El objetivo de pruebas como First Proof no es simplemente burlarse de las limitaciones de las máquinas o alimentar el ego de los matemáticos humanos. Al contrario, sirve para trazar el mapa de ruta de lo que la tecnología podrá hacer en el futuro cercano.

Los organizadores del proyecto señalan que, a medida que estos sistemas mejoren y logren puntuaciones más altas, se convertirán en herramientas revolucionarias para la ciencia. En lugar de reemplazar a los científicos, las inteligencias artificiales del futuro podrían actuar como:

Asistentes de investigación autónomos: Capaces de explorar caminos lógicos secundarios mientras el científico se enfoca en la idea principal.
Verificadores de pruebas: Filtros de seguridad capaces de leer cientos de páginas de una demostración matemática compleja en segundos para asegurar que no existan errores de cálculo o contradicciones.
Generadores de hipótesis: Herramientas que propongan conexiones conceptuales que a un cerebro humano le tomaría años descubrir.

Por ahora, podemos estar tranquilos: la chispa de la genialidad, la intuición y el verdadero "momento Eureka" siguen siendo, por un buen tiempo, una cualidad exclusivamente humana.

Fuentes y referencias

Para conocer más detalles sobre el diseño de este benchmark y el rendimiento de los modelos evaluados, puedes consultar el artículo completo publicado en la prestigiosa revista científica Nature.