Primera prueba
Dennis L.
(Imagen del símbolo AI). La prueba de matemáticas no examina el trabajo escolar, sino problemas de investigación matemática del mundo real. Los nuevos resultados muestran que la inteligencia artificial ofrece ahora enfoques impresionantes. Al mismo tiempo, sigue siendo visible la distancia con los expertos matemáticos, donde una demostración no sólo debe ser plausible sino también completamente fiable.
)iknessiW dnu gnuhcsroF(Foto: ©
Una nueva prueba de matemáticas revela una limitación de la inteligencia artificial moderna que a menudo queda oculta en los puntos de referencia habituales. En el proyecto First Proof, los modelos de lenguaje tuvieron que funcionar en problemas nuevos para la investigación matemática. Los mejores sistemas encontraron varias soluciones viables, pero continuaron fallando debido a la confiabilidad de los mejores matemáticos humanos. El descubrimiento es particularmente explosivo porque sólo recientemente la inteligencia artificial se ha vuelto significativamente más fuerte en tareas relacionadas con los Juegos Olímpicos.
La inteligencia artificial ha logrado grandes avances en tareas matemáticas en los últimos años. Esto fue particularmente visible en los problemas relacionados con la competencia, donde las tareas estaban claramente establecidas, las soluciones eran claramente evaluables y muchos ejemplos relacionados estaban disponibles públicamente. Estas pruebas miden habilidades importantes, pero muestran sólo una parte del pensamiento matemático. La verdadera investigación matemática no se trata sólo de encontrar una idea de cálculo elegante o reconocer un patrón familiar. Una prueba debe combinar sensatamente nuevos términos, cubrir casos especiales ocultos, evitar abreviaturas incorrectas y, en última instancia, resistir la revisión de expertos. Aquí es exactamente donde entra en juego la nueva prueba de matemáticas. El proyecto First Proof prueba si los modelos de lenguaje modernos no sólo pueden resolver tareas, sino también trabajar de forma independiente en problemas que en realidad provienen de investigaciones matemáticas en curso y que antes no eran entrenables públicamente.
Los resultados actuales se publicaron el 10 de junio de 2026 y se presentaron en el Centro de Ciencias y Aplicaciones Matemáticas de Harvard. Según el Proyecto First Proof, la prueba tiene como objetivo proporcionar una evaluación independiente, transparente y rigurosa de las capacidades de la inteligencia artificial en la investigación matemática. Para la segunda fase, se seleccionaron diez tareas de procesos de investigación reales y luego fueron evaluadas por revisores expertos. La CMSA de Harvard describe el proceso como una revisión ciega en la que matemáticos humanos examinan soluciones de IA de acuerdo con estándares científicos. Esto hace que First Proof sea significativamente diferente de muchos puntos de referencia comunes de IA, donde un modelo solo necesita proporcionar el número final correcto, una breve justificación o una respuesta formalmente fácil de verificar.
Porque el examen es más difícil que los problemas de matemáticas normales.
Muchas pruebas públicas de IA utilizan tareas cuya estructura conduce a modelos de lenguaje grandes. Los modelos pueden basarse en formas de solución conocidas, ejemplos similares de datos de entrenamiento o estrategias competitivas frecuentemente repetidas. La Primera Prueba tiene como objetivo hacer esta abreviatura más difícil. Las tareas no estaban disponibles públicamente antes de su publicación y fueron seleccionadas para cubrir varios subcampos matemáticos. Esto significa que un modelo no sólo debe calcular, sino también desarrollar un argumento válido. Un intento de solución puede ser lingüísticamente convincente y aun así fracasar debido a una pequeña brecha que inutiliza toda la prueba. Estas lagunas en particular son difíciles de percibir para los no expertos, pero son cruciales en la investigación matemática. Por lo tanto, el test de matemáticas no mide tanto si la inteligencia artificial las formula de forma inteligente, sino más bien si corrobora una afirmación de tal manera que los expertos puedan aceptarla según estrictas reglas técnicas.
Los resultados muestran un panorama mixto. Los mejores sistemas utilizados fueron capaces de resolver muchos de los diez problemas de forma sustancialmente correcta o hasta el punto en que sólo se necesitaron correcciones menores. Al mismo tiempo, ningún modelo se ha mantenido al nivel de un grupo de trabajo fiable de expertos humanos. Algunas soluciones contenían pruebas faltantes, referencias literarias problemáticas o pasajes argumentativos sólidos pero insuficientemente sustentados matemáticamente. Esto hace que el descubrimiento sea más emocionante que un simple fracaso. En este ámbito, la inteligencia artificial ya no es sólo un juguete para tareas estándar, sino que tampoco puede sustituir la supervisión profesional. La prueba muestra una etapa intermedia: los modelos de lenguaje pueden ayudar a los investigadores con ideas, literatura, variantes y largos procesos computacionales, pero la garantía de calidad real sigue siendo una tarea humana.
La gente claramente tiene una ventaja cuando se trata de evidencia
Las matemáticas se diferencian de muchos otros campos del conocimiento porque una solución no sólo tiene que ser probable o útil. Debe ser lógicamente convincente. Una sola transición incorrecta puede convertir una derivación aparentemente fuerte en una afirmación falsa. Precisamente por eso es tan importante el desempeño de los matemáticos humanos en la primera prueba de demostración. No sólo juzgan si el resultado parece plausible, sino también si cada paso crucial es eficaz. El nuevo punto de referencia deja claro que los modelos lingüísticos presentan principalmente problemas en los que no es posible reunir una prueba a partir de modelos conocidos. Pueden generar largas cadenas de argumentos, pero no siempre comprueban su validez con el mismo rigor que un revisor experto experimentado. Este es un problema práctico para la investigación porque una solución incorrecta formulada de manera impresionante puede generar más esfuerzo de prueba que ninguna solución.
Al mismo tiempo, sería un error interpretar los resultados como una pura derrota de la inteligencia artificial. Varias soluciones se han acercado lo suficiente a la evidencia aceptable como para ser consideradas una contribución seria a la práctica de la investigación. Los sistemas son particularmente efectivos cuando buscan en la literatura, combinan enfoques inusuales o buscan sistemáticamente variaciones aburridas. Esta capacidad puede acelerar la investigación en humanos si los resultados se verifican rigurosamente. El punto crucial es la distribución de roles. Con pruebas de este tipo, OpenAI y otros grupos demuestran que la inteligencia artificial es cada vez más relevante en el trabajo matemático, pero First Proof también muestra que el punto de referencia más importante no es un logro individual espectacular. Lo fundamental es si un sistema proporciona periódicamente soluciones correctas, comprensibles y claramente documentadas. Precisamente por eso los mejores modelos siguen fallando con demasiada frecuencia.
Lo que revela el test de matemáticas sobre los avances de la inteligencia artificial
La nueva prueba de matemáticas también es relevante porque corrige una narrativa común sobre la inteligencia artificial. Cuando un modelo logra resultados impresionantes en tareas olímpicas individuales o en problemas famosos, rápidamente se hace evidente que la investigación matemática está al borde de la automatización total. La primera prueba muestra un panorama más sobrio. El progreso está claramente presente, pero está distribuido de manera desigual. Los modelos pueden ser muy eficaces en tareas individuales y fallar en otras debido a detalles aparentemente pequeños. Este modelo es típico de los modelos de lenguaje actuales, que procesan enormes cantidades de texto, código y representaciones matemáticas, pero carecen de intuición humana en el verdadero sentido de la palabra. Generan soluciones candidatas y evalúan probabilidades, mientras que los matemáticos examinan conceptos, lagunas de evidencia y limitaciones metodológicas en un contexto técnico más profundo.
El descubrimiento sigue siendo valioso para el desarrollo tecnológico. Muestra qué tipo de sistemas de IA se necesitarán en el futuro: no solo modelos de lenguaje más amplios, sino herramientas que examinen formalmente la evidencia, atribuyan correctamente las fuentes y detecten errores tempranamente. En la investigación matemática, esto podría conducir a un modelo funcional en el que la inteligencia artificial proporcione diseños rápidos, los sistemas de prueba formales verifiquen la coherencia lógica y los matemáticos humanos clasifiquen el significado científico real. La prueba de matemáticas no proporciona una afirmación sencilla basada en el modelo hombre-máquina. Muestra con más detalle dónde la máquina es fuerte y dónde las personas siguen siendo indispensables. Precisamente por eso la Primera Prueba es una noticia importante para la investigación de la IA: la brecha se está cerrando, pero no está desapareciendo cuando la verdad matemática debe demostrarse plenamente.
La mayoría de los viajes de camiones a Alemania pueden realizarse eléctricamente
El recubrimiento hace que los módulos solares en los desiertos
La casa de madera más alta del mundo está en construcción en los Estados Unidos.
SUVS & CO. – El capó se está volviendo más alto y, por lo tanto, pone en peligro a los peatones

