Nuevas Revelaciones de Apple: ¿Son los Modelos de Razonamiento Realmente Inteligentes?

18 junio 2025

Un estudio reveló que los modelos de IA avanzados funcionan bien en tareas simples, pero fallan al enfrentar desafíos lógicos exigentes

Image

Un nuevo estudio de Apple genera dudas en la comunidad sobre el verdadero alcance de la inteligencia artificial avanzada. El informe se enfocó en los llamados Large Reasoning Models (LRM), sistemas creados para resolver problemas mediante el razonamiento lógico.

Sin embargo, los resultados mostraron que estas herramientas tienen serias dificultades cuando se enfrentan a desafíos más complicados.

La investigación evaluó modelos populares como OpenAI o1 y o3, DeepSeek R1, Claude 3.7 Sonnet Thinking y Google Gemini Flash Thinking.

Aunque estos sistemas funcionan bien con tareas simples como operaciones matemáticas básicas o programación sencilla, su desempeño cae cuando se les pide resolver problemas lógicos más difíciles.

Los investigadores usaron juegos conocidos como la Torre de Hanoi, el clásico cruce del río y el salto de fichas de damas, para poner a prueba estos modelos.

En versiones fáciles, los modelos ofrecieron respuestas correctas. Pero al aumentar el nivel de dificultad, comenzaron a fallar de forma constante. Por ejemplo, Claude 3.7 Sonnet y DeepSeek R1 no lograron resolver una Torre de Hanoi con solo cinco discos, algo que demostró sus límites.

IA: resultados del estudio de Apple

Apple identificó tres niveles de dificultad. En los problemas simples, los modelos de lenguaje tradicionales (LLM) mostraron mejor rendimiento que los LRM.

En los intermedios, los LRM fueron un poco más efectivos al generar explicaciones más largas, pero en desafíos realmente difíciles, todos los sistemas fallaron por completo.

Otro hallazgo importante fue un comportamiento llamado overthinking (pensamiento excesivo). Los modelos tienden a extenderse innecesariamente, dando respuestas largas o probando muchas opciones equivocadas, incluso cuando ya encontraron la solución correcta.

Esto no solo desperdicia recursos computacionales, sino que también muestra una falta de control en su forma de razonar. En definitiva, los investigadores concluyeron que aunque estos modelos son capaces de mostrar cierto razonamiento, no pueden igualar el pensamiento humano en situaciones complejas.

Gary Marcus, experto en IA, explicó que incluso las personas encuentran difíciles algunos de estos desafíos, como resolver una Torre de Hanoi con ocho discos. Aun así, destacó que los algoritmos clásicos siguen siendo más confiables para este tipo de tareas.

El estudio también aclaró que los resultados están limitados por el tipo de pruebas utilizadas y el acceso restringido a algunos modelos, lo que impide conocer cómo funcionan internamente.

A pesar de sus avances, la IA actual aún no puede razonar de forma general y confiable. Mientras empresas como Google o Samsung apuestan por integrar estas tecnologías en sus productos, Apple se muestra más prudente.

Este informe abre el debate sobre los límites reales de la IA y muestra que, aunque evolucionó, todavía queda camino por recorrer.

Fuente: iProup

Image
Get in touch
Whatever your question our global team will point you in the right direction
Start the conversation
Image

Sign up for HLB insights newsletters