¿Cómo mejora la IA el rendimiento, pero distorsiona la percepción de nuestras habilidades?

Una investigación reciente revela que, si bien el uso de inteligencia artificial (IA) para completar tareas mejora el desempeño de una persona, simultáneamente distorsiona su capacidad para evaluar dicho desempeño con precisión. Los hallazgos sugieren que los usuarios de herramientas como ChatGPT obtienen puntuaciones más altas en pruebas de razonamiento lógico en comparación con quienes trabajan sin ayuda, pero subestiman consistentemente su éxito en un margen considerable.

Este patrón indica que la asistencia de la IA podría desvincular la percepción de competencia de los resultados reales, generando un estado de confianza inflada. La investigación fue publicada en la revista científica Computers in Human Behavior.

El auge de la IA y el desafío metacognitivo

Científicos y psicólogos han centrado cada vez más su atención en cómo la cognición humana se transforma al ser potenciada por la tecnología. A medida que los sistemas de IA generativa se vuelven comunes en entornos profesionales y educativos, resulta crucial comprender cómo estas herramientas influyen en la metacognición. Esta se refiere a la habilidad de un individuo para monitorear y regular sus propios procesos de pensamiento, permitiéndonos saber cuándo es probable que estemos en lo correcto y cuándo podríamos estar cometiendo un error.

Indagaciones psicológicas previas han establecido que los seres humanos, en general, enfrentan dificultades con la autoevaluación. El conocido efecto Dunning-Kruger describe cómo las personas con habilidades limitadas tienden a sobrestimar su competencia, mientras que los individuos muy capacitados suelen subestimar sus capacidades.

Los autores de la investigación actual buscaron determinar si este patrón se mantiene al colaborar con la IA. Su objetivo era comprender si la IA actúa como un ecualizador que corrige estos sesgos o si, por el contrario, introduce nuevas complicaciones en la forma en que las personas evalúan su trabajo.

Explorando la autoevaluación asistida por IA

Para investigar estas cuestiones, el equipo de investigación diseñó dos estudios enfocados en tareas de razonamiento lógico. En la primera aproximación, se reclutó a 246 participantes de Estados Unidos.

Se les solicitó completar 20 problemas de razonamiento lógico extraídos del examen de admisión a la facultad de derecho (LSAT). Los investigadores proporcionaron a los participantes una interfaz web especializada, la cual presentaba las preguntas a un lado y una ventana de interacción con ChatGPT al otro.

Se exigió a los participantes interactuar con la IA al menos una vez por pregunta. Podían solicitarle a la IA que resolviera el problema o que explicara la lógica detrás de la solución. Tras enviar sus respuestas, los participantes estimaron cuántas de las 20 preguntas creían haber respondido correctamente y calificaron su confianza en una escala específica para cada decisión individual.

Los resultados iniciales mostraron una clara mejora en el desempeño objetivo. En promedio, los participantes que utilizaron ChatGPT obtuvieron aproximadamente tres puntos más que un grupo de control histórico de personas que realizaron la misma prueba sin asistencia de IA. La herramienta facilitó la resolución de problemas que, de otro modo, probablemente habrían omitido.

La paradoja de la confianza inflada

A pesar de esta mejora en las puntuaciones, los participantes exhibieron una significativa sobreestimación. En promedio, el grupo estimó haber respondido unas 17 de 20 preguntas de forma correcta. En realidad, su puntuación media se acercó más a 13, lo que representa una brecha de cuatro puntos entre la percepción y la realidad.

Los datos sugieren que la asistencia fluida proporcionada por la IA creó una ilusión de competencia. El estudio también analizó la relación entre el conocimiento de la IA de un participante y su autoevaluación. Los investigadores midieron la “alfabetización en IA” utilizando una herramienta denominada Scale for the Assessment of Non-Experts’ AI Literacy.

Uno podría esperar que comprender el funcionamiento de la IA hiciera al usuario más escéptico o preciso en su juicio. Sin embargo, los hallazgos indicaron lo contrario: los participantes con un mayor entendimiento técnico de la IA tendieron a estar más confiados en sus respuestas, pero menos precisos al juzgar su desempeño real.

El efecto dunning-kruger y la uniformidad de la sobreestimación

Una importante contribución teórica de esta investigación se relaciona con el efecto Dunning-Kruger. En escenarios típicos sin IA, los datos mostrarían una pendiente pronunciada: los de bajo rendimiento se sobrestiman enormemente, mientras que los de alto rendimiento no lo hacen.

Cuando los participantes utilizaron IA, este efecto desapareció. La “uniformidad” introducida por la tecnología significó que la sobreestimación se volvió generalizada, afectando por igual a quienes tenían un bajo y un alto rendimiento. Ambos grupos inflaron sus puntuaciones en cantidades similares.

Los investigadores observaron que el desempeño combinado del humano y la IA no superó al de la IA por sí sola. El sistema de IA, al realizar la prueba de forma autónoma, alcanzó una puntuación media superior a la de los humanos que utilizaban la IA. Esto sugiere un fallo en la sinergia, donde los humanos ocasionalmente aceptaron consejos erróneos de la IA o anularon consejos correctos, reduciendo el rendimiento general por debajo del potencial máximo de la máquina.

Para asegurar la robustez de estos hallazgos, los investigadores llevaron a cabo un segundo experimento con 452 participantes. Dividieron esta muestra en dos grupos: uno que realizó la tarea con asistencia de IA y otro que trabajó sin ayuda tecnológica.

En este segundo experimento, se introdujo un incentivo monetario para fomentar la precisión. Se informó a los participantes que recibirían una bonificación económica si su estimación de su puntuación coincidía con su puntaje real. El objetivo era descartar la posibilidad de que los participantes simplemente no se esforzaran lo suficiente en ser conscientes de sí mismos.

Los resultados del segundo experimento reflejaron los del primero. El incentivo monetario no corrigió el sesgo de sobreestimación. El grupo que usó IA siguió obteniendo mejores resultados que el grupo sin ayuda, pero persisitió en sobrestimar sus puntuaciones.

El grupo no asistido mostró el patrón clásico del Dunning-Kruger, donde los participantes menos hábiles exhibieron la mayor discrepancia. El grupo de IA, una vez más, mostró un sesgo uniforme, confirmando que la tecnología cambia fundamentalmente la percepción de competencia de los usuarios.

La sensibilidad metacognitiva y la pasividad del usuario

El estudio también empleó una medida llamada “Área Bajo la Curva” (AUC) para evaluar la sensibilidad metacognitiva. Esta métrica determina si una persona está más segura cuando acierta que cuando se equivoca. Idealmente, uno debería sentirse inseguro al cometer un error.

Los datos mostraron que los participantes tenían una baja sensibilidad metacognitiva. Su nivel de confianza era alto independientemente de si habían acertado o fallado en una pregunta específica.

La información cualitativa recopilada de los registros de chat ofreció contexto adicional. Los investigadores notaron que la mayoría de los participantes actuaron como receptores pasivos de información. Con frecuencia, copiaban y pegaban preguntas en el chat y aceptaban la salida de la IA sin un desafío o verificación significativos. Solo una pequeña fracción de los usuarios trataron la IA como un socio colaborativo o una herramienta para doble verificar su propia lógica.

Los investigadores discutieron varias posibles explicaciones para estos resultados. Una hipótesis es la “ilusión de profundidad explicativa”. Cuando una IA proporciona una explicación fluida, articulada e instantánea, puede engañar al cerebro haciéndole creer que la información ha sido procesada y comprendida más profundamente de lo que realmente es.

La facilidad para obtener la respuesta reduce la lucha cognitiva normalmente requerida para resolver acertijos lógicos, lo que a su vez atenúa las señales internas que advierten a una persona sobre su posible error.

Como en toda investigación, existen consideraciones importantes. El primer estudio utilizó un grupo de comparación histórico en lugar de un grupo de control simultáneo, aunque el segundo estudio corrigió esto. Adicionalmente, la tarea se limitó a preguntas de razonamiento lógico del LSAT. Es posible que diferentes tipos de tareas, como la escritura creativa o la codificación, produzcan patrones metacognitivos distintos.

El estudio también se basó en una versión específica de ChatGPT. A medida que estos modelos evolucionan y se vuelven más precisos, la dinámica entre humano y máquina podría cambiar. Los investigadores también señalaron que a los participantes se les exigió usar la IA, lo cual podría diferir de un escenario del mundo real donde un usuario elige cuándo consultar la herramienta.

Se sugirieron direcciones futuras de investigación para abordar estas lagunas. Los investigadores recomiendan explorar cambios de diseño que pudieran forzar a los usuarios a interactuar de manera más crítica. Por ejemplo, una interfaz podría requerir que un usuario explique la lógica de la IA de vuelta al sistema antes de aceptar una respuesta.

También se necesitan estudios a largo plazo para determinar si esta sobreconfianza disminuye a medida que los usuarios adquieren más experiencia con las limitaciones de los grandes modelos lingüísticos.

Fuentes y recursos de información

Fernandes, D., Villa, S., Nicholls, S., Haavisto, O., Buschek, D., Schmidt, A., Kosch, T., Shen, C., & Welsch, R. (2026). AI makes you smarter but none the wiser: The disconnect between performance and metacognition. Computers in Human Behavior, 175, 108779. DOI: 10.1016/j.chb.2025.108779