¿Puede la IA convertir los pensamientos en palabras antes de que se formulen?

Algoritmos de lenguaje profundo mapean la actividad cerebral en semántica, permitiendo recrear descripciones de recuerdos y conceptos no verbalizados.

¿Puede la IA convertir los pensamientos en palabras antes de que se formulen?
Imagen de © Depositphotos.

Un nuevo estudio, publicado en Science Advances, revela un método innovador que transforma la actividad cerebral humana en texto coherente y descriptivo. Sorprendentemente, esto ocurre incluso cuando el cerebro no está procesando activamente el lenguaje. En lugar de decodificar directamente palabras o frases, el sistema interpreta las representaciones no verbales que preceden a la formulación de pensamientos en palabras.

Tomoyasu Horikawa, investigador distinguido en los Laboratorios de Ciencia de la Comunicación de NTT en Japón, empleó resonancia magnética funcional (RMf) y modelos avanzados de lenguaje para crear subtítulos en lenguaje natural. Dichos subtítulos no solo coincidían estrechamente con el contenido objetivo de los videos visualizados por los participantes, sino también con sus recuerdos subjetivos.

El desafío de interpretar el contenido interno de la mente

La investigación de Horikawa surgió de un reto persistente en neurociencia: cómo descodificar e interpretar la vasta y compleja actividad interna de la mente humana. Investigaciones previas habían logrado cierto éxito en relacionar la actividad cerebral con el lenguaje. Sin embargo, estos estudios a menudo dependían de que los participantes pensaran activamente en palabras, ya sea hablando, leyendo o escuchando.

Estas estrategias limitan el alcance de la decodificación, puesto que no todas las experiencias mentales son verbales. Además, no todos los individuos tienen el mismo acceso al lenguaje, sobre todo aquellos que padecen afecciones como la afasia.

Las imágenes visuales, los eventos y los conceptos abstractos frecuentemente forman parte del pensamiento humano, sin que se traduzcan inmediatamente en palabras. Estas representaciones mentales pueden ser ricas en detalles y estructura, incorporando relaciones entre objetos, acciones y entornos.

No obstante, la mayoría de los métodos de decodificación no logran capturar esta complejidad. Esto es especialmente cierto al depender de modelos que imitan estructuras lingüísticas existentes o bases de datos de descripciones elaboradas manualmente.

Una interfaz interpretativa para la actividad cerebral

El propósito de Horikawa era superar esta limitación mediante el desarrollo de un método capaz de interpretar representaciones mentales no verbales (aquellas formadas durante la percepción o la memoria) y convertirlas en texto coherente y significativo. El objetivo no era leer la mente de forma tradicional, sino establecer una interfaz interpretativa que refleje lo que el cerebro representa durante una experiencia. Horikawa afirmó:

"Durante mucho tiempo me ha fascinado cómo el cerebro genera y representa el contenido relacionado con nuestras experiencias conscientes subjetivas, como las imágenes mentales y los sueños. Creo que la tecnología de decodificación cerebral puede ayudarnos a investigar estas cuestiones, proporcionando interpretaciones claras e intuitivas de la información codificada en el cerebro."

"Por lo tanto, desarrollar métodos de decodificación más sofisticados podría avanzar en nuestra comprensión de las bases neurales de la experiencia consciente y, a largo plazo, ayudar a las personas cuyas dificultades podrían aliviarse o superarse mediante la lectura directa de información del cerebro. La idea de la subtitulación mental surgió de este esfuerzo: comprender mejor cómo tales representaciones internas pueden traducirse en lenguaje y compartirse de manera significativa."

El método de "*subtitulación mental*" de horikawa

El método diseñado por Horikawa, denominado "subtitulación mental", consta de dos pasos principales: primero, transformar la actividad cerebral en características semánticas utilizando un modelo de lenguaje profundo; y segundo, generar descripciones en lenguaje natural que se correspondan con esas características semánticas.

Seis participantes adultos, hablantes nativos de japonés con distintos niveles de dominio del inglés, participaron en el estudio. Se les mostraron miles de videoclips cortos que representaban una amplia gama de contenidos visuales, incluyendo objetos, acciones e interacciones sociales. Los videos eran mudos y se mostraban sin lenguaje que los acompañara.

Los escáneres de resonancia magnética funcional capturaron la actividad cerebral de los participantes tanto durante la visualización de los videos como durante el recuerdo mental posterior de los mismos clips.

Mapeando la actividad cerebral con características semánticas

Horikawa entrenó un conjunto de modelos de decodificación lineal para mapear patrones de actividad cerebral con características semánticas extraídas de los subtítulos escritos sobre cada video. Estas características semánticas se derivaron utilizando un modelo de lenguaje conocido como DeBERTa, diseñado para representar el significado del texto en un espacio de alta dimensión.

Tras aprender este mapeo, el decodificador se aplicó a nueva actividad cerebral tanto en condiciones de percepción como de recuerdo. Las características semánticas resultantes se utilizaron después para generar texto utilizando otro modelo de lenguaje (RoBERTa), optimizado para completar las palabras que faltan en una frase. A través de un proceso iterativo de adivinar, probar y reemplazar palabras, el sistema produjo gradualmente oraciones completas que reflejaban las representaciones decodificadas del cerebro.

Evaluando la precisión de las descripciones generadas

Las oraciones generadas se evaluaron de varias maneras. En primer lugar, se compararon con subtítulos escritos por humanos en cuanto a precisión y similitud, utilizando métricas estándar de evaluación del lenguaje natural como BLEU, ROUGE y BERTScore. Los resultados demostraron que las descripciones generadas por la máquina eran altamente discriminatorias: podían distinguir entre diferentes videos con gran fiabilidad, incluso entre 100 opciones.

Cuando se aplicó a la actividad cerebral de los participantes, el método de decodificación pudo identificar el video correcto con una precisión cercana al 50%, una mejora sustancial con respecto al 1% esperado por azar.

Es importante destacar que el método también generó descripciones de calidad a partir de la actividad cerebral durante la fase de recuerdo, aunque el rendimiento no fue tan alto como en el caso de la visualización directa. Esto indica que el método podría verbalizar experiencias recordadas sin necesidad de estímulos externos. En algunos casos, el decodificador funcionó bien incluso en instancias únicas de imágenes mentales.

"Cuando probé por primera vez el algoritmo de generación de texto después de idear el enfoque, me sorprendió genuinamente ver cómo el texto original correspondiente a las características semánticas extraídas se construía progresivamente, paso a paso, en una estructura coherente", dijo Horikawa. "Sentí como si estuviera escuchando la débil voz del cerebro filtrándose a través del ruido de los datos, lo que me hizo confiar en que el enfoque podría funcionar."

Capturando relaciones y contexto

Uno de los hallazgos clave es que estas descripciones incluían más que simples listas de objetos. Capturaban interacciones y relaciones, como quién hizo qué a quién, o cómo se organizaban los diferentes elementos en el espacio. Cuando se alteró el orden de las palabras de las frases generadas, su similitud con los subtítulos de referencia se redujo drásticamente, lo que demuestra que la estructura original transmitía un significado relacional, no solo vocabulario. Horikawa afirmó:

"Otro hallazgo impresionante provino del análisis neurocientífico que se muestra en la Figura 4E, donde examinamos cómo los decodificadores entrenados en la percepción se generalizaron a las imágenes mentales utilizando diferentes tipos de representaciones de características (visuales, visuosemánticas y semánticas)."

"Aunque esta tendencia se esperaba conceptualmente, observamos un gradiente notablemente claro de generalizabilidad a través de estos niveles, con representaciones semánticas que muestran la mayor capacidad para unir patrones neurales entre la percepción y el recuerdo."

El papel de las áreas no lingüísticas del cerebro

Horikawa también descubrió que se podían generar descripciones sin depender de la actividad en las áreas lingüísticas tradicionales del cerebro. Incluso cuando estas regiones fueron excluidas del análisis, el sistema aún produjo descripciones inteligibles y estructuradas. Esto sugiere que la información semántica significativa se distribuye a través de regiones cerebrales que procesan información visual y contextual, no solo el lenguaje.

Horikawa explicó:

"El estudio muestra que es posible generar texto coherente y significativo a partir de la actividad cerebral, no decodificando el lenguaje en sí, sino interpretando las representaciones no verbales que preceden al lenguaje."

"Esto puede sugerir que nuestros pensamientos están organizados de una manera que ya conlleva información estructural incluso antes de que los expresemos en palabras, ofreciendo una nueva ventana sobre cómo el cerebro transforma la experiencia en expresión."

"En el futuro, si podemos aprender a expresarnos más libremente o a interactuar con las máquinas directamente a través de nuestra propia actividad cerebral, como en las interfaces cerebro-máquina, es posible que podamos desbloquear más potencial del cerebro."

A pesar del prometedor enfoque que presenta, el estudio posee ciertas limitaciones. El tamaño de la muestra fue reducido, con solo seis participantes, todos los cuales se sometieron a un extenso entrenamiento y escaneo. No obstante, cada sujeto aportó muchas horas de datos, lo que ayudó a mejorar la fiabilidad del modelo de decodificación.

"Aunque nuestro estudio incluyó un número relativamente pequeño de participantes, cada uno aportó una cantidad sustancial de datos (unas 17 horas de escaneo cerebral), lo que nos permitió establecer efectos fuertes y fiables dentro de los individuos. Por ejemplo, el modelo logró alrededor del 50% de precisión en una tarea de identificación de video de 100 alternativas para cada participante (ver el material complementario), un rendimiento altamente fiable dada la dificultad del problema (azar = 1%)."

"Es importante destacar que estos sólidos efectos dentro del sujeto se observaron consistentemente en los seis participantes, lo que sugiere que los hallazgos son prácticamente significativos a pesar del número limitado de participantes."

Abriendo un nuevo potencial del cerebro

Otra limitación radica en la naturaleza de los estímulos. Los videos utilizados en el estudio reflejaban escenarios comunes del mundo real. No está claro si el método funcionaría igual de bien para conceptos abstractos, escenas atípicas o contenidos mentales muy personales como los sueños.

"Como nuestro método genera texto a partir de la actividad cerebral, puede ser malinterpretado como una forma de decodificación o reconstrucción del lenguaje. Sin embargo, en realidad no se trata de decodificar la información del lenguaje en el cerebro, sino más bien de una interpretación lingüística de las representaciones mentales no lingüísticas. Nuestro método aprovecha la naturaleza universal y versátil del lenguaje natural para proporcionar interpretaciones inteligibles de la información representada en el cerebro."

También existen preocupaciones sobre la privacidad. La idea de interpretar el contenido mental plantea cuestiones éticas sobre la autonomía y el consentimiento. Si bien el método actual requiere grandes cantidades de datos de personas cooperativas, los avances futuros podrían reducir esta barrera.

"Algunas personas pueden preocuparse de que esta tecnología plantee riesgos para la privacidad mental. En realidad, el enfoque actual no puede leer fácilmente los pensamientos privados de una persona: requiere una recopilación sustancial de datos de participantes muy cooperativos, y su precisión sigue siendo limitada, con resultados afectados por sesgos y ruido. En la actualidad, los riesgos no parecen ser altos, aunque las implicaciones éticas y sociales deben seguir siendo objeto de un debate cuidadoso a medida que la tecnología se desarrolla."

"Lo importante no es solo desarrollar estas tecnologías de manera responsable, sino también reflexionar sobre cómo manejamos la información decodificada de la actividad cerebral. Debemos evitar tratar inmediatamente los resultados como los 'verdaderos pensamientos' de alguien y, en cambio, asegurar que los individuos conserven la autonomía para decidir si deben considerar o presentar tales resultados como sus propias intenciones, y cómo deben hacerlo."

El futuro de la decodificación del pensamiento

De cara al futuro, el enfoque podría ampliarse a otros tipos de contenido mental, como experiencias auditivas, emociones o narrativas internas. También podría ayudar a diseñar sistemas de comunicación para personas que no pueden usar el habla o la escritura. Al tratar el lenguaje como un puente más que como la fuente, el método abre nuevas posibilidades para explorar cómo el cerebro genera y organiza el significado antes de que se exprese.

Horikawa concluye:

"Mi objetivo a largo plazo es comprender los mecanismos neuronales que subyacen a nuestras experiencias conscientes subjetivas y ayudar a los humanos a desarrollar más plenamente el potencial del cerebro a través de los avances científicos y tecnológicos. Planeamos continuar mejorando los enfoques de decodificación cerebral para acceder a la información codificada en el cerebro con mayor precisión y detalle, al tiempo que garantizamos que estas tecnologías sigan siendo valiosas científicamente para comprender el cerebro y beneficiosas para las personas."

Fuentes y recursos de información

Horikawa, T. (2025). Mind captioning: Evolving descriptive text of mental content from human brain activity. Science Advances, 11, (45). DOI: 10.1126/sciadv.adw1464

Resume o analiza con IA