La música creada por inteligencia artificial provoca respuestas fisiológicas únicas en las personas

Un reciente estudio exploró si la música generada por inteligencia artificial (IA) puede ser tan impactante emocionalmente como la música compuesta por humanos al combinarse con videos. Nikolaj Fišer y sus colegas descubrieron que, aunque la música de IA puede evocar sentimientos similares en los espectadores, también provoca diferentes respuestas fisiológicas vinculadas a la atención y la excitación. La investigación fue publicada en la revista PLOS One.

El auge de la IA generativa y la percepción de la creatividad

El rápido avance de la inteligencia artificial generativa ha impulsado debates sobre su papel en campos creativos como la música y las artes visuales. Aunque estas herramientas se utilizan cada vez más en la producción de medios, el público en general a menudo expresa escepticismo, considerando la creatividad como una cualidad exclusivamente humana.

Fišer y su equipo notaron que la capacidad de la IA para transmitir emoción ha sido en gran medida ignorada tanto en su desarrollo como en la investigación académica. Por ello, diseñaron una investigación para determinar si la música creada por nuevas herramientas de IA podría producir el mismo efecto emocional que la música creada por humanos dentro de un entorno audiovisual.

Comparando música humana e inteligencia artificial

Para llevar a cabo su investigación, los investigadores reclutaron a 88 participantes y los asignaron aleatoriamente a uno de tres grupos. Cada grupo vio los mismos 14 videoclips cortos, recopilados de una plataforma en línea y a los que se les eliminó el audio original. Los videos eran diversos en contenido, mostrando desde documentales de naturaleza y escenas de suspense hasta animaciones abstractas y anuncios.

La principal diferencia entre los grupos fue el tipo de banda sonora musical que acompañaba a los videos. El primer grupo escuchó música creada por humanos, seleccionada de una base de datos de bandas sonoras emocionales de películas compuestas por personas. Para garantizar que la música se ajustara bien a cada video, los investigadores realizaron primero una prueba preliminar con un pequeño grupo de personas que vieron los videos silenciosos y calificaron su contenido emocional.

Usando estas calificaciones, un algoritmo identificó la pista compuesta por humanos que mejor coincidía de la base de datos para cada video. El segundo grupo escuchó música generada por un sistema de IA utilizando prompts sofisticados y detallados. Estos prompts se basaron en palabras clave que las personas en la prueba preliminar usaron para describir los videos, como "horror", "suspense" o "romántico".

Los investigadores utilizaron un generador de música de IA llamado Stable Audio para crear estas pistas, instruyéndolo con descripciones detalladas de género, estado de ánimo e instrumentos para que coincidieran con el contenido del video. El tercer grupo escuchó música también creada por el mismo sistema de IA, pero esta vez utilizando prompts más simples y menos detallados. En lugar de palabras clave descriptivas, estos prompts se basaron en las calificaciones emocionales numéricas de la prueba preliminar, como el nivel de positividad o negatividad (valencia) y el nivel de excitación o calma (arousal).

Este método proporcionó a la IA datos emocionales, pero menos dirección creativa específica.

Durante el experimento, los participantes se sentaron en un laboratorio usando auriculares mientras se monitoreaban sus señales biológicas. Una cámara de seguimiento ocular midió la dilatación de la pupila y la frecuencia de parpadeo, y un dispositivo separado registró su respuesta galvánica de la piel, que se relaciona con los niveles de sudoración de la piel. Después de ver cada video con su banda sonora acompañante, los participantes respondieron preguntas sobre su estado emocional.

Calificaron cuán positivos o negativos se sentían, cuán excitados o tranquilos se sentían, cuán bien encajaba la música con el video y cuán familiar les sonaba la música.

Diferencias fisiológicas al escuchar música de IA

Los resultados de las mediciones biológicas revelaron varias diferencias entre las condiciones. Cuando los participantes escucharon cualquiera de las bandas sonoras generadas por IA, sus pupilas se dilataron más ampliamente en comparación con cuando escucharon música creada por humanos. Esto sugiere que la música de la IA puede haber requerido más esfuerzo mental para procesar o se percibió como más excitante.

Las frecuencias de parpadeo de los participantes también mostraron diferencias. El grupo que escuchó música de IA generada a partir de prompts detallados con palabras clave tuvo una frecuencia de parpadeo más alta que el grupo que escuchó música de IA a partir de prompts emocionales más simples. La frecuencia de parpadeo puede ser un indicador de carga cognitiva o atención.

La respuesta galvánica de la piel, una medida de excitación, también mostró una distinción. La música de prompts detallados de IA se asoció con un nivel más alto de impedancia de la piel, un estado vinculado a una menor excitación, en comparación tanto con la música creada por humanos como con la música de IA más simple.

Valencia emocional consistente, aumento de la excitación

Al analizar los sentimientos autoinformados de los participantes, los investigadores encontraron que la valencia emocional, o la calidad positiva o negativa de la emoción sentida, fue consistente en los tres grupos. Esto indica que la fuente de la música no cambió el carácter emocional fundamental de la experiencia. Sin embargo, los participantes informaron sentirse significativamente más excitados por ambos tipos de música generada por IA que por las partituras creadas por humanos.

Si bien el sentimiento general se mantuvo consistente, la música de IA tendió a ser más estimulante según los participantes.

Distinciones clave entre música humana e inteligencia artificial

El estudio también examinó cuán bien encajaba la música con las imágenes. Los participantes calificaron la música creada por IA a partir de prompts detallados con palabras clave como la más congruente con los videos. En contraste, cuando se les preguntó sobre la familiaridad, los participantes encontraron que la música creada por humanos era significativamente más familiar que cualquiera de las bandas sonoras generadas por IA.

Esto puede deberse a que los compositores humanos a menudo siguen convenciones musicales establecidas en la composición de bandas sonoras de películas que los oyentes reconocen, mientras que las pistas generadas por IA pueden haber sonado más novedosas o no convencionales.

El estudio tiene algunas limitaciones que los investigadores reconocen. La prueba preliminar utilizada para generar los prompts musicales involucró una pequeña muestra de solo diez personas, lo que puede no representar a una audiencia más amplia.

El experimento también se basó en un solo generador de música de IA, y dado que la tecnología está evolucionando rápidamente, los resultados podrían no aplicarse a sistemas más nuevos o diferentes. Debido a que cada participante estuvo expuesto a solo un tipo de música, el estudio no pudo comparar directamente las preferencias individuales entre las composiciones humanas y de IA.

Explorando el futuro de la música y la inteligencia artificial

Para futuras investigaciones, los científicos sugieren explorar estas preguntas con métodos más avanzados, como el uso de electroencefalografía para obtener una imagen más detallada de la actividad cerebral. También proponen comparar las respuestas de músicos profesionales con las de no músicos.

Un próximo paso en su trabajo implica colaborar con compositores profesionales para crear bandas sonoras originales hechas por humanos para una comparación más directa con la música generada por IA, en lugar de depender de una base de datos de partituras de películas existentes.

Fuentes y recursos de información

Fišer, N., Martín-Pascual, M., & Andreu-Sánchez, C. (2025). Emotional impact of AI-generated vs. human-composed music in audiovisual media: A biometric and self-report study. PLOS One, 20, (6), e0326498. DOI: 10.1371/journal.pone.0326498