¿Cómo afecta la falta de orientación experta a los diagnósticos de chatbots en salud mental?

La falta de comprensión clínica en modelos de lenguaje entrenados con datos de internet eleva el riesgo de diagnósticos inexactos.

¿Cómo afecta la falta de orientación experta a los diagnósticos de chatbots en salud mental?

La historia reciente de la tecnología en salud conductual se enfrenta a un obstáculo persistente: el procesamiento de datos no estructurados, como notas clínicas y transcripciones de entrevistas. Si bien los Modelos de Lenguaje Grande (LLMs) prometen cerrar esta brecha, su aplicación en psiquiatría clínica sigue siendo controvertida debido al riesgo de generar respuestas inexactas o potencialmente dañinas cuando operan sin filtros.

El problema actual no es la capacidad de la IA para generar texto, sino su capacidad para razonar clínicamente. En este contexto, Karthik Sarma, Kaitlin Hanss y colaboradores, presentan una investigación crucial que evalúa si la integración de estructuras de razonamiento derivadas de expertos humanos —específicamente árboles de decisión— puede corregir las tendencias de los modelos base hacia el error diagnóstico. Este estudio llega en un momento crítico, donde la asistencia clínica mediante IA busca pasar de la novedad tecnológica a la utilidad clínica segura.

Precisión vs. Sensibilidad

La investigación se centró en comparar dos estrategias de prompting (instrucciones a la IA): un enfoque directo "base" y un enfoque guiado por árboles de decisión clínica. Los resultados obtenidos por Sarma arrojan luz sobre una compensación técnica vital para la práctica psicológica:

  • Reducción drástica del sobrediagnóstico: El hallazgo más significativo fue que integrar el razonamiento experto mediante árboles de decisión mejoró el rendimiento general (estadístico F1) al suprimir el sobrediagnóstico.
  • Mejora del Valor Predictivo Positivo (VPP): Al utilizar el modelo más avanzado, GPT-4o, con instrucciones directas, el VPP fue de apenas un 40.4%. Sin embargo, al implementar los árboles de decisión refinados, el VPP aumentó significativamente al 65.3%.
  • El compromiso de la sensibilidad: Como es habitual al aumentar el umbral de exigencia para un diagnóstico positivo, la sensibilidad (capacidad de detectar verdaderos positivos) disminuyó del 76.7% (prompt directo) al 70.9% (árboles de decisión).
  • Evolución entre modelos: El equipo observó que el salto cualitativo más grande en el rendimiento (puntuación F1) ocurrió entre las versiones GPT-3.5 y GPT-4, sugiriendo que la capacidad de razonamiento de los modelos base es un factor limitante que está mejorando generacionalmente.

Para garantizar la validez de los resultados, Sarma y su equipo diseñaron un experimento evaluativo riguroso utilizando viñetas clínicas estandarizadas.

El estudio seleccionó 93 casos clínicos del libro DSM-5-TR Clinical Cases (Barnhill, 2023), dividiéndolos estratificadamente en conjuntos de entrenamiento (38 casos) y prueba (55 casos). Se excluyeron categorías diagnósticas que no contaban con cobertura en los manuales de referencia seleccionados (como disfunciones sexuales o trastornos de la personalidad).

Los investigadores no confiaron en el "conocimiento general" de la IA. En su lugar, alimentaron el sistema con árboles de decisión diagnóstica extraídos del DSM-5-TR Handbook of Differential Diagnosis (First, 2024), refinados específicamente para su uso en LLMs. Se evaluaron tres iteraciones de la familia GPT de OpenAI (GPT-3.5, GPT-4 y GPT-4o).

Es imperativo analizar estos resultados con honestidad intelectual. El estudio presenta limitaciones claras:

  1. Origen de los datos: Las viñetas provienen de un libro de casos de la APA (Barnhill, 2023), material que podría haber estado presente en el entrenamiento original de los modelos GPT, otorgando una ventaja artificial.
  2. Efecto de espectro: La muestra tenía una "alta prevalencia" (todos los casos tenían patología). Esto limita la generalización de los resultados a poblaciones de baja prevalencia o tamizaje general.
  3. Falta de brazo humano: La ausencia de un grupo de control humano impide comparar el rendimiento de la IA con la variabilidad conocida entre evaluadores clínicos humanos.

Aumentar, no reemplazar

El estudio dirigido por Sarma subraya una premisa fundamental para el futuro de la psicometría y el diagnóstico asistido: la IA generativa por sí sola es insuficiente para la práctica clínica rigurosa.

La integración de estructuras de conocimiento experto (como los protocolos de First, 2024) no solo mejora la métrica estadística, sino que aporta una capa de explicabilidad y confianza necesaria para los Sistemas de Soporte a la Decisión Clínica (CDS).

La implicación práctica para los psicólogos es clara: los modelos de lenguaje no deben verse como oráculos diagnósticos autónomos, sino como procesadores de información que requieren arquitecturas lógicas diseñadas por humanos para funcionar correctamente. El futuro apunta a sistemas híbridos donde la IA procesa el texto no estructurado bajo la estricta supervisión de árboles de decisión validados clínicamente, reduciendo el ruido y permitiendo al profesional centrarse en el juicio clínico final.

Fuentes y recursos de información

Sarma, K., Hanss, K., Halls, A., Krystal, A., Becker, D., Glowinski, A., & Butte, A. (2026). Integrating expert knowledge into large language models improves performance for psychiatric reasoning and diagnosis. Psychiatry Research, 355, 116844. DOI: 10.1016/j.psychres.2025.116844