¿Qué tan confiables son los detectores de inteligencia artificial en la práctica?

¿Qué tan confiables son los detectores de inteligencia artificial en la práctica?

Para poder verificar si un texto ha sido creado automáticamente, se utilizan detectores de IA. Estos analizan el material y proporcionan un porcentaje que indica qué parte ha sido creada por un humano y qué parte ha sido generada. Hoy en día existen muchas herramientas de este tipo, pero la cuestión es que dichas herramientas garanticen una alta precisión en el análisis, excluyendo resultados falsos positivos y falsos negativos. En este artículo analizaremos hasta qué punto estos detectores pueden ser fiables para que podamos confiar en ellos a la hora de verificar el contenido textual.

¿Qué analizan exactamente los detectores modernos?

Queremos empezar por lo que pueden analizar los detectores modernos de inteligencia artificial. A continuación, presentamos una lista de sus capacidades:

  • variabilidad de la longitud de las frases/estructura del texto: los seres humanos tienden a utilizar frases tanto cortas como largas, mientras que la IA tiende a proporcionar frases de longitud aproximadamente igual y con una estructura estereotipada;
  • grado de repetición léxica y sintáctica: la IA funciona según patrones preestablecidos, mientras que un autor real utilizará modismos, retórica, sinónimos, alegorías y también puede cometer errores estilísticos;
  • semántica: en este caso, se analiza la coherencia de las transiciones entre frases y párrafos. La IA no suele prever transiciones lógicas, y el contexto puede no corresponder bien con el título de la sección;
  • estadística: se analiza la distribución de palabras clave y signos de puntuación. Un autor real puede utilizar todo esto de forma desigual;
  • estilística: cada autor tiene su propio estilo de expresión, por lo que se compararán la construcción de las frases, los patrones y la frecuencia de los pronombres.

Este es el tipo de aspectos que puede comprobar un detector de IA, como https://smodin.io/es/detector-de-contenido-de-ia, que actualmente es el más solicitado por la mayoría de los usuarios.

Errores frecuentes en el reconocimiento de textos por IA

Dependiendo del grado de eficacia del detector de IA, este puede cometer diferentes errores al analizar el texto. A continuación, se enumeran los errores que se cometen con más frecuencia:

  • resultado falso positivo: a veces, debido a ciertas limitaciones, el autor real ha creado un texto que será reconocido como generado. Esto es habitual en temas como la jurisprudencia, la temática técnica y el material académico;
  • falsos negativos: a menudo, una persona utiliza la IA, pero luego edita el texto final para que no sea reconocido, es decir, lo humaniza mediante ciertas técnicas;
  • si el idioma no es muy utilizado, al detector le resultará difícil trabajar con él debido a la debilidad del modelo;
  • se ignora el análisis semántico: solo se realiza una verificación superficial de los signos evidentes, que pueden no estar presentes si el texto ha sido editado por un humano.

Por lo tanto, dependiendo de muchos factores y del grado de eficacia del detector de IA, la verificación del texto puede no ser muy precisa.

El impacto de la «humanización» del texto en los resultados de la verificación

La humanización es una técnica especial que usan los autores para que el detector de IA no reconozca el texto generado. Esto es lo que incluye:

  • ajustar la longitud de las oraciones: serán de diferentes longitudes, no todas iguales;
  • reformulación máxima de las frases, pero de manera que se conserve completamente el significado implícito en ellas;
  • Inclusión de frases con pronombres: «Me gustaría proponerle que considere...», «Me parece que en este momento...».
  • adición de frases coloquiales que no son propias del texto generado: «vaya...», «en general, han entendido el mensaje general y ahora pasemos a los detalles», «y saben, hay algo más que me gustaría decir...»;
  • añadir al texto expresiones idiomáticas, frases con construcciones no estándar y frases alegóricas.

Todas estas técnicas confundirán al detector de IA y, si la corrección del texto generado se ha realizado con la máxima calidad, será extremadamente difícil reconocerlo.

Por qué diferentes detectores dan diferentes evaluaciones

Cada herramienta funciona según su propio modelo y grado de sensibilidad, por lo que proporcionan resultados diferentes:

  • la base de ejemplos en la que se basa el detector al comparar el texto analizado con las variantes que contiene es diferente;
  • se utilizan diversos algoritmos/principios de reconocimiento, cuyo enfoque puede variar: sintaxis, estilo, léxico, semántica o varios factores a la vez;
  • grado de detección: algunos detectores reconocen el texto con una alta probabilidad de que haya sido creado automáticamente, mientras que otros lo hacen con una probabilidad baja o indeterminada;
  • modelo lingüístico: la eficacia depende del idioma en el que se comprueba el texto, ya que hay detectores que incorporan modelos muy débiles de determinados idiomas;
  • frecuencia de actualización de la base con la que se realiza la comparación: cuanto más frecuente sea, mayor será la eficacia de la comprobación analítica.

Por lo tanto, tantos detectores, tantos resultados: por eso, la verificación del mismo texto con diferentes detectores puede dar resultados diferentes.

Dónde funcionan bien los detectores y dónde fallan

Ahora queremos llamar su atención sobre los casos en los que los detectores muestran buenos resultados y en los que muestran malos. Y para mayor comodidad, elaboraremos una tabla.

Buenos resultadosMalos resultados
Con patrones, contenido de texto estándar, frases construidas de forma monótonaTexto muy estilizado con un enfoque creativo
Material científico-técnicoPresencia en el texto de gran cantidad de jerga y expresiones léxicas ricas
Texto en inglésEl material se presenta en un lenguaje poco común con frases muy expresivas propias de la cultura/nacionalidad
Respuestas estándar brevesCon texto generado que ha sido completamente editado/humanizado
Material creado automáticamente, pero sin corregir 

Como puede ver, la eficacia del detector de IA depende del tipo de material que se analice.

Conclusiones sobre la precisión práctica de las herramientas

En conclusión, es importante señalar que los detectores de IA son extremadamente necesarios, pero no se puede confiar en ellos con una probabilidad del 100 % de que el análisis sea correcto. Este dependerá de muchos factores que influirán en la precisión de los resultados proporcionados. Por lo tanto, serán importantes el modelo y el algoritmo de funcionamiento del detector, el idioma del texto, el estilo de redacción, la estructura de las frases, la presencia o ausencia de edición, y muchos otros factores.