Ante la incertidumbre de las respuestas, los modelos se arriesgan a inventar… ¿Debemos preocuparnos?
Un examen estandarizado revela un dilema conocido: frente a una pregunta en la que se desconoce por completo la respuesta, resulta mejor marcar cualquier opción que dejar el espacio vacío. La probabilidad de acertar aun no teniendo la más mínima idea es latente. Esa lógica escolar, aparentemente inocua, se traslada a los sistemas de inteligencia artificial que hoy median búsquedas, redacciones y diagnósticos.
Es decir, cuando enfrentan una consulta para la que no cuentan con evidencia suficiente, pasan al siguiente nivel en el que deciden elaborar una conjetura y presentarla con suficiente confianza. Dicha problemática recibe entre los especialistas el nombre de “alucinación”, una categoría que combina aparente certeza y falsedad convincente.
El fenómeno fue abordado en el estudio publicado la semana pasada titulado “Why Language Models Hallucinate”, elaborado por algunos de los protagonistas del equipo de OpenAI, creadores de ChatGPT. Su investigación muestra que estas respuestas inventadas no son accidentes aislados, sino consecuencias directas de los incentivos que guían el entrenamiento y la evaluación de la tecnología.
El análisis se apoya en la teoría del aprendizaje computacional en el que producir una respuesta “válida” está por encima de calificarla entre verdad y error. Cuando los datos incluyen hechos singulares -como una fecha mencionada una sola vez en millones de documentos-, la predicción se debilita estadísticamente. Los autores denominan a este mecanismo “tasa de singleton”: a mayor proporción de ejemplos únicos, mayor la probabilidad de alucinaciones. Incluso en escenarios con datos limpios, la estadística impulsa a los modelos hacia la conjetura.
El posentrenamiento intensifica esta dinámica. Las técnicas de ajuste con retroalimentación humana o automatizada consolidan la costumbre de responder siempre. La explicación está en los incentivos. La mayoría emplea métricas binarias: correcto o incorrecto. La abstención no aporta puntaje. En ese marco, un sistema que se “arriesga” constantemente obtiene mejores resultados que otro que comunica incertidumbre. La consecuencia es un sesgo estructural que privilegia la apariencia de certeza y deja fuera la posibilidad de “no saber”.
Las implicaciones son claras. Un modelo puede atribuir títulos inexistentes a investigadores, alterar fechas históricas o citar fuentes inexistentes con datos inventados. Sin embargo, la forma en que lo hará será transmitiendo confianza y seguridad frente al usuario. Lo que parece una verdad sólida puede provenir de una inferencia sin sustento estadístico.
El estudio propone un camino distinto. Cambiar las métricas de evaluación para transformar la conducta de los modelos. De la misma manera que algunos exámenes humanos restan puntos por respuestas incorrectas, los benchmarks de IA podrían otorgar valor a la abstención razonada. Incluir umbrales de confianza explícitos en las instrucciones convertiría en estrategia óptima responder sólo cuando la probabilidad de acierto supere un nivel definido. Los autores llaman a esta práctica “calibración conductual” y la presentan como vía para alinear las métricas con la fiabilidad.
El desafío parece, además de técnico, también cultural. Nos hemos habituado a sistemas que responden con fluidez inmediata y tono categórico. La sociedad interpreta esa seguridad como sinónimo de inteligencia. Sin embargo, la verdadera innovación puede residir en modelos que integren la humildad estadística como parte de su desempeño. Callar cuando la evidencia resulte insuficiente constituye una forma de integridad más valiosa que la ilusión de una herramienta todopoderosa que promueven ciertos sectores.
Si bien es cierto que más datos y mayor poder de cómputo amplían sus capacidades, la confianza pública depende de incentivos distintos. Mientras las evaluaciones premien la adivinanza, las alucinaciones permanecerán. La alternativa es clara: construir sistemas capaces de decir “no sé” con tanta naturalidad como afirman lo que sí saben. Esa frase, lejos de mostrar vacío, marcaría la madurez de una inteligencia artificial realmente confiable.