
IA admite cuando no sabe: OpenAI diseña una evaluación honesta
¿Y si preguntar ‘no lo sé’ fuera más valioso que una respuesta inventada?
IA admite cuando no sabe: esta innovadora propuesta de OpenAI
IA admite cuando no sabe es una propuesta revolucionaria que plantea un cambio profundo en cómo evaluamos la inteligencia artificial. OpenAI, junto a Georgia Tech, ha identificado que las “alucinaciones” —esas respuestas falsas pero confiadas— no provienen de fallas técnicas, sino de cómo entrenamos y puntuamos a los modelos.
En su estudio publicado el 4 de septiembre de 2025, los investigadores demostraron que incluso los modelos más avanzados como GPT-5, o3 y o4-mini siguen generando información errónea con alta confianza, debido a incentivos mal alineados que premian las conjeturas sobre la honestidad. Con tasas de alucinación del 33 % y 48 % en esos modelos, el problema queda claro: el sistema de puntuación actual empuja a “adivinar” en lugar de admitir incertidumbre.
¿Por qué ocurre esto?
El entrenamiento actual recompensa las respuestas incorrectas casi tanto como las correctas, mientras que “decir no lo sé” dura cero puntos—igual que un error. Esto crea una presión que incentiva respuestas inventadas. Además, los modelos rellenan “lagunas de conocimiento” —datos muy poco frecuentes o únicos en el entrenamiento— con respuestas fabricadas.
La solución propuesta
OpenAI sugiere reconfigurar los sistemas de evaluación para que se premie la honestidad. Por ejemplo:
- +1 punto por respuesta correcta
- –2 puntos por respuesta incorrecta
- 0 puntos por admitir “no lo sé”, solo responder si hay más del 75 % de confianza
Este diseño, similar a los exámenes estándar que penalizan respuestas incorrectas, incentiva abstenerse cuando hay poca certeza.
Resultados preliminares
Modelos que se abstienen 52 % de las veces cometen significativamente menos errores que aquellos que solo se abstienen el 1 % del tiempo, incluso si su precisión general parece menor en métricas tradicionales.
¿Un reto para toda la industria?
La propuesta no busca mejorar algoritmos, sino redefinir cómo medimos la “éxito” de la inteligencia artificial. OpenAI lo califica como un “desafío socio-técnico”, un llamado a toda la industria a repensar los estándares de evaluación.





