Un reciente estudio científico confirmó lo que parecía imposible hace apenas unos años: una inteligencia artificial llamada GPT-4.5 desarrollada por OpenAI superó el famoso Test de Turing, engañando a evaluadores humanos que la confundieron con personas reales en el 73% de los casos. Esta investigación, pendiente de revisión por pares, representa un punto de inflexión en el desarrollo de sistemas capaces de imitar el comportamiento humano.

La evaluación realizada por investigadores del Laboratorio de Lenguaje y Cognición de la Universidad de California en San Diego puso a prueba varios modelos mediante una versión de tres partes del experimento. Cameron Jones, autor principal del estudio, explicó en redes sociales: "Las personas no distinguieron mejor que el azar entre humanos y GPT-4.5 o LLaMa (con indicaciones de personalidad). ¡Y el 4.5 fue juzgado como humano con mayor frecuencia que los propios humanos!".

Las claves detrás del éxito de la inteligencia artificial

El método empleado en la investigación consistió en asignar aleatoriamente a casi 300 participantes diferentes roles. Algunos actuaron como interrogadores mientras otros fungieron como "testigos" junto con un sistema de inteligencia artificial. Durante ocho rondas, los interrogadores mantuvieron conversaciones simultáneas sin saber quién era humano y quién máquina.

Un factor determinante en los resultados fue la forma de programar a los sistemas. Cuando los modelos recibieron instrucciones básicas sin adoptar una personalidad específica, su tasa de éxito cayó drásticamente. GPT-4.5 pasó de un convincente 73% a apenas un 36% cuando no se le asignó una identidad definida.

Inteligencia Artificial (2).jpg
Un estudio marcó que la IA es cada vez más convincente.

Un estudio marcó que la IA es cada vez más convincente.

La diferencia resultó aún más marcada con GPT-4o, el modelo que actualmente potencia ChatGPT, que solo alcanzó un 21% de efectividad sin personalidad asignada. Curiosamente, ELIZA, un antiguo chatbot creado hace ochenta años, consiguió superar ligeramente a este último con un 23% de éxito.

El legendario matemático Alan Turing propuso en 1950 este experimento como una forma de evaluar si una máquina podía pensar como un ser humano. Lo denominó "juego de imitación" y consistía en determinar si un interrogador podía distinguir entre respuestas de una persona y una computadora mediante conversaciones de texto.

Implicaciones más allá de la ciencia ficción

François Chollet, ingeniero de software en Google, clarificó en 2023 que el Test de Turing "no fue concebido como una prueba literal para ejecutar en máquinas, sino más bien como un experimento mental". Esta perspectiva cobra relevancia ante los actuales avances tecnológicos que parecían pertenecer al ámbito de la ciencia ficción.

Los modelos de lenguaje extenso son expertos conversadores entrenados con cantidades inmensas de texto escrito por humanos. Incluso frente a preguntas que no comprenden, estos sistemas elaboran respuestas aparentemente coherentes. Su capacidad para imitarnos mejora constantemente, lo que cuestiona la vigencia del "juego de imitación" como parámetro definitivo.

INTELIGENCIA ARTIFICIAL -.jpg
¿Se acerca la inteligencia artificial a los humanos?

¿Se acerca la inteligencia artificial a los humanos?

Jones no considera que los resultados de su investigación ofrezcan conclusiones definitivas sobre si estas inteligencias artificiales piensan como humanos. "Creo que es una cuestión muy compleja... Pero en términos generales, esto debería evaluarse como una pieza más entre muchas otras evidencias del tipo de inteligencia que muestran los modelos de lenguaje", comentó en redes sociales.

El investigador señaló una preocupación más urgente: "Los resultados proporcionan más evidencia de que estos modelos podrían sustituir a personas en interacciones breves sin que nadie pudiera notarlo. Esto potencialmente podría conducir a la automatización de empleos, mejorar ataques de ingeniería social y provocar mayor disrupción social".