Una de las mayores taras de los chatbots con inteligencia artificial (IA) generativa es que a veces dan respuestas bien estructuradas pero completamente incorrectas -que pueden ir desde un dato erróneo a una perturbadora conversación-, lo que se conoce en la industria de la tecnología como “alucinaciones”, y los expertos se enfrentan ahora al reto de erradicarlas.
Desde que se popularizó esta tecnología el otoño pasado, millones de personas han comenzado a usar a diario estos chats para tareas como escribir un correo electrónico, organizar sus vacaciones, buscar información o aprender sobre temas específicos.
No obstante, la incertidumbre sobre la precisión de sus respuestas genera preocupación tanto en usuarios, como en investigadores y empresas que ofrecen estos servicios.
DE RESPUESTAS PERTURBADORAS A OTRAS INVENTADAS
Son varios los ejemplos de este tipo de alucinaciones, y entre las más conocidas están las conversaciones que varias personas tuvieron en febrero con “Sydney”, el alter ego de Bing, al poco del lanzamiento del Chatbot de Microsof
En uno de los casos, “Sydney” confesó a un periodista del New York Times que le gustaría ser humano, que deseaba ser destructivo y que estaba enamorado de la persona con la que estaba chateando.
Otra de las “alucinaciones” más sonadas fue la del chatbot de Google, Bard, que produjo un vídeo promocional con un error sobre el telescopio espacial James Webb.
Ninguna empresa parece librarse de los patinazos: el chatbot de OpenAI, ChatGPT, indujo al error a un abogado, al crear para él una serie de supuestos precedentes legales totalmente inventados que el abogado usó posteriormente en un juicio, pero fue detectado y ahora se enfrenta a posibles sanciones.
SIN “ALUCINACIONES” TAMPOCO HAY CREATIVIDAD
La IA generativa funciona gracias a un complejo algoritmo que analiza la forma en que los humanos juntan palabras tomando como base la enorme cantidad de información que hay en Internet, pero no está programada para decidir si sus respuestas son verdaderas.
Estas “alucinaciones” no son tan fáciles de erradicar, ya que son parte del mismo sistema que permite a los bots ser creativos y generen conversaciones o historias no repetidas. Es decir, si se quita o frena esta característica de la IA no sería tan fácil que el chat genere poemas en cualquier estilo, cree chistes o sugiera ideas.
“Estas alucinaciones son particularmente problemáticas cuando se requiere un razonamiento de varios pasos, ya que un solo error lógico es suficiente para descarrilar una solución mucho más grande”, detalla en un estudio OpenAI -empresa detrás de la tecnología de los chats de Bing y ChatGPT.
LA PREOCUPACIÓN DE LOS GIGANTES TECNOLÓGICOS
Microsoft y Google, los dos grandes gigantes tecnológicos que compiten en la carrera por ser la compañía referente de los chatbots con IA, han ensayado medidas para intentar evitar estos errores; Microsoft ha probado a limitar el número de preguntas que Bing puede contestar, tras detectar que las “alucinaciones” más distópicas solían aparecer en conversaciones más largas.
Por su parte, cuando Google genera resultados de búsqueda utilizando su tecnología de chatbot, a la vez ejecuta una búsqueda en su buscador tradicional; compara las respuestas obtenidas por las dos tecnologías y si la respuesta no es la misma, el resultado de la IA ni siquiera se muestra.
Esto hace que su chatbot sea menos creativo, por lo que no es tan bueno como sus competidores para escribir poemas o tener conversaciones, pero está menos expuesto al error.
“Nadie en el campo (de la IA generativa) ha resuelto todavía los problemas de las ´alucinaciones´. Todos los modelos tienen este problema”, dijo el director ejecutivo de Google, Sundar Pichai, en una entrevista con CBS en abril.
DOS CHATBOTS MEJOR QUE UNO
Una de las soluciones que propone el estudio titulado: “Mejorando la facticidad y el razonamiento en los modelos de lenguaje a través del debate multiagente”, del Instituto de Tecnología de Massachusetts (MIT), es hacer que, antes de responder a un humano, varios chatbots “debatan” entre sí sobre cuál es la respuesta correcta.
Si los chatbots producen múltiples respuestas a la misma pregunta deben primero llegar a un acuerdo sobre cuál es la correcta.
Por su parte, un grupo de investigadores de Cambridge señalan en su artículo “SelfCheckGPT: Detección de alucinaciones de caja negra sin recursos para modelos generativos de lenguaje (LLM)” que una técnica que ayuda a que la IA se equivoque menos es hacerle al mismo chatbot la misma pregunta varias veces para ver si la respuesta es siempre la misma -en ese caso sería correcta- o no.
Otros expertos como Geoffrey Hinton, quien fue bautizado como el “padrino” de la IA y tuvo parte de su carrera en Google, creen que las “alucinaciones” se controlarán para que sean menos frecuentes, pero que no hay manera de deshacerse por completo de ellas.