¿Estás seguro de que quieres utilizar un chatbot como motor de búsqueda?

Friday 01st November 2024 11:54 AM

Después de que se presentara un prototipo en julio pasado, OpenAI lanza oficialmente un motor de búsqueda dentro de ChatGPT. La herramienta se basa en una versión especial de GPT-4o y se alimenta de resultados de otros motores de búsqueda (presumiblemente Bing), así como de contenido de proveedores de información y medios con los que OpenAI tiene asociaciones. En lugar de una lista de enlaces, la herramienta responde consultas en lenguaje natural e incorpora fragmentos y fuentes en las que los usuarios pueden hacer clic para obtener más información. También pueden refinar su búsqueda chateando con la herramienta.

Por supuesto, los usuarios de ChatGPT no esperaron a que esta nueva herramienta realizara preguntas que antes dirigían a los buscadores, es decir, a Google. Por supuesto, OpenAI no es la primera empresa que proporciona directamente respuestas a consultas (Google Quick Answers), ni que combina un modelo de lenguaje grande y un motor de búsqueda (Bing/Copilot), ni que menciona fuentes en las respuestas (Perplexity.ai). Sin embargo, el lanzamiento de ChatGPT Search formaliza este uso dentro de la herramienta pionera y más popular.

De intermediario a fuente de información

Por lo tanto, su lanzamiento merece atención a los desafíos de este uso emergente. En otras palabras, ¿qué cambia cuando utilizamos una interfaz conversacional que menciona fuentes como motor de búsqueda? En primer lugar, el poder otorgado al motor de búsqueda está evolucionando. Con su lista de resultados, los motores de búsqueda tradicionales tienen autoridad sobre las referencias a consultar: “aquí están los sitios donde encontrará lo que busca”. Con las interfaces conversacionales, el motor de búsqueda ahora tiene autoridad sobre la propia información: “aquí está la información que buscas, aquí está la respuesta a tu pregunta”.

Esto es problemático cuando sabemos que los grandes modelos lingüísticos pueden inventar información y que la interfaz conversacional genera confianza en el usuario. “El hecho de que la información absorbida por los modelos también les permita generar textos aparentemente relevantes y coherentes no los convierte en fuentes de información confiables, incluso si parece que una conversación hace que la gente se sienta más inclinada a confiar en ellos”, explican investigadores de la Universidad de Washington en un artículo científico sobre el tema (Situar la búsqueda).

Estos buscadores conversacionales también tienen un impacto en la diversidad de fuentes de información. En los motores de búsqueda tradicionales, los enlaces que no aparecían en la primera página de resultados ya tendían a ser ignorados por los usuarios. Con ChatGPT Search o Perplexity, estas fuentes de menor clasificación desaparecen por completo.

Delegación a algoritmos

En el citado artículo, los investigadores también destacan la variedad de usuarios, usos y motivos para utilizar un buscador: a veces sabemos lo que buscamos, a veces queremos explorar lo que se dice o aprender más sobre un tema, a veces queremos para seleccionar las fuentes en las que más confiamos.

Estos usos luchan por ser respaldados por motores de búsqueda conversacionales. Al sintetizar información, estas nuevas herramientas hacen gran parte del trabajo para los usuarios. Ya no tienen que escanear y seleccionar los resultados o reformular su consulta. Esta delegación conduce a una reducción de la carga cognitiva pero también a un empobrecimiento de usos y tácticas.

“Deberíamos buscar crear herramientas que ayuden a los usuarios a encontrar y dar sentido a la información, en lugar de herramientas que pretendan hacerlo todo por ellos”, concluyen los investigadores.

Las respuestas más atractivas son las que menos fuentes tienen

Al igual que Perplexity.ai, Chat GPT Search indicará las fuentes en las que se basa su respuesta. Para muchos usuarios, estas menciones y la posibilidad de verificar la información en la fuente constituyen argumentos decisivos a favor de estas soluciones.

Excepto que esta fuente de información no es confiable. Según un estudio comparativo (Evaluación de la verificabilidad en motores de búsqueda generativos) realizado por investigadores de la Universidad de Stanford en diversas herramientas (Bing Chat, NeevaAI, Perplexity.ai, YouChat), sólo la mitad de las afirmaciones de las respuestas están plenamente respaldadas por las fuentes indicadas (recuerde). Y, en el sentido contrario, una fuente de cada cuatro no respalda completamente la afirmación asociada a ella (exactitud).

Esta falta de fiabilidad es tanto más preocupante cuanto que simplemente indicar las fuentes refuerza la confianza: ¿quién se toma realmente el tiempo para comprobar la fuente de cada afirmación? “Creemos que estos resultados son inaceptables para sistemas que se están convirtiendo rápidamente en una herramienta popular para responder consultas y que ya tienen millones de usuarios, especialmente considerando que las respuestas generadas a menudo parecen informativas y útiles”, escriben los investigadores.

Otro resultado de su estudio es aún más problemático: la utilidad percibida de las respuestas está inversamente correlacionada con la precisión de las fuentes mencionadas. En otras palabras, cuanto menos respaldadas las declaraciones por las fuentes, más los usuarios las consideran fluidas y útiles. Explicación de los investigadores: las herramientas más fiables tienden a copiar o parafrasear las afirmaciones que aparecen en las fuentes en detrimento de la fluidez y la utilidad. Por el contrario, las herramientas que se desvían de las fuentes tienen más libertad para generar respuestas fluidas que parecen importantes y útiles.

De manera más general, los investigadores señalan “que los motores de búsqueda generativos existentes luchan por procesar consultas que no pueden responderse de manera extractiva (por ejemplo, agregar información de múltiples citas) y ponderar adecuadamente las citas que varían en relevancia (selección de contenido)”.

Los dos trabajos de investigación mencionados en el artículo:
Chirag Shah y Emily M. Bender. (2022). Situación de búsqueda.
Liu, NF, Zhang, T. y Liang, P. (2023). Evaluación de la verificabilidad en motores de búsqueda generativos.