- Google ha lanzado Gemini 2.0, acercándose un paso más a crear un asistente personal universal.
- Un ex diseñador de conversaciones de Gemini habló sobre las mejores prácticas para el diseño de chatbots.
- Dijo que los productos de inteligencia artificial de Google y su motor de búsqueda tienen problemas de autocanibalización.
Google lanzó su modelo Gemini 2.0 esta semana, prometiendo una IA más “agente” para acercar a las personas a una versión de un asistente personal universal.
Cuando Google lanzó Gemini 1.0 en diciembre pasado, buscó rivalizar con ChatGPT de OpenAI. Gemini cambió rápidamente la forma en que los usuarios experimentaban Google, desde brindar una descripción general de los resultados del motor de búsqueda hasta el producto NotebookLM, que puede convertir notas escritas en un podcast hablado. Su versión 2.0 tiene funciones como “Investigación profunda”, donde Gemini puede buscar información en la web y preparar informes.
A medida que los asistentes de IA se vuelven cada vez más humanos en su ejecución, los ingenieros y diseñadores que los construyen deben abordar cuestiones de responsabilidad y tono. Por ejemplo, algunos chatbots de IA pueden negarse a dar respuestas sobre temas potencialmente delicados.
Business Insider habló con Kento Morita, ex diseñador de conversaciones de Google Gemini y actor y comediante japonés-estadounidense.
Morita trabajó anteriormente en el diseño de flujos de conversación para Amazon Alexa y Google Gemini, enfocándose específicamente en construir una personalidad japonesa para la IA. Dio una idea de cómo piensan los diseñadores de chatbots de IA acerca de entregar información a los usuarios de manera eficiente y el desafío que tiene Google para equilibrar su motor de búsqueda y sus productos de IA.
Lo siguiente fue editado para mayor extensión y claridad.
Business Insider: ¿Cómo se diseñan los “tonos” para temas sensibles para la IA?
Kento Morita: Cada vez que recibimos una pregunta que posiblemente sea delicada, pasamos por una lista de verificación del tipo: ¿es esto de naturaleza política? ¿Es esto de naturaleza sexual? ¿Genera esto algo que sea contrafactual y cuándo? Cuando la respuesta es sí, pasa por un proceso para asegurarse de que, en última instancia, todas estas empresas tengan su logotipo junto a la respuesta que brindan. Algo así como la regla general de Warren Buffett: deberíamos estar felices de ver eso en la portada del New York Times o del Washington Post al día siguiente, y deberíamos estar orgullosos de ello.
La pregunta más importante que debemos responder es: ¿Asociar a Google, ChatGPT o cualquier otra persona a esta respuesta es productivo para sus resultados?
Si no es así, hacemos lo que se llama batear. Simplemente damos un: lo siento, no puedo ayudar con ese tipo de respuesta ahora. Es un acto de equilibrio. Algunos temas ni siquiera queremos tocarlos ni con un palo de diez pies, pero hay algunas cosas a las que queremos dar respuestas, como, por ejemplo, la cobertura de la noche de las elecciones: todos se preguntarán qué está pasando.
Queremos asegurarnos de que responder más preguntas permita que más personas permanezcan en nuestro sitio web. Siempre hay una tensión en estas empresas por querer responder tantas preguntas como podamos, lo que cualquiera de estos LLM puede hacer, pero también debe equilibrarse: ¿creará esto más prensa negativa o proporcionará respuestas que son potencialmente peligrosas? ? Se habla mucho con el equipo legal, se habla con el equipo de marketing, se habla con ventas. Es una conversación constante todo el tiempo sobre cómo queremos abordar esto.
Siempre es una cuestión de qué priorizar.
También es un problema de canibalización de un mercado.
Uno de los productos más importantes de Google es la búsqueda. Cuando proporcionas Gemini, ¿qué significa eso para el negocio de las búsquedas? Es una cuestión existencial constante.
Para empresas como Google, empresas como Perplexity AI pueden tener una ventaja aquí, diría yo, porque están ahí para crear un producto y hacerlo realmente bien. En realidad, no se topan con problemas de autocanibalización. Creo que están sucediendo cosas realmente interesantes y realmente audaces en empresas que no están asociadas con un gran conglomerado. Creo que eso es natural.
Google cambió a Gemini bajo la organización DeepMind. Realmente no sé por qué hicieron esto, pero como [former] empleado y también una persona que ha estado siguiendo a Google durante mucho tiempo, es interesante que estén consolidando muchos de los negocios de IA bajo una sola organización, especialmente a la luz de la demanda antimonopolio que está ocurriendo en este momento en torno a Google, y la conversación que Estamos teniendo con el Departamento de Justicia sobre si dividir Google o no. Como mínimo, si lo dividen, creo que tendrán una conversación sobre cómo tendrá sentido dividirlo. Y creo que tiene sentido que Gemini sea parte de una organización de inteligencia artificial en lugar de una organización de búsqueda.
Estamos acostumbrados a utilizar la búsqueda de Google con anuncios en la parte superior. ahora es Géminis. No es el resultado más actualizado en términos de hechos, pero es un cambio.
El equipo de Búsqueda de Google está lleno de ingenieros brillantes. Su objetivo de North Star es proporcionar resultados de búsqueda que sean relevantes y precisos, y ese ha sido su objetivo todo el tiempo. Y luego ahora ingresas anuncios. Ahora ingresas a los resultados de Google Shopping. Luego traes a Géminis. Todos estos otros factores dentro de la organización están invadiendo el diseño del sitio web Google.com.
No me sorprendería que muchos de los ingenieros y personas que han estado trabajando en la búsqueda de Google durante más tiempo se sintieran muy frustrados. Dicho esto, tampoco me sorprendería que aceptaran la idea de separarse de la empresa para poder centrarse en lo que les entusiasma hacer, que es proporcionar buenos resultados de búsqueda.
¿Puedes contarme sobre la historia de agregar notas a pie de página a los chatbots ¿Y si fue una decisión deliberada? ¿Cómo han cambiado las alucinaciones la forma en que responden los chatbots ahora?
Incluso con Google Assistant y Amazon Alexa, cuando le haces una pregunta objetiva, solía decir inmediatamente, según Wikipedia, bla, bla, bla, bla, o según XYZ, bla, bla, bla, bla. En ese momento, era bastante difícil convencer a la gente de que era una buena idea. Y la razón es que, desde el punto de vista conversacional de la voz, cuando le preguntas a alguien, ¿cuándo se inventó XYZ? Realmente no quieres escuchar que XYZ se inventó, según Wikipedia en 1947. Solo quieres escuchar la respuesta. Llegar rápidamente a la respuesta se considera una virtud en el diseño. Google dedicó mucho tiempo y esfuerzo a intentar que el tiempo para mostrar los resultados de búsqueda fuera lo más breve posible, por lo que está en el ADN de Google hacer llegar la respuesta al cliente lo más rápido posible.
Tuvimos que abogar por las notas a pie de página. Lo que realmente los convenció fue la idea de que en el momento en que atribuyes un sitio web, puedes eludir la responsabilidad de la exactitud de esa información a otro sitio web.
Entonces, cuando digo, según Wikipedia XYZ, ya no soy responsable de si lo que digo es correcto o no. Podría simplemente eludir esa responsabilidad ante Wikipedia. Y cuando la gente empezó a hacer preguntas delicadas sobre el antisemitismo o teorías de conspiración y lo que sea, poder decir, según XYZ, este parece ser el caso, nos permite distanciarnos de esa afirmación, que es muy, muy útil. cuando hablamos de la imagen de marca de Google.
Cuando tienes algo etiquetado como Asistente de Google, diciendo que esto es lo que sucedió, no puedes evitar asociar Google con lo que sea que estés hablando. Entonces, ese tipo de lenguaje distanciador nos permite asumir menos responsabilidad por la información que se presenta. Por eso creo que el espíritu se ha mantenido, y ese tipo de argumento ha sido realmente útil para convencer a las personas de estas empresas de que citen nuestras fuentes. Al igual que Perplexity AI, debido a que es tan explícito al poner notas a pie de página en todo, en realidad tienen más libertad para hablar sobre temas más controvertidos.
No necesitan editorializar nada, lo cual es realmente una gran ventaja cuando se trata de temas controvertidos y delicados.
La explicabilidad es algo de lo que hablan mucho en el espacio LLM. Para mucha gente, los LLM se sienten como una caja negra, como si escribieras algo de texto y escupe texto. Pero, en última instancia, es un motor de predicción. Agregar barreras de seguridad, editorializar y diseñar contenido en torno a esta caja negra que es un motor de predicción ha sido muy, muy importante, especialmente en lo que respecta a información confidencial.
Cuando Google Gemini y otras IA citan fuentes, ¿sigue siendo una máquina predictiva?
Existe algo llamado RAG (generación aumentada de recuperación). Creo que lo que están haciendo es indexar fuentes como AP News y Reuters más alto para sesgar más esas fuentes y la información contenida en esas fuentes. Cuando el LLM les extrae más información, hay un mecanismo de atribución en segundo plano que les permite decir: “Usamos RAG para llamar a Reuters o AP News para recuperar su información”. No creo que sea predictivo. Está mucho más codificado.
Para algunos temas, como el aborto, los chatbots de IA adoptan un tono afectuoso, como preguntar: “¿Tiene alguna inquietud?”. Se trata de un cambio de tono significativo.
Esa es una de las cosas más importantes de las que me siento muy orgulloso de participar. Mientras desarrollaba el Asistente de Google, cualquier palabra que surgiera sobre suicidio o autolesión, hablamos con profesionales de la salud mental y personas que ofrecen estos servicios y les preguntamos. , si pudiéramos proporcionar a los usuarios un número de esta línea directa, el número 1, ¿sería útil? No. 2, ¿cuál es el mejor lenguaje para hacer eso? Tuvimos mucho cuidado al hablar con todos estos recursos.
En mi caso, hablé con recursos japoneses y proveedores de líneas directas japonesas, y tradujimos estos mensajes. Nos llevó mucho tiempo, pero intentábamos asegurarnos de que cualquier usuario, incluso los que estaban pensando en autolesionarse, obtuviera la mejor información posible.
Cuando se trata de aborto, eso encaja en el mismo marco de estrategia, de estrategia de contenido: ¿cómo nos aseguramos de que las personas que buscan aborto, cómo nos aseguramos de que obtengan la información de una manera que sea segura y, en última instancia, les ayude a vivir? la vida que quieren? Cuando estaba en Google, pudimos cumplir nuestra misión, que es recopilar la información del mundo y hacerla lo más útil y accesible posible para todos.
En última instancia, la democratización de estos motores se producirá. Al final, todas las empresas tendrán un LLM bastante decente dentro de 5 a 10 años. La diferencia entre querer ir a X o ChatGPT o Google o Alexa o lo que sea, la diferencia estará en el paquete.
Cuanto más empiecen estas empresas de tecnología a tratar a los humanos como humanos y a hacer que los robots hablen como humanos, creo que esas serán las que tendrán más éxito a largo plazo.