Que es, como funciona LaMDA y por qué no puede ser consciente.

Hace unos días, Google puso a Blake Lemoine, uno de sus ingenieros en licencia administrativa después de que afirmara haber encontrado indicios de consciencia en una inteligencia artificial de diálogo llamada LaMDA. Como este es un tema muy utilizado en la ciencia ficción, la noticia se hizo viral y tuvo mucha más atención que cualquier otra historia sobre el procesamiento del lenguaje natural (PLN).

Es cierto que el atributo “consciencia” es sumamente elusivo y aun no tenemos mucha idea de como definirlo, mucho menos de como medirlo. La consciencia que tenemos los seres humanos es una propiedad emergente de la complejidad de nuestro cerebro orgánico evolucionado. Nuestro cerebro es producto de miles de millones de años de evolución y que ha producido un salto cualitativo sin precedentes hace unos 100 a 200 mil años, cuando aparece nuestra especie, el homo sapiens. Los científicos sostienen que muchos animales poseen consciencia aunque distinta a la que poseemos los humanos. Parece haber un amplio consenso de que las plantas no poseen conciencia, pero el debate esta lejos de estar cerrado.

No existe en principio un argumento científico convincente que postule que la consciencia es un atributo único de los organismos basados en ADN. En otras palabras no hay razón para suponer que un sistema informático lo suficientemente complejo pueda en principio ser susceptible de generar consciencia, nuevamente, como una propiedad emergente de dicha complejidad.

Sin embargo, en le caso de LaMDA, la declaración de Blake Lemoine no tiene demasiado asidero científico. Sabemos que es LaMDA, como funciona y por qué no debería ser consciente.

LaMDA es un agente de diálogo. El propósito de los agentes de diálogo es convencerte de que estás hablando con una persona. Google lleva varios años investigando modelos de inteligencia artificial basados en el lenguaje con la esperanza de entrenar un modelo que pueda mantener esencialmente una conversación perspicaz y lógica sobre cualquier tema.

¿Qué es Google LaMDA?

LaMDA, que son las siglas de Language Models for Dialog Application (Modelos de Lenguaje para la Aplicación de Diálogo), se creó para que los programas informáticos pudieran entablar una conversación más fluida y natural.

LaMDA se basa en la misma arquitectura de redes neuronales que se basan otros modelos de lenguaje, como BERT y GPT-3. Sin embargo, gracias a su formación, LaMDA puede entender preguntas y conversaciones matizadas que abarcan varios temas diferentes.

Debido a la naturaleza abierta de las conversaciones, los modelos anteriores podría acabar hablando de algo completamente diferente, a pesar de centrarse inicialmente en un único tema. Este comportamiento puede confundir fácilmente a la mayoría de los modelos conversacionales y chatbots.

Durante el anuncio de Google I/O del año pasado, vimos que LaMDA se construyó para superar estos problemas. La demostración demostró cómo el modelo podía llevar a cabo de forma natural una conversación sobre un tema dado al azar. A pesar de la corriente de preguntas poco asociadas, la conversación seguía su curso, lo cual era sorprendente de ver.

LaMDA utiliza unas 137 mil millones de parámetros, pero no es el proyecto mas ambicioso de Google. PaLM es un sistema mas avanzado aun que utiliza unos 540 mil millones de parámetros y posee una performance muy superior a LaMDA.

¿Cómo funciona LaMDA?

LaMDA se basó en la red neuronal de código abierto de Google, tipo Transformer, que se utiliza para la comprensión del lenguaje natural.

El modelo está entrenado para encontrar patrones en las frases, correlaciones entre las diferentes palabras utilizadas en esas frases, e incluso predecir la palabra que probablemente vendrá después. Para ello, estudia conjuntos de datos formados por diálogos y no sólo por palabras individuales.

Aunque un sistema de IA conversacional es similar al software de chatbot, hay algunas diferencias clave entre ambos. Por ejemplo, los chatbots se entrenan con conjuntos de datos limitados y específicos y sólo pueden mantener una conversación limitada basada en los datos y en las preguntas exactas con las que se han entrenado. En cambio, como LaMDA se entrena con múltiples conjuntos de datos diferentes, puede mantener conversaciones abiertas.

Durante el proceso de formación, capta los matices del diálogo abierto y se adapta. Puede responder a preguntas sobre muchos temas diferentes, dependiendo del flujo de la conversación. Por lo tanto, permite conversaciones aún más parecidas a la interacción humana de lo que suelen ofrecer los chatbots.

¿Cómo se entrena LaMDA?

Google explica que LaMDA tiene un proceso de entrenamiento en dos fases, que incluye el preentrenamiento y el ajuste. En total, el modelo se entrena con 1,56 billones de palabras y 137 mil millones de parámetros.

Preentrenamiento

Para la etapa de preentrenamiento, el equipo de Google creó un conjunto de datos de 1,56 billones de palabras a partir de múltiples documentos web públicos. A continuación, este conjunto de datos se tokeniza (se convierte en una cadena de caracteres para formar frases) en 2,81 billones de tokens, sobre los que se entrena inicialmente el modelo. Durante el preentrenamiento, el modelo utiliza una paralelización general y escalable para predecir la siguiente parte de la conversación basándose en los tokens anteriores que ha visto.

Puesta a punto

LaMDA se entrena para realizar tareas de generación y clasificación durante la fase de ajuste. En esencia, el generador LaMDA, que predice la siguiente parte del diálogo, genera varias respuestas relevantes basadas en la conversación de ida y vuelta. A continuación, los clasificadores de LaMDA predicen las puntuaciones de seguridad y calidad de cada posible respuesta.

Cualquier respuesta con una puntuación de seguridad baja se filtra antes de seleccionar la respuesta con mayor puntuación para continuar la conversación. Las puntuaciones se basan en la seguridad, la sensibilidad, la especificidad y los porcentajes de interés.

El objetivo es garantizar la respuesta más relevante, de mayor calidad y, en última instancia, más segura.

Objetivos y métricas clave de LaMDA

Se han definido 3 objetivos principales para guiar la formación del modelo. Se trata de la calidad, la seguridad y la fundamentación .

Calidad

Se basa en 3 dimensiones del evaluador humano:

  • Sensibilidad.
  • Especificidad
  • Interés.

La puntuación de calidad se utiliza para garantizar que una respuesta tiene sentido en el contexto en el que se utiliza, que es específica para la pregunta formulada y que se considera lo suficientemente perspicaz como para crear un mejor diálogo.

Seguridad

Para garantizar la seguridad, el modelo sigue las normas de la IA responsable. Se utiliza un conjunto de objetivos de seguridad para captar y revisar el comportamiento del modelo. Esto garantiza que el resultado no proporcione ninguna respuesta no deseada y evita cualquier sesgo.

Fundamentacion

La fundamentación se define como “el porcentaje de respuestas que contienen afirmaciones sobre el “mundo exterior”.

Se utiliza para garantizar que las respuestas sean lo más “objetivamente precisas posible, permitiendo a los usuarios juzgar la validez de una respuesta basándose en la fiabilidad de su fuente.”

Evaluación

A través de un proceso continuo de cuantificación del progreso, se revisan las respuestas del modelo preentrenado, del modelo afinado y de los calificadores humanos, para evaluar las respuestas en función de las métricas de calidad, seguridad y contextualización antes mencionadas.

Hasta ahora, han podido concluir que:

  • Las métricas de calidad mejoran con el número de parámetros.
  • La seguridad mejora con el ajuste fino.
  • La fundamentación mejora a medida que aumenta el tamaño del modelo.

¿Cómo se utilizará LaMDA?

Aunque todavía se está trabajando en ello y no hay una fecha de lanzamiento definitiva, se prevé que LaMDA se utilizará en el futuro para mejorar la experiencia del cliente y permitir que los chatbots ofrezcan una conversación más parecida a la humana.

Además, el uso de LaMDA para navegar en el motor de búsqueda de Google es una posibilidad real. Al centrarse en el lenguaje y en los modelos conversacionales, Google ofrece una idea de su visión del futuro de las búsquedas y pone de relieve un cambio en la forma en que sus productos se van a desarrollar.

En última instancia, esto significa que puede haber un cambio en el comportamiento de búsqueda y en la forma en que los usuarios buscan productos o información. Google trabaja constantemente en la mejora de la comprensión de la intención de búsqueda de los usuarios para garantizar que reciban los resultados más útiles y relevantes. El modelo LaMDA será, sin duda, una herramienta clave para entender las preguntas que los buscadores pueden estar haciendo.

Todo esto pone de manifiesto la necesidad de garantizar que los contenidos estén optimizados para las personas y no para los motores de búsqueda. Asegurarse de que el contenido es conversacional y está escrito teniendo en cuenta a su público objetivo significa que, incluso a medida que Google avanza, el contenido puede seguir funcionando bien.

En un documento titulado Rethinking Search: Making Experts out of Dilettantes, los ingenieros de investigación de Google compartieron cómo prevén que los avances de la IA, como LaMDA, mejorarán aún más “la búsqueda como una conversación con expertos”.

Compartieron un ejemplo en torno a la pregunta de búsqueda: “¿Cuáles son los beneficios y riesgos para la salud del vino tinto?”

En la actualidad, Google mostrará una lista de viñetas como respuesta a esta pregunta. Sin embargo, sugieren que en el futuro la respuesta podría ser un párrafo que explique los beneficios y riesgos del vino tinto, con enlaces a la información de la fuente.

Por lo tanto, garantizar que el contenido esté respaldado por fuentes expertas será más importante que nunca si Google LaMDA genera resultados de búsqueda en el futuro.

Superar los retos

Como ocurre con cualquier modelo de IA, hay que superar algunos retos. Los dos principales retos a los que se enfrentan los ingenieros con Google LaMDA son la seguridad y la fundamentación.

Seguridad: evitar el sesgo

Dado que puede extraer respuestas de cualquier lugar de la web, existe la posibilidad de que el resultado amplifique el sesgo, reflejando las nociones que se comparten en línea. Es importante que la responsabilidad sea lo primero con Google LaMDA para asegurar que no está generando resultados impredecibles o perjudiciales. Para ayudar a superar esto, Google ha puesto a disposición del público los recursos utilizados para analizar y entrenar los datos.

Esto permite que diversos grupos participen en la creación de los conjuntos de datos utilizados para entrenar el modelo, ayudar a identificar el sesgo existente y minimizar cualquier información perjudicial o engañosa que se comparta.

Base fáctica

No es fácil validar la fiabilidad de las respuestas que producen los modelos de IA, ya que las fuentes se recogen de toda la web.

El entrenamiento de los modelos de LaMDA sobre diferentes datos, incluyendo imágenes o vídeos, es otra cosa que podemos ver en el futuro. Esto abre la posibilidad de navegar aún más en la web, utilizando indicaciones conversacionales.

El CEO de Google, Sundar Pichai, dijo sobre LaMDA: “Creemos que las capacidades de conversación de LaMDA tienen el potencial de hacer que la información y la computación sean radicalmente más accesibles y fáciles de usar.”

Aunque aún no se ha confirmado una fecha de despliegue, no cabe duda de que modelos como LaMDA serán el futuro de Google.

Para superar este reto, el equipo permite que el modelo consulte con múltiples fuentes externas, incluyendo sistemas de recuperación de información e incluso una calculadora, para proporcionar resultados precisos.

La métrica de fundamentación compartida anteriormente también garantiza que las respuestas se basen en fuentes conocidas. Estas fuentes se comparten para que los usuarios puedan validar los resultados ofrecidos y evitar la difusión de información errónea.

¿Qué es lo siguiente para Google LaMDA?

Google tiene claro que los modelos de diálogo abierto como LaMDA presentan beneficios y riesgos, y se compromete a mejorar la seguridad y la fundamentación para garantizar una experiencia más fiable e imparcial.

El entrenamiento de los modelos de LaMDA con diferentes datos, como imágenes o vídeos, es otra cosa que podríamos ver en el futuro. Esto abre la posibilidad de navegar aún más en la web, utilizando indicaciones conversacionales.

El CEO de Google, Sundar Pichai, dijo sobre LaMDA: “Creemos que las capacidades de conversación de LaMDA tienen el potencial de hacer que la información y la computación sean radicalmente más accesibles y fáciles de usar.”

Aunque aún no se ha confirmado una fecha de despliegue, no cabe duda de que modelos como LaMDA serán el futuro de Google

Google LaMDA: How Language Model For Dialogue Applications Work (searchenginejournal.com)