Les sorprendió LaMDA, esperen a ver a PaLM 540B

En abril de este año, Google AI presentó el modelo lingüístico Pathways (PaLM), un modelo basado en redes neuronales del tipo trasformadores, similar a la LaMDA pero mucho mas poderosa. PaLM opera con hasta 540 mil millones parámetros (contra los 137 mil millones de LaMDA). Estos parámetros son, términos generales, los patrones del lenguaje que una PNL basada en redes neuronales del tipo transformadores utiliza para crear una predicción de texto con sentido. PaLM es entrenado con el sistema Pathways (Asynchronous Distributed Dataflow for ML)

Los investigadores evaluaron PaLM en cientos de tareas de comprensión y generación del lenguaje y lograron un rendimiento de vanguardia en unos pocos disparos en la mayoría de las tareas, con márgenes significativos en muchos casos.

PaLM logra una eficiencia de entrenamiento del 57,8% en la utilización de FLOP de hardware, la más alta jamás lograda para LLM a esta escala, gracias a una combinación de la estrategia de paralelismo y una reformulación del bloque Transformador que permite que las capas de atención y “feed forward” se computen en paralelo, lo que permite acelerar las optimizaciones del compilador de la TPU.

PaLM es capaz de realizar cientos de tareas distintas sin haber sido entrenado específicamente para ello. Es una verdadera inteligencia artificial general, en la medida en que puede aplicarse a diferentes tareas intelectuales sin un entrenamiento específico.

PaLM se entrenó utilizando una combinación de conjuntos de datos en inglés y multilingües que incluyen documentos web de alta calidad, libros, Wikipedia , conversaciones y código de GitHub.

PaLM mostró capacidades innovadoras en numerosas tareas difíciles. Cuando se probó con otros modelos lingüísticos, PaLM 540B superó en la comprensión y generación de idiomas cuando se evaluó en 29 tareas de procesamiento del lenguaje (NLP) en inglés ampliamente utilizadas. en comparación con los mejores modelos anteriores (GLaM 62B/64E, GPT-3 175B, Megatron-Turing NLG 530B, Gopher, LaMDA, Chinchilla). Estas tareas incluyen tareas de preguntas y respuestas (dominio abierto cerrado- variante de libro), tareas de cierre y finalización de oraciones, tareas de estilo Winograd , tareas de comprensión de lectura en contexto, tareas de razonamiento de sentido común, tareas de superglue y tareas de inferencia de lenguaje natural.

Abajo los resultados obtenidos por el modelo PaLM 540B en las 29 pruebas de PNL. Para los resultados de pocos disparos, el número de disparos para cada tarea se menciona entre paréntesis. Los superíndices indican resultados de trabajos anteriores en GLaM 62B/64E, GPT-3 175B, Megatron-Turing NLG 530B, Gopher, LaMDA, Chinchilla.

BIG-bench es un banco de pruebas colaborativo cuyo objetivo es producir tareas desafiantes para grandes modelos lingüísticos. Incluye más de 150 tareas que cubren una variedad de tareas de modelado del lenguaje incluyendo el razonamiento lógico, la traducción, la respuesta a preguntas, las matemáticas y otras. Los datos de BIG-bench incluyen métricas de rendimiento humano, en las que se pidió a un número de trabajadores (normalmente 10) en una plataforma de crowdsourcing para resolver cada tarea. A estos trabajadores se les dio una descripción de la tarea y ejemplos similares a los que ve el modelo de pocos disparos, y se les permitió utilizar cualquier herramienta externa que para proporcionar una respuesta (motores de búsqueda, calculadoras, etc.).

Evaluación de PaLM en BIG-bench. (izquierda) Evaluación de PaLM, GPT-3, Gopher y Chinchilla. Los modelos anteriores sólo se han evaluado en un subconjunto de tareas, por lo que este gráfico muestra los resultados agregados de las 58 tareas que los tres modelos han evaluado. (derecha) Evaluación de PaLM en un conjunto mayor de 150 tareas de BIG-bench de tareas.
Para cada tarea, se utilizan los resultados de su métrica preferida. Los resultados se normalizan estableciendo la
puntuación máxima a 100 y la puntuación de azar a 0 para las tareas de elección múltiple, de modo que se valoran negativamente
si el modelo obtiene peores resultados que el azar. Los resultados normalizados se promedian en todas las tareas

PaLM exhibió además capacidades innovadoras en tareas de razonamiento que requieren aritmética de varios pasos o razonamiento de sentido común. Los LLM anteriores, como Gopher , vieron menos beneficios de la escala del modelo en la mejora del rendimiento.

Algunas de estas tareas son obviamente útiles y potencialmente transformadoras. PaLM puede interpretar preguntas y responder en cualquier idioma, traducir un código de C a Python, resumir un texto y hasta explicar chistes.

Y luego está la función que ha sorprendido a sus propios desarrolladores, y que requiere cierta distancia y frialdad intelectual para no enloquecer. PaLM puede razonar, o para ser más precisos, puede hacer razonamientos.

El método por el que PaLM razona se denomina “desencadenamiento de cadena de pensamiento”. Sharan Narang, uno de los ingenieros que dirigen el desarrollo de PaLM, destaca que los grandes modelos lingüísticos nunca han sido muy buenos a la hora de hacer saltos lógicos a menos que se les entrene explícitamente para ello. Dar a un modelo lingüístico de gran tamaño la respuesta a un problema matemático y luego pedirle que reproduzca los medios para resolver ese problema matemático no suele funcionar. En cambio, en el caso de las instrucciones de la cadena de pensamiento, se explica el método para obtener la respuesta en lugar de darla. Este enfoque está más cerca de enseñar a los niños que de programar máquinas.

A la rareza general de esta propiedad se suma el hecho de que los propios ingenieros de Google no entienden cómo o por qué PaLM es capaz de esta función. La diferencia entre PaLM y otros modelos podría ser la potencia computacional bruta en juego. Podría ser el hecho de que sólo el 78% del lenguaje con el que se entrenó PaLM es inglés, ampliando así los significados disponibles para PaLM en comparación con otros grandes modelos lingüísticos, como el GPT-3. O podría ser el hecho de que los ingenieros cambiaron la forma de tokenizar los datos matemáticos en las entradas. Los ingenieros tienen sus conjeturas, pero ellos mismos no creen que sus conjeturas sean mejores que las de los demás. En pocas palabras, el PaLM ha demostrado unas capacidades que no habíamos visto antes.

Todo esto que puede hacer PaLM es asombroso pero nada tiene que ver con una presunta conciencia artificial, un tema que esta de moda luego de las declaraciones del ingeniero de Google sobre LaMDA. Simplemente no tenemos idea de lo que es la conciencia humana; no hay una tesis funcional falsable de la conciencia, sólo un montón de vagas nociones. Y si no hay forma de probar la conciencia, tampoco hay forma de programarla. Por ahora solo podemos crear algoritmos que sólo hagan tareas concretas.

En cambio, hemos llegado a un lugar más extraño aun que la conciencia artificial. Un programa como PaLM sería más fácil de comprender si simplemente fuera consciente. Al menos sabemos lo que implica la experiencia de la conciencia. Todas las funciones de PaLM que he descrito hasta ahora provienen nada más que de la predicción de textos. ¿Qué palabra tiene sentido a continuación? Eso es todo. Eso es todo. ¿Por qué esa función da lugar a saltos tan enormes en la capacidad de crear significado? Esta tecnología funciona mediante sustratos que subyacen no sólo a todo el lenguaje, sino a todo el significado y estos sustratos son fundamentalmente misteriosos. Es posible que PaLM posea modalidades que trascienden nuestra comprensión. ¿Qué entiende PaLM que no sabemos como preguntarle?