#2 – La cuestión de la escala

Madrid. Abril de 2024. Había viajado invitado por la OPS para participar en el I Encuentro Internacional de Divulgación Científica, Salud e Impacto Social organizado en la Universidad Complutense. En otra dependencia de ese inmenso centro de estudios se llevaba a cabo por esas fechas un encuentro sobre Inteligencia Artificial. Las ponencias se focalizaban en los Grandes Modelos de Lenguaje (LLM, en inglés) y especialmente, en el primer sistema de inteligencia artificial conversacional que se popularizó en el mundo: el Chat GPT. Un mes antes, Open AI había lanzado el GPT-4 y los presentes hablaban de regulación, divulgación, educación y usos profesionales. Asistí a algunos paneles, y en uno de ellos escuché una anécdota que me dejó pensando.

La escena fue muy teatral. Quien hablaba —no pude retener su nombre— era consciente de ser una de las estrellas del encuentro, un estadounidense, que comenzó diciendo muy orondo: «Soy uno de los seis que desarrollamos el texto predictivo, ese que todos Uds. usan, por ejemplo, en sus teléfonos. Mis amigos lo saben y muchas veces presumen de ello. Me invitan a sus casas a cenar con otros de sus amigos y me presentan de esa manera, señalándome: ‘él es uno de los seis que desarrollaron el texto predictivo…’ Y entonces, la mayoría de las veces, alguno de los comensales saca su teléfono y me pregunta: ‘¿Por qué cuando yo pongo esto… —me muestra— aparece esto?’ Y yo, que soy uno de los seis que desarrollamos el sistema, me frustro. Podría contarle con pelos y señales cómo está configurada esa aplicación, pero no puedo explicarle concretamente por qué si él pone tal expresión, continúa esa y no otra palabra…”

La anécdota es por demás potente para iluminar uno de los grandes temas de la relación de la inteligencia artificial con sus creadores. Cuando el científico de datos describía esa imposibilidad de explicar por qué el sistema había elegido esa y no otra palabra, estaba presentándonos el problema de la caja negra: sistemas que funcionan con asombrosa eficacia y cuyo funcionamiento interno, sin embargo, nadie alcanza a explicar del todo. Y esa opacidad, en nuestro caso, es ante todo una cuestión de escala.

Para entenderlo hay que asomarse, aunque sea brevemente, a la arquitectura de estos sistemas. Los grandes modelos de lenguaje —como el GPT que protagonizó aquellas ponencias madrileñas— son redes neuronales artificiales entrenadas con cantidades astronómicas de texto. Una red neuronal es, en términos simples, una cadena de capas matemáticas. Cada capa recibe información, la transforma mediante millones de operaciones, y pasa el resultado a la siguiente. Al final de ese recorrido, el sistema produce una salida. La palabra que, estadísticamente, tiene mayor probabilidad de continuar la secuencia que el usuario escribió.

Lo que distingue a los modelos contemporáneos de sus predecesores es una arquitectura específica llamada transformer, introducida por investigadores de Google en 2017 y que revolucionó el campo. Los transformers incorporan un mecanismo llamado atención (attention, en inglés). En lugar de procesar las palabras de un texto de manera lineal, el sistema puede, en cada paso, «prestarle atención» a cualquier otra parte del texto, ponderando qué relaciones son más relevantes. Es esa capacidad de capturar contexto a larga distancia lo que permite a estos modelos producir respuestas tan coherentes, tan sorprendentemente pertinentes.

Ahora bien, un modelo como GPT-4 opera en el orden de un billón de parámetros. Un parámetro es un número —un peso— que regula cuánta influencia tiene una conexión entre dos neuronas artificiales. Esos billones de pesos se ajustan durante el entrenamiento mediante un proceso de optimización que compara lo que el modelo predice con lo que debería haber predicho, y corrige el error una y otra vez, sobre miles de millones de ejemplos de texto. El resultado es una red cuya capacidad de predicción es asombrosa y cuyo funcionamiento interno nadie comprende del todo. Y es aquí donde la escala se vuelve extremadamente relevante.

Si quisiéramos hacer ingeniería inversa de una sola decisión del modelo —entender por qué eligió la palabra «libertad» y no «independencia» en determinado contexto— tendríamos que rastrear cómo ese contexto activó ciertas neuronas, qué pesos amplificaron o suprimieron esas señales a lo largo de decenas de capas, y cómo la competencia probabilística entre miles de candidatos se resolvió en favor de ese token preciso. Eso, multiplicado por un billón de parámetros, convierte la tarea en algo prácticamente inconcebible. No nos alcanzarían varias vidas humanas para recorrer ese laberinto, aun teniendo acceso completo a los pesos del modelo, lo cual raramente ocurre.

Chris Wiggins, matemático de Columbia y científico-jefe de datos del New York Times, lo describió con honestidad infrecuente en el mundo académico. Dijo: estamos todavía en lo que podría llamarse la etapa alquímica. Estamos construyendo grandes modelos de lenguaje sin una comprensión a priori clara del diseño correcto para el problema correcto.

La alquimia es una metáfora apropiada. Los alquimistas medievales producían resultados reales —aleaciones, tinturas, procesos— sin comprender la teoría que los sustentaba. No eran charlatanes, iban a tientas. De manera análoga, hoy construimos sistemas que funcionan —que predicen, que responden, que crean— sin poder explicar del todo por qué funcionan. La diferencia es de escala. Los alquimistas trabajaban en hornos de piedra; los ingenieros actuales, en centros de datos que consumen tanta electricidad como ciudades medianas.

Esa asimetría entre capacidad y comprensión tiene consecuencias que van más allá de la anécdota del congreso. Cuando un médico usa un sistema de IA para asistir un diagnóstico, cuando un juez pondera una herramienta de evaluación de riesgo, cuando un algoritmo decide qué crédito obtiene quién, la pregunta de por qué eso es así y no de otra manera no es académica. Es ética, es legal, es política. Y la respuesta honesta, con frecuencia, es que nadie lo sabe del todo.

No se trata de plantear una mirada catastrófica. Lejos de eso. Se trata de reconocer que hemos creado herramientas cuya potencia excede nuestra capacidad de auditarlas. La reversibilidad del conocimiento —esa posibilidad de desandar el camino y comprender cada paso— que caracterizó a la ciencia desde Galileo hasta la era de los algoritmos deterministas, se pone en tensión aquí hasta casi quebrarse.

Lo que el estadounidense describió en Madrid, con su historia de cenas y teléfonos, no era una anécdota curiosa. Era el retrato de una nueva condición epistémica. Somos capaces de construir sistemas inteligentes —ya trataremos el tema de la inteligencia en otro artículo— que no podemos comprender del todo, y esos sistemas ya están entre nosotros, tomando decisiones, modelando conversaciones, sugiriendo palabras. El texto predictivo fue el primer atisbo cotidiano de ese mundo. Los grandes modelos de lenguaje son su versión más acabada —por ahora. Y la pregunta que aquella sala madrileña no terminó de responder es si esa opacidad es un problema técnico transitorio que la ciencia resolverá, o si es una característica estructural de cierto tipo de sistema inteligente que, para ser tan potente como es, no puede ser del todo transparente.

Esa pregunta se agudiza aún más cuando se considera uno de los fenómenos más desconcertantes que los investigadores han observado en los últimos años: las llamadas capacidades emergentes. Se trata de habilidades que los modelos no parecen adquirir gradualmente, sino que aparecen de manera abrupta, casi sin aviso, al cruzar ciertos umbrales de escala. Un modelo entrenado con cien millones de parámetros no sabe razonar en cadena; uno entrenado con cien mil millones, sí. Nadie lo programó para eso. Nadie lo anticipó del todo.

En 2022, investigadores de Google documentaron decenas de estas capacidades —desde la resolución de analogías hasta la aritmética modular— que emergían de manera discontinua, como si el sistema hubiera alcanzado una masa crítica y algo cualitativamente nuevo hubiera brotado de la cantidad. El debate sobre si estas emergencias son reales o una consecuencia de cómo medimos el rendimiento sigue abierto; pero lo que no está en disputa es el hecho central. A cierta escala, los sistemas hacen cosas que sus creadores no esperaban que hicieran.

El texto predictivo que frustraba a nuestro buen amigo americano era apenas el primer síntoma de ese fenómeno. Lo que vino después —modelos que escriben código, que razonan sobre hipótesis científicas, que traducen idiomas que nadie les enseñó explícitamente— pertenece a la misma lógica: la escala no solo amplifica las capacidades conocidas; a veces las reinventa.

PARA ENTENDER MEJOR

Qué es un Transformer

En dos palabras El transformer es la arquitectura de red neuronal que hizo posibles los modelos de lenguaje actuales. Su idea central es un mecanismo llamado “atención”. Lo presentó en 2017 un equipo de ocho investigadores de Google en el artículo Attention Is All You Need (“Atención es todo lo que necesitas”). Hoy, prácticamente todos los grandes sistemas de inteligencia artificial —GPT, Gemini, Claude— se construyen sobre esa misma base.

El problema que resolvió Para predecir la próxima palabra, un sistema necesita tener en cuenta el contexto. En la frase “el músico afinó su…”, la palabra que falta depende de “músico” y “afinó”, no de cualquier término suelto. La arquitectura dominante hasta entonces, la red neuronal recurrente (RNN), procesaba el texto palabra por palabra, en orden, manteniendo una suerte de “memoria” de lo ya leído. Pero esa memoria se degradaba con la distancia. Al llegar al final de un párrafo largo, el sistema tendía a “olvidar” lo del principio y fallaba al vincular palabras separadas, como el sujeto de una oración y su verbo principal. El transformer cambió ese enfoque.

Cómo funciona la atención El mecanismo de atención (self-attention) permite que, al procesar cada palabra, el modelo pese cuánto debe “mirar” a todas las demás de la secuencia a la vez, no solo a las vecinas. Ese cálculo produce un mapa de atención, una matriz de pesos que indica cuánta atención presta cada palabra a cada otra. En la frase “el banco donde trabajo está en la orilla del río”, la atención conecta “banco” con “orilla” y “río” en el extremo opuesto de la oración y resuelve la ambigüedad sin importar cuántas palabras los separen. Hacer esto en paralelo sobre todo el texto —en lugar de palabra por palabra— es lo que volvió a estos modelos entrenables a gran escala y mucho más potentes.

Tokens, no palabras Un detalle importante es que el transformer no opera exactamente con palabras, sino con tokens, fragmentos que pueden ser una palabra entera, un trozo de palabra o un signo. “Imposible” podría partirse en “im” y “posible”. Antes de procesarlo, cada token se convierte en un vector, una lista de números que ubica su significado en un espacio matemático; palabras cercanas en sentido —”rey” y “monarca”— quedan próximas en ese espacio, y se les suma información sobre su posición en la frase. El modelo predice el próximo token, y de la sucesión de tokens emerge el texto.

Cómo está construido Un transformer apila muchas capas, y cada capa hace dos cosas. Primero, corre varias instancias de la atención en paralelo (multi-head attention) para captar distintos tipos de relaciones a la vez, y después pasa el resultado por una red neuronal estándar que lo transforma. Tiene un codificador, que comprime el texto de entrada en una representación densa, y un decodificador, que genera la salida. Los modelos generativos como GPT usan solo el decodificador; otros orientados a la comprensión, como BERT, usan solo el codificador.

Una analogía cotidiana Imaginá leer una frase y, antes de interpretar cada palabra, resaltar con marcador las otras palabras de la oración que más ayudan a entenderla. Para un pronombre como “lo”, resaltarías el sustantivo al que reemplaza. La atención es, a grandes rasgos, ese resaltado, hecho de forma automática y simultánea para cada token.

Por qué la escala importa La misma arquitectura cambia de carácter según su tamaño. Un transformer pequeño —digamos, diez millones de parámetros— traduce oraciones simples o resume textos breves. Uno con cien mil millones de parámetros razona por analogía, escribe código funcional o responde sobre dominios que nunca se le enseñaron de forma explícita. Nadie reprograma el modelo para eso: es el mismo diseño, escalado. Por eso la carrera entre laboratorios no es solo por mejores arquitecturas, sino por más datos, más parámetros y más cómputo. En los transformers, la cantidad tiene una forma peculiar de convertirse en calidad.

Qué hace y qué no hace El transformer es extraordinariamente bueno capturando qué elementos del texto se relacionan con cuáles, y a qué distancia. Eso explica la coherencia de largo aliento de los modelos actuales: pueden mantener el hilo de un párrafo entero. Lo que el mecanismo no incorpora es ningún anclaje en la realidad fuera del texto. La atención relaciona palabras con palabras, no palabras con cosas.

Lo que conecta con la nota Entender el transformer ayuda a ver por qué esta nota habla de escala y de cajas negras. La arquitectura es pública, está bien documentada y, en el fondo, es elegante, cabe en un diagrama. Lo que se vuelve inabarcable no es la idea, sino lo que ocurre cuando se la multiplica por un billón de parámetros y se la repite a lo largo de miles de capas. El mismo mecanismo de atención que ordena con claridad una frase corta, llevado a esa escala, produce un sistema cuyo funcionamiento interno nadie recorre del todo —y del que brotan, al cruzar ciertos umbrales, capacidades que nadie programó ni anticipó. Esa es la paradoja que atraviesa el artículo. Comprendemos la pieza y no comprendemos el todo. La potencia no vive en la complejidad del diseño, sino en la escala a la que se lo lleva.

#2 – La cuestión de la escala

PARA ENTENDER MEJOR

Qué es un Transformer

Más entradas

#3 – El Gran Simulador

#2 – La cuestión de la escala

# 1 – Cómo aprendimos a pensar con cosas

Convocatoria de TFA