#3 – El Gran Simulador

Si le pedimos a un asistente conversacional algorítmico como el Chat GPT o Claude que nos explique la fotosíntesis, que redacte una carta de renuncia, haga una lista de los mejores Malbec argentinos o componga un soneto sobre Mendoza, lo hará con una soltura que cincuenta años atrás habría parecido ciencia ficción. La tentación de concluir que la máquina “entiende” es enorme. Pero lo que hace, en el fondo, es algo más modesto y extraño a la vez. Es predecir, una y otra vez, cuál es la palabra que probablemente vendría después.

Esa es la operación elemental de un modelo de lenguaje. Recibe un texto y calcula, sobre la base de todo lo que vio durante su entrenamiento, qué fragmentos de palabra —los llamados tokens— son los más probables a continuación, elige uno y lo agrega; vuelve a calcular, agrega el siguiente, y así. Una carta, un poema o una explicación científica son, desde adentro del sistema, larguísimas cadenas de esa misma apuesta repetida millones de veces.

Sería un error, sin embargo, imaginar ese proceso como algo ciego o puramente local. Para acertar la palabra que viene, un sistema entrenado a esta escala se ve obligado a armar, sobre la marcha, estructuras internas que organizan lo que dice. Se ha comprobado que, al componer un verso, por ejemplo, el modelo fija la palabra que rima antes de escribir la línea que desemboca en ella. Hay, en ese sentido, algo parecido a un plan. Lo que no hay es lo otro: una intención, una idea que el modelo quiera expresar. Hay una secuencia de predicciones encadenadas —apoyadas en una arquitectura interna sorprendentemente rica— que, vista desde afuera, forma un texto con sentido.

Que de un mecanismo tan simple surja algo tan convincente tiene una explicación. El modelo fue entrenado con una porción enorme de lo que la humanidad escribió —libros, artículos, foros, manuales, conversaciones. Para predecir bien la próxima palabra en semejante diversidad de textos, tuvo que capturar regularidades muy profundas del lenguaje, como las reglas gramaticales, asociaciones entre conceptos, estructuras argumentativas, estilos. Esas regularidades, codificadas en miles de millones de parámetros ajustados durante el entrenamiento, son las que le permiten sonar coherente sobre casi cualquier tema.

Pero acá comienzan a aparecer las grietas. El sistema no consulta una “base de hechos” ni contrasta lo que dice contra el mundo. Genera lo que resulta estadísticamente plausible a la luz de todo lo que leyó. Por eso, a veces, produce afirmaciones que suenan perfectas y son falsas. Inventa una cita, atribuye un libro a un autor equivocado o fabrica un dato con total aplomo. En la jerga se llama “alucinación”, aunque el término es engañoso. El sistema no se equivoca por un fallo, sino que hace exactamente lo que sabe hacer —generar texto probable—, y lo probable no siempre coincide con lo cierto. No es que por dentro no haya nada. Hay, como muestran los estudios de interpretabilidad, regularidades hondas y hasta modelos internos de aquello sobre lo que habla. Lo que falta es un punto de apoyo fuera del lenguaje, una instancia que distinga decir algo cierto de decir algo que suena cierto. Para anclar esa diferencia hay que poder cotejar las palabras con el mundo, y el modelo solo tiene palabras.

Esta reflexión me llevó a buscar en la biblioteca un amarillento libro de poemas. Pertenecía a mi padre, exquisito lector de poesía y empedernido “pasador” de libros, ya que los consideraba preciados bienes que perdían su valor si se estancaban en el estante de una biblioteca. “Los libros se leen y se pasan” era su divisa, para desesperación mía, su hijo bibliófilo. Sin embargo, unos pocos volúmenes, que leía y releía, se salvaron del destino itinerante y los pude conservar. Todos ellos, libros de poemas.

El que ahora tengo en mis manos es un ejemplar de la colección Austral de Espasa-Calpe, una selección de poesías del poeta colombiano José Asunción Silva, en donde se halla el poema “Lentes ajenos”, que comienza: “A través de los libros amó siempre/ mi amigo Juan de Dios,/ y tengo presunciones de que nunca / supo lo que es amor.”

El poema, escrito hace más de un siglo, parece hablarme de los Chats generativos que, al igual que Juan de Dios, aman «a través de los libros», es decir, conocen el amor por interpósita página, en la versión que otros han dejado escrita, sin atravesar nunca la experiencia que esas palabras nombran. De ahí que la sospecha que el poeta hace recaer sobre su amigo es extensible a los sistemas de IA. No le faltan palabras; le falta aquello a lo que las palabras refieren.

Eso es, exactamente, un modelo de lenguaje. Todo lo que sabe, lo sabe a través de los libros, de los foros, de los manuales. Lentes ajenos, miradas de otros que el sistema heredó y recombina con una destreza asombrosa. Los LLM pueden hablar del amor, de la fotosíntesis, del Malbec o de Mendoza con la soltura de quien ha leído todo, y sin embargo nunca “tocó” nada de lo que describe. Por eso es incapaz de diferenciar “decir algo cierto” de “decir algo que suene cierto”. Para quien solo conoce el mundo por sus representaciones, el mapa es el territorio.

Entonces, quizás la verdadera pregunta no sea cuánto se parece la máquina a nosotros, sino cuánto se parece a Juan de Dios. El Gran Simulador no miente ni se equivoca, sino que ama a través de los libros, como aquel personaje, y mira la realidad con lentes que jamás fueron suyos.

Mi padre pasaba los libros porque sabía que el valor no está en el libro que reposa en el estante, sino que emerge ante el ojo que lo lee. La máquina nos devuelve, multiplicada hasta el vértigo, esa biblioteca prestada. Lo que no puede devolvernos es el haber vivido aquello de lo que tan bien sabe hablar.

El espejo de ELIZA, ahora pulido

Conviene recordar la primera nota de esta serie. Aquel programa de 1966, ELIZA, reformulaba frases con un puñado de reglas y ya conseguía que la gente le atribuyera comprensión. Los modelos actuales son inconmensurablemente más capaces, y la diferencia no es solo de fluidez. Donde ELIZA apenas barajaba plantillas, estos sistemas construyen representaciones internas densas de aquello de lo que hablan. Y, sin embargo, reproducen a una escala impensable el mismo malentendido de fondo. Porque tener un modelo del mundo no es lo mismo que tener el mundo. El sistema puede saber, y muy precisamente, cómo se relacionan entre sí las palabras —y hasta cómo se relacionan las cosas que esas palabras nombran, según quedó dicho en los textos que leyó—. Lo que no tiene es el otro extremo de la cuerda: la experiencia a la que, para nosotros, esas palabras refieren. Los LLM saben del mundo todo lo que se puede saber sin haber estado nunca en él.

Esto no los vuelve inútiles ni tramposos. Son herramientas extraordinarias para redactar, resumir, traducir, explorar ideas, programar. El error no está en usarlos, sino en confundir lo que son. Tratarlos como generadores sofisticados de texto plausible, que conviene verificar, y no como oráculos que conocen la verdad, los pone en su justo lugar.

Y hay cierta justicia poética en todo esto. Durante siglos los humanos imaginamos que una máquina inteligente razonaría como un filósofo o un científico partiendo de principios para deducir conclusiones. Pero lo que construimos fue otra cosa. Un sistema que aprendió a hablar imitando, a una escala inhumana, la forma en que hablamos nosotros, y de esa imitación brotó su estructura interna. Su inteligencia, si queremos llamarla así, es estadística y mimética en su origen; no deductiva, y mucho menos consciente.

Así que la próxima vez que un chat nos responda con elegancia, vale la pena recordar qué ocurre por dentro. No es una mente que medita la respuesta, sino un motor que estima, palabra por palabra, mediante miles de millones de operaciones matemáticas, qué seguiría diciendo alguien que escribiese como los millones de textos que leyó. Un motor que, para estimar bien, se ve forzado a modelar el mundo del texto sin habitarlo nunca. Un logro técnico asombroso. Y, a la vez, exactamente el tipo de cosa que nuestra mente social está predispuesta a confundir con un interlocutor.

Porque el problema, al final, nunca fue del todo de la máquina. ELIZA no comprendía nada, y aun así la gente le confesaba sus penas. La comprensión la ponía quien hablaba, no el programa que respondía. Sesenta años después, el espejo es el mismo, solo que pulido hasta encandilar, y con algo nuevo detrás del cristal que en ELIZA no estaba. Pero ese algo, por denso que sea, sigue siendo saber del mundo sin haber estado en él. La pregunta, entonces, no es si la máquina llegará a entendernos. Es si sabremos seguir distinguiendo entre quien habla del mundo y quien lo ha experimentado.

PARA ENTENDER MEJOR Cómo se elige cada palabra

En dos palabras Cuando un modelo “predice la próxima palabra”, no elige una sola: calcula una probabilidad para todas las palabras posibles y después sortea una. Ese paso —pasar de una lista de probabilidades a un token concreto— se llama muestreo (sampling), y es lo que separa un texto rígido y repetitivo de uno fluido y natural. Entender este mecanismo es entender por qué los modelos suenan creativos, por qué dan respuestas distintas a la misma pregunta y por qué, a veces, inventan con total aplomo.

El problema que resuelve Si el modelo eligiera siempre la palabra más probable, su escritura sería correcta pero monótona y previsible, y tendería a quedarse atrapado en bucles (“el el el”, o frases hechas que se repiten). El lenguaje humano no funciona así: entre las continuaciones plausibles de una frase hay muchas válidas, y un buen texto navega esa variedad. El muestreo introduce, de forma controlada, esa dosis de azar.

Cómo funciona la distribución Para cada posición, la última capa del modelo produce un número crudo (un logit) por cada token de su vocabulario —decenas de miles de opciones—. Una función llamada softmax convierte esos números en porcentajes que suman 100 %. Ante “el cielo está…”, el modelo podría asignar 60 % a “despejado”, 25 % a “nublado”, 5 % a “gris” y repartir el resto entre miles de alternativas. Recién entonces sortea una según esos pesos.

La temperatura Un único parámetro, la temperatura, regula cuánto azar se permite. Con temperatura baja (cercana a 0), el modelo se vuelve casi determinista: casi siempre toma la opción más probable, y suena preciso pero plano. Con temperatura alta, achata la distribución, da chance a opciones improbables y se vuelve más creativo… y más errático. Subir la temperatura es, literalmente, autorizar al sistema a apartarse de lo más probable.

Top-k y top-p Para evitar disparates, no se sortea sobre las decenas de miles de tokens, sino sobre un recorte de los más probables: top-k se queda con los k candidatos de mayor peso; top-p (o muestreo de núcleo) toma los que acumulan, sumados, cierta probabilidad (por ejemplo, el 90 %). El resto se descarta. Así el texto conserva variedad sin caer en lo absurdo.

Una analogía cotidiana Imaginá una ruleta donde el tamaño de cada casillero es proporcional a qué tan probable es esa palabra. “Despejado” ocupa más de la mitad del disco; “nublado”, un cuarto; miles de palabras raras, apenas una rendija. El modelo hace girar esa ruleta para cada palabra que escribe. La temperatura agranda o achica los casilleros chicos; el top-p directamente tapa los más improbables antes de tirar.

Por qué esto explica las alucinaciones Acá se ve con nitidez lo que la nota llama el problema central. La ruleta no tiene una casilla que diga “verdad” y otra “mentira”: solo casillas con palabras y sus probabilidades. Cuando el modelo inventa una cita o atribuye un libro al autor equivocado, no falló la mecánica —giró la ruleta como siempre—; simplemente lo estadísticamente plausible no coincidió con lo cierto. Una temperatura más alta vuelve esos desvíos más frecuentes, pero el riesgo nunca es cero: está en la naturaleza misma de elegir por probabilidad.

Qué hace y qué no hace El muestreo es lo que da a estos sistemas su voz natural, su capacidad de sorprender y de no repetirse. Lo que no hace —lo que ningún ajuste de temperatura o top-p puede hacer— es chequear contra el mundo. Decide entre palabras según su peso estadístico, no entre afirmaciones según su verdad.

Lo que conecta con la nota La máquina “no distingue entre decir algo cierto y decir algo que parece cierto”; este recuadro muestra exactamente dónde ocurre esa indistinción, en el instante en que se sortea una palabra de una distribución de probabilidades donde la verdad no es una de las variables. El “Gran Simulador” no es solo una metáfora poética. Es la descripción técnica precisa de un sistema que, palabra por palabra, apuesta a lo más esperable —y a veces gana en elegancia lo que pierde en exactitud.