Categoría: Artículos

  • #3 – El Gran Simulador

    #3 – El Gran Simulador

    Si le pedimos a un asistente conversacional algorítmico como el Chat GPT o Claude que nos explique la fotosíntesis, que redacte una carta de renuncia, haga una lista de los mejores Malbec argentinos o componga un soneto sobre Mendoza, lo hará con una soltura que cincuenta años atrás habría parecido ciencia ficción. La tentación de concluir que la máquina “entiende” es enorme. Pero lo que hace, en el fondo, es algo más modesto y extraño a la vez. Es predecir, una y otra vez, cuál es la palabra que probablemente vendría después.

    Esa es la operación elemental de un modelo de lenguaje. Recibe un texto y calcula, sobre la base de todo lo que vio durante su entrenamiento, qué fragmentos de palabra —los llamados tokens— son los más probables a continuación, elige uno y lo agrega; vuelve a calcular, agrega el siguiente, y así. Una carta, un poema o una explicación científica son, desde adentro del sistema, larguísimas cadenas de esa misma apuesta repetida millones de veces.

    Sería un error, sin embargo, imaginar ese proceso como algo ciego o puramente local. Para acertar la palabra que viene, un sistema entrenado a esta escala se ve obligado a armar, sobre la marcha, estructuras internas que organizan lo que dice. Se ha comprobado que, al componer un verso, por ejemplo, el modelo fija la palabra que rima antes de escribir la línea que desemboca en ella. Hay, en ese sentido, algo parecido a un plan. Lo que no hay es lo otro: una intención, una idea que el modelo quiera expresar. Hay una secuencia de predicciones encadenadas —apoyadas en una arquitectura interna sorprendentemente rica— que, vista desde afuera, forma un texto con sentido.

    Que de un mecanismo tan simple surja algo tan convincente tiene una explicación. El modelo fue entrenado con una porción enorme de lo que la humanidad escribió —libros, artículos, foros, manuales, conversaciones. Para predecir bien la próxima palabra en semejante diversidad de textos, tuvo que capturar regularidades muy profundas del lenguaje, como las reglas gramaticales, asociaciones entre conceptos, estructuras argumentativas, estilos. Esas regularidades, codificadas en miles de millones de parámetros ajustados durante el entrenamiento, son las que le permiten sonar coherente sobre casi cualquier tema.

    Pero acá comienzan a aparecer las grietas. El sistema no consulta una “base de hechos” ni contrasta lo que dice contra el mundo. Genera lo que resulta estadísticamente plausible a la luz de todo lo que leyó. Por eso, a veces, produce afirmaciones que suenan perfectas y son falsas. Inventa una cita, atribuye un libro a un autor equivocado o fabrica un dato con total aplomo. En la jerga se llama “alucinación”, aunque el término es engañoso. El sistema no se equivoca por un fallo, sino que hace exactamente lo que sabe hacer —generar texto probable—, y lo probable no siempre coincide con lo cierto. No es que por dentro no haya nada. Hay, como muestran los estudios de interpretabilidad, regularidades hondas y hasta modelos internos de aquello sobre lo que habla. Lo que falta es un punto de apoyo fuera del lenguaje, una instancia que distinga decir algo cierto de decir algo que suena cierto. Para anclar esa diferencia hay que poder cotejar las palabras con el mundo, y el modelo solo tiene palabras.

    Esta reflexión me llevó a buscar en la biblioteca un amarillento libro de poemas. Pertenecía a mi padre, exquisito lector de poesía y empedernido “pasador” de libros, ya que los consideraba preciados bienes que perdían su valor si se estancaban en el estante de una biblioteca. “Los libros se leen y se pasan” era su divisa, para desesperación mía, su hijo bibliófilo. Sin embargo, unos pocos volúmenes, que leía y releía, se salvaron del destino itinerante y los pude conservar. Todos ellos, libros de poemas.

    El que ahora tengo en mis manos es un ejemplar de la colección Austral de Espasa-Calpe, una selección de poesías del poeta colombiano José Asunción Silva, en donde se halla el poema “Lentes ajenos”, que comienza: “A través de los libros amó siempre/ mi amigo Juan de Dios,/ y tengo presunciones de que nunca / supo lo que es amor.”

    El poema, escrito hace más de un siglo, parece hablarme de los Chats generativos que, al igual que Juan de Dios, aman «a través de los libros», es decir, conocen el amor por interpósita página, en la versión que otros han dejado escrita, sin atravesar nunca la experiencia que esas palabras nombran. De ahí que la sospecha que el poeta hace recaer sobre su amigo es extensible a los sistemas de IA. No le faltan palabras; le falta aquello a lo que las palabras refieren.

    Eso es, exactamente, un modelo de lenguaje. Todo lo que sabe, lo sabe a través de los libros, de los foros, de los manuales. Lentes ajenos, miradas de otros que el sistema heredó y recombina con una destreza asombrosa. Los LLM pueden hablar del amor, de la fotosíntesis, del Malbec o de Mendoza con la soltura de quien ha leído todo, y sin embargo nunca “tocó” nada de lo que describe. Por eso es incapaz de diferenciar “decir algo cierto” de “decir algo que suene cierto”. Para quien solo conoce el mundo por sus representaciones, el mapa es el territorio.

    Entonces, quizás la verdadera pregunta no sea cuánto se parece la máquina a nosotros, sino cuánto se parece a Juan de Dios. El Gran Simulador no miente ni se equivoca, sino que ama a través de los libros, como aquel personaje, y mira la realidad con lentes que jamás fueron suyos.

    Mi padre pasaba los libros porque sabía que el valor no está en el libro que reposa en el estante, sino que emerge ante el ojo que lo lee. La máquina nos devuelve, multiplicada hasta el vértigo, esa biblioteca prestada. Lo que no puede devolvernos es el haber vivido aquello de lo que tan bien sabe hablar.

    El espejo de ELIZA, ahora pulido

    Conviene recordar la primera nota de esta serie. Aquel programa de 1966, ELIZA, reformulaba frases con un puñado de reglas y ya conseguía que la gente le atribuyera comprensión. Los modelos actuales son inconmensurablemente más capaces, y la diferencia no es solo de fluidez. Donde ELIZA apenas barajaba plantillas, estos sistemas construyen representaciones internas densas de aquello de lo que hablan. Y, sin embargo, reproducen a una escala impensable el mismo malentendido de fondo. Porque tener un modelo del mundo no es lo mismo que tener el mundo. El sistema puede saber, y muy precisamente, cómo se relacionan entre sí las palabras —y hasta cómo se relacionan las cosas que esas palabras nombran, según quedó dicho en los textos que leyó—. Lo que no tiene es el otro extremo de la cuerda: la experiencia a la que, para nosotros, esas palabras refieren. Los LLM saben del mundo todo lo que se puede saber sin haber estado nunca en él.

    Esto no los vuelve inútiles ni tramposos. Son herramientas extraordinarias para redactar, resumir, traducir, explorar ideas, programar. El error no está en usarlos, sino en confundir lo que son. Tratarlos como generadores sofisticados de texto plausible, que conviene verificar, y no como oráculos que conocen la verdad, los pone en su justo lugar.

    Y hay cierta justicia poética en todo esto. Durante siglos los humanos imaginamos que una máquina inteligente razonaría como un filósofo o un científico partiendo de principios para deducir conclusiones. Pero lo que construimos fue otra cosa. Un sistema que aprendió a hablar imitando, a una escala inhumana, la forma en que hablamos nosotros, y de esa imitación brotó su estructura interna. Su inteligencia, si queremos llamarla así, es estadística y mimética en su origen; no deductiva, y mucho menos consciente.

    Así que la próxima vez que un chat nos responda con elegancia, vale la pena recordar qué ocurre por dentro. No es una mente que medita la respuesta, sino un motor que estima, palabra por palabra, mediante miles de millones de operaciones matemáticas, qué seguiría diciendo alguien que escribiese como los millones de textos que leyó. Un motor que, para estimar bien, se ve forzado a modelar el mundo del texto sin habitarlo nunca. Un logro técnico asombroso. Y, a la vez, exactamente el tipo de cosa que nuestra mente social está predispuesta a confundir con un interlocutor.

    Porque el problema, al final, nunca fue del todo de la máquina. ELIZA no comprendía nada, y aun así la gente le confesaba sus penas. La comprensión la ponía quien hablaba, no el programa que respondía. Sesenta años después, el espejo es el mismo, solo que pulido hasta encandilar, y con algo nuevo detrás del cristal que en ELIZA no estaba. Pero ese algo, por denso que sea, sigue siendo saber del mundo sin haber estado en él. La pregunta, entonces, no es si la máquina llegará a entendernos. Es si sabremos seguir distinguiendo entre quien habla del mundo y quien lo ha experimentado.

    PARA ENTENDER MEJOR Cómo se elige cada palabra

    En dos palabras Cuando un modelo “predice la próxima palabra”, no elige una sola: calcula una probabilidad para todas las palabras posibles y después sortea una. Ese paso —pasar de una lista de probabilidades a un token concreto— se llama muestreo (sampling), y es lo que separa un texto rígido y repetitivo de uno fluido y natural. Entender este mecanismo es entender por qué los modelos suenan creativos, por qué dan respuestas distintas a la misma pregunta y por qué, a veces, inventan con total aplomo.

    El problema que resuelve Si el modelo eligiera siempre la palabra más probable, su escritura sería correcta pero monótona y previsible, y tendería a quedarse atrapado en bucles (“el el el”, o frases hechas que se repiten). El lenguaje humano no funciona así: entre las continuaciones plausibles de una frase hay muchas válidas, y un buen texto navega esa variedad. El muestreo introduce, de forma controlada, esa dosis de azar.

    Cómo funciona la distribución Para cada posición, la última capa del modelo produce un número crudo (un logit) por cada token de su vocabulario —decenas de miles de opciones—. Una función llamada softmax convierte esos números en porcentajes que suman 100 %. Ante “el cielo está…”, el modelo podría asignar 60 % a “despejado”, 25 % a “nublado”, 5 % a “gris” y repartir el resto entre miles de alternativas. Recién entonces sortea una según esos pesos.

    La temperatura Un único parámetro, la temperatura, regula cuánto azar se permite. Con temperatura baja (cercana a 0), el modelo se vuelve casi determinista: casi siempre toma la opción más probable, y suena preciso pero plano. Con temperatura alta, achata la distribución, da chance a opciones improbables y se vuelve más creativo… y más errático. Subir la temperatura es, literalmente, autorizar al sistema a apartarse de lo más probable.

    Top-k y top-p Para evitar disparates, no se sortea sobre las decenas de miles de tokens, sino sobre un recorte de los más probables: top-k se queda con los k candidatos de mayor peso; top-p (o muestreo de núcleo) toma los que acumulan, sumados, cierta probabilidad (por ejemplo, el 90 %). El resto se descarta. Así el texto conserva variedad sin caer en lo absurdo.

    Una analogía cotidiana Imaginá una ruleta donde el tamaño de cada casillero es proporcional a qué tan probable es esa palabra. “Despejado” ocupa más de la mitad del disco; “nublado”, un cuarto; miles de palabras raras, apenas una rendija. El modelo hace girar esa ruleta para cada palabra que escribe. La temperatura agranda o achica los casilleros chicos; el top-p directamente tapa los más improbables antes de tirar.

    Por qué esto explica las alucinaciones Acá se ve con nitidez lo que la nota llama el problema central. La ruleta no tiene una casilla que diga “verdad” y otra “mentira”: solo casillas con palabras y sus probabilidades. Cuando el modelo inventa una cita o atribuye un libro al autor equivocado, no falló la mecánica —giró la ruleta como siempre—; simplemente lo estadísticamente plausible no coincidió con lo cierto. Una temperatura más alta vuelve esos desvíos más frecuentes, pero el riesgo nunca es cero: está en la naturaleza misma de elegir por probabilidad.

    Qué hace y qué no hace El muestreo es lo que da a estos sistemas su voz natural, su capacidad de sorprender y de no repetirse. Lo que no hace —lo que ningún ajuste de temperatura o top-p puede hacer— es chequear contra el mundo. Decide entre palabras según su peso estadístico, no entre afirmaciones según su verdad.

    Lo que conecta con la nota La máquina “no distingue entre decir algo cierto y decir algo que parece cierto”; este recuadro muestra exactamente dónde ocurre esa indistinción, en el instante en que se sortea una palabra de una distribución de probabilidades donde la verdad no es una de las variables. El “Gran Simulador” no es solo una metáfora poética. Es la descripción técnica precisa de un sistema que, palabra por palabra, apuesta a lo más esperable —y a veces gana en elegancia lo que pierde en exactitud.

  • #2 – La cuestión de la escala

    #2 – La cuestión de la escala

    Madrid. Abril de 2024. Había viajado invitado por la OPS para participar en el I Encuentro Internacional de Divulgación Científica, Salud e Impacto Social organizado en la Universidad Complutense. En otra dependencia de ese inmenso centro de estudios se llevaba a cabo por esas fechas un encuentro sobre Inteligencia Artificial. Las ponencias se focalizaban en los Grandes Modelos de Lenguaje (LLM, en inglés) y especialmente, en el primer sistema de inteligencia artificial conversacional que se popularizó en el mundo: el Chat GPT. Un mes antes, Open AI había lanzado el GPT-4 y los presentes hablaban de regulación, divulgación, educación y usos profesionales. Asistí a algunos paneles, y en uno de ellos escuché una anécdota que me dejó pensando.

    La escena fue muy teatral. Quien hablaba —no pude retener su nombre— era consciente de ser una de las estrellas del encuentro, un estadounidense, que comenzó diciendo muy orondo: «Soy uno de los seis que desarrollamos el texto predictivo, ese que todos Uds. usan, por ejemplo, en sus teléfonos. Mis amigos lo saben y muchas veces presumen de ello. Me invitan a sus casas a cenar con otros de sus amigos y me presentan de esa manera, señalándome: ‘él es uno de los seis que desarrollaron el texto predictivo…’ Y entonces, la mayoría de las veces, alguno de los comensales saca su teléfono y me pregunta: ‘¿Por qué cuando yo pongo esto… me muestra aparece esto?’ Y yo, que soy uno de los seis que desarrollamos el sistema, me frustro. Podría contarle con pelos y señales cómo está configurada esa aplicación, pero no puedo explicarle concretamente por qué si él pone tal expresión, continúa esa y no otra palabra…”

    La anécdota es por demás potente para iluminar uno de los grandes temas de la relación de la inteligencia artificial con sus creadores. Cuando el científico de datos describía esa imposibilidad de explicar por qué el sistema había elegido esa y no otra palabra, estaba presentándonos el problema de la caja negra: sistemas que funcionan con asombrosa eficacia y cuyo funcionamiento interno, sin embargo, nadie alcanza a explicar del todo. Y esa opacidad, en nuestro caso, es ante todo una cuestión de escala.

    Para entenderlo hay que asomarse, aunque sea brevemente, a la arquitectura de estos sistemas. Los grandes modelos de lenguaje —como el GPT que protagonizó aquellas ponencias madrileñas— son redes neuronales artificiales entrenadas con cantidades astronómicas de texto. Una red neuronal es, en términos simples, una cadena de capas matemáticas. Cada capa recibe información, la transforma mediante millones de operaciones, y pasa el resultado a la siguiente. Al final de ese recorrido, el sistema produce una salida. La palabra que, estadísticamente, tiene mayor probabilidad de continuar la secuencia que el usuario escribió.

    Lo que distingue a los modelos contemporáneos de sus predecesores es una arquitectura específica llamada transformer, introducida por investigadores de Google en 2017 y que revolucionó el campo. Los transformers incorporan un mecanismo llamado atención (attention, en inglés). En lugar de procesar las palabras de un texto de manera lineal, el sistema puede, en cada paso, «prestarle atención» a cualquier otra parte del texto, ponderando qué relaciones son más relevantes. Es esa capacidad de capturar contexto a larga distancia lo que permite a estos modelos producir respuestas tan coherentes, tan sorprendentemente pertinentes.

    Ahora bien, un modelo como GPT-4 opera en el orden de un billón de parámetros. Un parámetro es un número —un peso— que regula cuánta influencia tiene una conexión entre dos neuronas artificiales. Esos billones de pesos se ajustan durante el entrenamiento mediante un proceso de optimización que compara lo que el modelo predice con lo que debería haber predicho, y corrige el error una y otra vez, sobre miles de millones de ejemplos de texto. El resultado es una red cuya capacidad de predicción es asombrosa y cuyo funcionamiento interno nadie comprende del todo. Y es aquí donde la escala se vuelve extremadamente relevante.

    Si quisiéramos hacer ingeniería inversa de una sola decisión del modelo —entender por qué eligió la palabra «libertad» y no «independencia» en determinado contexto— tendríamos que rastrear cómo ese contexto activó ciertas neuronas, qué pesos amplificaron o suprimieron esas señales a lo largo de decenas de capas, y cómo la competencia probabilística entre miles de candidatos se resolvió en favor de ese token preciso. Eso, multiplicado por un billón de parámetros, convierte la tarea en algo prácticamente inconcebible. No nos alcanzarían varias vidas humanas para recorrer ese laberinto, aun teniendo acceso completo a los pesos del modelo, lo cual raramente ocurre.

    Chris Wiggins, matemático de Columbia y científico-jefe de datos del New York Times, lo describió con honestidad infrecuente en el mundo académico. Dijo: estamos todavía en lo que podría llamarse la etapa alquímica. Estamos construyendo grandes modelos de lenguaje sin una comprensión a priori clara del diseño correcto para el problema correcto.

    La alquimia es una metáfora apropiada. Los alquimistas medievales producían resultados reales —aleaciones, tinturas, procesos— sin comprender la teoría que los sustentaba. No eran charlatanes, iban a tientas. De manera análoga, hoy construimos sistemas que funcionan —que predicen, que responden, que crean— sin poder explicar del todo por qué funcionan. La diferencia es de escala. Los alquimistas trabajaban en hornos de piedra; los ingenieros actuales, en centros de datos que consumen tanta electricidad como ciudades medianas.

    Esa asimetría entre capacidad y comprensión tiene consecuencias que van más allá de la anécdota del congreso. Cuando un médico usa un sistema de IA para asistir un diagnóstico, cuando un juez pondera una herramienta de evaluación de riesgo, cuando un algoritmo decide qué crédito obtiene quién, la pregunta de por qué eso es así y no de otra manera no es académica. Es ética, es legal, es política. Y la respuesta honesta, con frecuencia, es que nadie lo sabe del todo.

    No se trata de plantear una mirada catastrófica. Lejos de eso. Se trata de reconocer que hemos creado herramientas cuya potencia excede nuestra capacidad de auditarlas. La reversibilidad del conocimiento —esa posibilidad de desandar el camino y comprender cada paso— que caracterizó a la ciencia desde Galileo hasta la era de los algoritmos deterministas, se pone en tensión aquí hasta casi quebrarse.

    Lo que el estadounidense describió en Madrid, con su historia de cenas y teléfonos, no era una anécdota curiosa. Era el retrato de una nueva condición epistémica. Somos capaces de construir sistemas inteligentes —ya trataremos el tema de la inteligencia en otro artículo— que no podemos comprender del todo, y esos sistemas ya están entre nosotros, tomando decisiones, modelando conversaciones, sugiriendo palabras. El texto predictivo fue el primer atisbo cotidiano de ese mundo. Los grandes modelos de lenguaje son su versión más acabada —por ahora. Y la pregunta que aquella sala madrileña no terminó de responder es si esa opacidad es un problema técnico transitorio que la ciencia resolverá, o si es una característica estructural de cierto tipo de sistema inteligente que, para ser tan potente como es, no puede ser del todo transparente.

    Esa pregunta se agudiza aún más cuando se considera uno de los fenómenos más desconcertantes que los investigadores han observado en los últimos años: las llamadas capacidades emergentes. Se trata de habilidades que los modelos no parecen adquirir gradualmente, sino que aparecen de manera abrupta, casi sin aviso, al cruzar ciertos umbrales de escala. Un modelo entrenado con cien millones de parámetros no sabe razonar en cadena; uno entrenado con cien mil millones, sí. Nadie lo programó para eso. Nadie lo anticipó del todo.

    En 2022, investigadores de Google documentaron decenas de estas capacidades —desde la resolución de analogías hasta la aritmética modular— que emergían de manera discontinua, como si el sistema hubiera alcanzado una masa crítica y algo cualitativamente nuevo hubiera brotado de la cantidad. El debate sobre si estas emergencias son reales o una consecuencia de cómo medimos el rendimiento sigue abierto; pero lo que no está en disputa es el hecho central. A cierta escala, los sistemas hacen cosas que sus creadores no esperaban que hicieran.

    El texto predictivo que frustraba a nuestro buen amigo americano era apenas el primer síntoma de ese fenómeno. Lo que vino después —modelos que escriben código, que razonan sobre hipótesis científicas, que traducen idiomas que nadie les enseñó explícitamente— pertenece a la misma lógica: la escala no solo amplifica las capacidades conocidas; a veces las reinventa.

    PARA ENTENDER MEJOR

    Qué es un Transformer

    En dos palabras El transformer es la arquitectura de red neuronal que hizo posibles los modelos de lenguaje actuales. Su idea central es un mecanismo llamado “atención”. Lo presentó en 2017 un equipo de ocho investigadores de Google en el artículo Attention Is All You Need (“Atención es todo lo que necesitas”). Hoy, prácticamente todos los grandes sistemas de inteligencia artificial —GPT, Gemini, Claude— se construyen sobre esa misma base.

    El problema que resolvió Para predecir la próxima palabra, un sistema necesita tener en cuenta el contexto. En la frase “el músico afinó su…”, la palabra que falta depende de “músico” y “afinó”, no de cualquier término suelto. La arquitectura dominante hasta entonces, la red neuronal recurrente (RNN), procesaba el texto palabra por palabra, en orden, manteniendo una suerte de “memoria” de lo ya leído. Pero esa memoria se degradaba con la distancia. Al llegar al final de un párrafo largo, el sistema tendía a “olvidar” lo del principio y fallaba al vincular palabras separadas, como el sujeto de una oración y su verbo principal. El transformer cambió ese enfoque.

    Cómo funciona la atención El mecanismo de atención (self-attention) permite que, al procesar cada palabra, el modelo pese cuánto debe “mirar” a todas las demás de la secuencia a la vez, no solo a las vecinas. Ese cálculo produce un mapa de atención, una matriz de pesos que indica cuánta atención presta cada palabra a cada otra. En la frase “el banco donde trabajo está en la orilla del río”, la atención conecta “banco” con “orilla” y “río” en el extremo opuesto de la oración y resuelve la ambigüedad sin importar cuántas palabras los separen. Hacer esto en paralelo sobre todo el texto —en lugar de palabra por palabra— es lo que volvió a estos modelos entrenables a gran escala y mucho más potentes.

    Tokens, no palabras Un detalle importante es que el transformer no opera exactamente con palabras, sino con tokens, fragmentos que pueden ser una palabra entera, un trozo de palabra o un signo. “Imposible” podría partirse en “im” y “posible”. Antes de procesarlo, cada token se convierte en un vector, una lista de números que ubica su significado en un espacio matemático; palabras cercanas en sentido —”rey” y “monarca”— quedan próximas en ese espacio, y se les suma información sobre su posición en la frase. El modelo predice el próximo token, y de la sucesión de tokens emerge el texto.

    Cómo está construido Un transformer apila muchas capas, y cada capa hace dos cosas. Primero, corre varias instancias de la atención en paralelo (multi-head attention) para captar distintos tipos de relaciones a la vez, y después pasa el resultado por una red neuronal estándar que lo transforma. Tiene un codificador, que comprime el texto de entrada en una representación densa, y un decodificador, que genera la salida. Los modelos generativos como GPT usan solo el decodificador; otros orientados a la comprensión, como BERT, usan solo el codificador.

    Una analogía cotidiana Imaginá leer una frase y, antes de interpretar cada palabra, resaltar con marcador las otras palabras de la oración que más ayudan a entenderla. Para un pronombre como “lo”, resaltarías el sustantivo al que reemplaza. La atención es, a grandes rasgos, ese resaltado, hecho de forma automática y simultánea para cada token.

    Por qué la escala importa La misma arquitectura cambia de carácter según su tamaño. Un transformer pequeño —digamos, diez millones de parámetros— traduce oraciones simples o resume textos breves. Uno con cien mil millones de parámetros razona por analogía, escribe código funcional o responde sobre dominios que nunca se le enseñaron de forma explícita. Nadie reprograma el modelo para eso: es el mismo diseño, escalado. Por eso la carrera entre laboratorios no es solo por mejores arquitecturas, sino por más datos, más parámetros y más cómputo. En los transformers, la cantidad tiene una forma peculiar de convertirse en calidad.

    Qué hace y qué no hace El transformer es extraordinariamente bueno capturando qué elementos del texto se relacionan con cuáles, y a qué distancia. Eso explica la coherencia de largo aliento de los modelos actuales: pueden mantener el hilo de un párrafo entero. Lo que el mecanismo no incorpora es ningún anclaje en la realidad fuera del texto. La atención relaciona palabras con palabras, no palabras con cosas.

    Lo que conecta con la nota Entender el transformer ayuda a ver por qué esta nota habla de escala y de cajas negras. La arquitectura es pública, está bien documentada y, en el fondo, es elegante, cabe en un diagrama. Lo que se vuelve inabarcable no es la idea, sino lo que ocurre cuando se la multiplica por un billón de parámetros y se la repite a lo largo de miles de capas. El mismo mecanismo de atención que ordena con claridad una frase corta, llevado a esa escala, produce un sistema cuyo funcionamiento interno nadie recorre del todo —y del que brotan, al cruzar ciertos umbrales, capacidades que nadie programó ni anticipó. Esa es la paradoja que atraviesa el artículo. Comprendemos la pieza y no comprendemos el todo. La potencia no vive en la complejidad del diseño, sino en la escala a la que se lo lleva.

  • # 1 – Cómo aprendimos a pensar con cosas

    # 1 – Cómo aprendimos a pensar con cosas

    Crónicas de las tecnologías intelectuales

    Una serie de artículos de divulgación sobre la inteligencia artificial y la larga historia de pensar con dispositivos

    Presentación de la serie

    Hay una imagen del pensamiento que arrastramos desde hace siglos. Es la de un cerebro encerrado en su cráneo produciendo ideas como una fábrica silenciosa que no necesita nada del afuera.

    Esa imagen es falsa. No pensamos solo con el cerebro. Pensamos con el cerebro y con todo el cuerpo —con las manos, al hacer; con los sentidos, en toda su variedad de percepciones—, y pensamos también con cosas, con elementos que laboriosamente fuimos desarrollando como humanidad a lo largo de nuestra existencia.

    Pensamos con el ábaco, con el mapa, con el libro, con la computadora. Esas cosas no son meras ayudas externas a un pensamiento ya desarrollado. Son extensiones de nuestro cuerpo y de nuestra mente, prolongaciones a través de las cuales el pensar efectivamente sucede.

    La humanidad fue inventando, a lo largo de su historia, una sucesión de objetos técnicos con los que amplió, reorganizó y transformó sus capacidades de conocer: la escritura, la matemática, la informática. El sociólogo Pierre Lévy los llamó tecnologías intelectuales. Cada uno de ellos modificó no solo lo que podíamos pensar, sino el modo mismo en que lo hacemos.

    Así, la inteligencia artificial generativa de hoy no cae del cielo como una novedad sin pasado. Es el último eslabón de esa cadena larguísima de cosas con las que pensamos.

    De ahí que estas crónicas proponen tratar de comprender estos objetos técnicos como extensiones desarrolladas y fabricadas por nosotros, y sus incidencias sobre nuestros modos de hacer y pensar. Ni alentar el deslumbramiento ante estos sistemas, ni el pánico ante ellos.

    #1.- ELIZA, el primer chatbot, y sus efectos

    Una IBM 7094 como la que corría ELIZA en el MIT en 1966

    Corría 1966 y las computadoras eran bastante distintas a las actuales. Su tamaño y costo las hacían escasas y, por lo tanto, debían ser utilizadas el mayor tiempo posible por la mayor cantidad de científicos.

    Eso obligó a los ingenieros a generar protocolos de uso de tiempo compartido (CTSS), lo que trajo como consecuencia un nuevo tipo de interacción entre los usuarios y el mainframe —en este caso, una IBM 7094—. La interacción era textual, a través de terminales tipo teletipo, una especie de máquina de escribir conectada al sistema. El usuario escribía una frase; la computadora procesaba esa entrada y devolvía otra línea impresa.

    El desarrollo de CTSS fue clave para nuestra historia porque permitía esa interacción en tiempo real con varios usuarios, no el viejo modo por lotes en el que se entregaban tarjetas perforadas y se esperaba el resultado horas después.

    En ese contexto, Joseph Weizenbaum, un ingeniero alemán que había emigrado de niño a EE.UU huyendo del nazismo, desarrolló un programa llamado ELIZA, con diversas rutinas interactivas. La más famosa se llamó DOCTOR e imitaba —más bien, parodiaba— el comportamiento no directivo de un psicoterapeuta de la escuela de Carl Rogers. De esa manera parecía “escuchar” y devolver preguntas abiertas.

    Por ejemplo, si un usuario o usuaria escribía: “Todos los hombres son iguales.”, ELIZA respondía: “¿En qué sentido?”. Esa respuesta no surgía de comprender la frase, sino de detectar en ella una estructura y devolver una pregunta abierta.

    Otro procedimiento típico era la inversión pronominal. Si el usuario decía: “Mi padre me odia.”, ELIZA podía transformar la frase en algo como: “¿Por qué pensás que tu padre te odia?” Es decir, tomaba fragmentos de la frase, cambiaba “yo” por “vos”, “mi” por “tu”, “me” por “te”, y los insertaba en una plantilla de respuesta, que había sido generada y programada previamente por el creador del programa. Ese procedimiento producía el efecto de una escucha clínica, aunque en realidad era una combinación de detección de patrones, sustitución gramatical y preguntas no directivas.

    Cuando no encontraba ninguna palabra que reconociera, DOCTOR tiraba una frase comodín: “continúe, por favor” o “qué interesante”. No había memoria, ni comprensión, ni intención. Había un repertorio de plantillas y un mecanismo para llenarlas.

    La señal de alerta

    Lo que ocurrió después sorprendió al propio Weizenbaum y terminó marcándole la vida. Un día, su secretaria, que sabía perfectamente que ELIZA era un programa escrito por su jefe —lo había visto trabajar en él durante meses—, le pidió permiso para “hablar” con el sistema. Weizenbaum la observó mientras escribía algunas frases y, después de unos pocos intercambios, ella se dio vuelta y le pidió: “¿Le molestaría salir de la habitación, por favor?”.

    Aun sabiendo que era una máquina, la situación conversacional generaba una demanda de intimidad. La secretaria quería quedarse a solas con el dispositivo, como si hablara con alguien ante quien pudiese decir cosas privadas. Weizenbaum interpretó la escena como prueba de que el programa podía sostener con éxito la ilusión de comprensión, justamente porque producía respuestas plausibles y disimulaba sus malentendidos.

    En su libro de 1976, “Computer Power and Human Reason”, Weizenbaum dice que le sorprendió ver cuán rápida y profundamente las personas que conversaban con DOCTOR se involucraban emocionalmente con la computadora y la antropomorfizaban, como le ocurrió a su secretaria. Para él, la escena, entonces, no debe leerse como “la secretaria fue engañada por una IA”, sino de un modo más preciso.

    Concluir que la forma conversacional produjo una transferencia mínima de confianza e intimidad, aun cuando la usuaria sabía que no había allí comprensión real. Así, no hacía falta que el sistema entendiese; bastó con que devolviera las palabras bajo una forma suficientemente reconocible, atenta y no directiva para que el sujeto pudiese completar la escena con su propia suposición de escucha y comprensión.

    Ese fenómeno tiene hoy un nombre: el efecto ELIZA. Es nuestra tendencia humana, casi irresistible, a atribuir comprensión, intención y hasta emociones a un sistema que solamente produce respuestas con la forma adecuada. Este efecto es producto del funcionamiento normal de una mente social como la nuestra, entrenada por la evolución para suponer que detrás de un lenguaje coherente hay otra mente. Cuando algo nos habla con fluidez, nuestro primer reflejo no es preguntar cómo funciona, sino responderle.

    Dicho más técnicamente, el efecto ELIZA se explica por tres factores principales: la tendencia humana a antropomorfizar objetos y tecnologías, la facilidad con que una interacción superficial puede generar ilusión de profundidad, y el deseo de sentirse escuchado y comprendido. En contextos cercanos a la terapia, como la rutina DOCTOR, esta predisposición se intensifica, porque los usuarios buscan conexión emocional y pueden proyectar en la máquina una sensibilidad que en realidad no posee.

    Weizenbaum quedó tan perturbado por esa facilidad que dio un giro inesperado. El hombre que había construido uno de los programas conversacionales más famosos de la historia se convirtió en uno de los críticos más severos de la incipiente inteligencia artificial.

    Le inquietaba mucho menos lo que las máquinas podían hacer que lo que las personas estaban dispuestas a creer sobre ellas. Se preguntaba: si bastan unas pocas reglas de reformulación para que alguien deposite su intimidad en un programa de computación, ¿qué pasará cuando los programas se vuelvan realmente sofisticados?

    El “homo suggestibilis”

    Weizenbaum concluyó que incluso exposiciones muy breves a un programa relativamente simple podían inducir formas poderosas de pensamiento ilusorio en personas perfectamente normales.

    Nosotros ponemos el acento en que el efecto ELIZA es posible gracias a una disposición que nos constituye a los seres humanos como hablantes. Llamamos a esa disposición sugestibilidad. No designa un defecto a corregir ni una debilidad de los crédulos, sino una condición antropológica: somos permeables a la palabra del otro. Esa misma permeabilidad es la que hace posibles el amor, la educación, la transmisión de un saber, el psicoanálisis, y también el poder ser hipnotizados. Sin ella no habría vínculo humano alguno.

    Pero también es la sugestibilidad la que hace que no haga falta que el sistema entienda; basta con que nos devuelva palabras bajo una forma suficientemente estructurada y reconocible para que el sujeto complete la escena con su propia suposición de que su mensaje fue recibido y entendido.

    Frente a la infinidad de contenidos que circulan por medios y redes sociales acerca de la posibilidad de pensamiento y sentimiento por parte de las IA, debemos recordar, en primer lugar, nuestra sugestibilidad y en segundo, el efecto ELIZA. El verdadero riesgo aparece si los humanos dejamos de notar que el pensamiento o sentimiento que recibimos de los sistemas algorítmicos son los nuestros invertidos.