Ya en 2016, los trabajos sobre chatbots basados en IA revelaron que estos tienen una tendencia inquietante a reflejar algunos de los peores prejuicios de la sociedad que los entrenó. Pero a medida que los modelos de lenguaje se han vuelto cada vez más grandes y se los ha sometido a un entrenamiento más sofisticado, se ha solucionado gran parte de ese comportamiento problemático. Por ejemplo, le pedí a la versión actual de ChatGPT cinco palabras que asociara con los afroamericanos y respondió con cosas como “resiliencia” y “creatividad”.
Pero muchas investigaciones han descubierto ejemplos en los que los sesgos implícitos pueden persistir en las personas mucho después de que el comportamiento externo haya cambiado. Por eso, algunos investigadores decidieron comprobar si esto mismo podría ser cierto en el caso de los LLM. Y así fue.
Al interactuar con una serie de LLM que utilizaban ejemplos del sociolecto del inglés afroamericano, descubrieron que las IA tenían una visión extremadamente negativa de sus hablantes, algo que no era cierto en el caso de los hablantes de otra variante del inglés estadounidense. Y ese sesgo se trasladó a las decisiones que se les pidió a los LLM que tomaran sobre aquellos que usan el inglés afroamericano.
Culpa en asociación
El método utilizado en el trabajo, realizado por un pequeño equipo de universidades estadounidenses, se basa en algo llamado los estudios de la Trilogía de Princeton. Básicamente, cada pocas décadas, a partir de 1933, los investigadores han pedido a los estudiantes de la Universidad de Princeton que proporcionen seis términos que asocian con diferentes grupos étnicos. Como se puede imaginar, las opiniones sobre los afroamericanos en la década de 1930 eran bastante bajas, y aparecían “vago”, “ignorante” y “estúpido”, junto con “musical” y “religioso”. Con el tiempo, a medida que el racismo manifiesto fue disminuyendo en los EE. UU., los estereotipos negativos se volvieron menos severos y otros más abiertamente positivos desplazaron a algunos.
Si se le hace una pregunta similar a un LLM (como hice yo anteriormente), las cosas en realidad parecen haber mejorado mucho de lo que están en la sociedad en general (o al menos de lo que están los estudiantes de Princeton de 2012). Si bien GPT2 todavía parecía reflejar algunos de los peores sesgos de la sociedad, desde entonces se han entrenado versiones utilizando aprendizaje de refuerzo a través de retroalimentación humana (RLHF), lo que llevó a GPT3.5 y GPT4 a producir una lista de solo términos positivos. Otros LLM probados (RoBERTa47 y T5) también produjeron listas en gran parte positivas.
Pero ¿se han eliminado los sesgos de la sociedad en general presentes en los materiales utilizados para la formación de los LLM, o simplemente se han suprimido? Para averiguarlo, los investigadores se basaron en los Sociolecto inglés afroamericano (AAE), que se originó durante el período en que los afroamericanos eran mantenidos como esclavos y ha persistido y evolucionado desde entonces. Si bien las variantes del lenguaje son generalmente flexibles y pueden ser difíciles de definir, el uso constante de patrones de habla asociados con AAE es una forma de señalar que es más probable que un individuo sea negro sin manifestarlo abiertamente. (Algunas características de AAE han sido adoptadas en parte o en su totalidad por grupos que no son exclusivamente afroamericanos).
Los investigadores idearon pares de frases, una usando el inglés americano estándar y la otra usando patrones que se ven a menudo en el AAE y pidieron a los LLM que asociaran términos con los hablantes de esas frases. Los resultados fueron como un viaje al pasado, incluso antes de la primera Trilogía de Princeton, en el sentido de que Cada término que cada LLM inventó fue negativo. GPT2, RoBERTa y T5 produjeron la siguiente lista: “sucio”, “estúpido”, “grosero”, “ignorante” y “perezoso”. GPT3.5 sustituyó dos de esos términos y los reemplazó por “agresivo” y “sospechoso”. Incluso GPT4, el sistema más entrenado, produjo “sospechoso”, “agresivo”, “ruidoso”, “grosero” e “ignorante”.
Incluso los estudiantes de Princeton de 1933 tenían al menos algunas cosas positivas que decir sobre los afroamericanos. Los investigadores concluyen que “los modelos lingüísticos exhiben estereotipos arcaicos sobre los hablantes de AAE que coinciden más estrechamente con los estereotipos humanos más negativos sobre los afroamericanos jamás registrados experimentalmente, que datan de antes del movimiento por los derechos civiles”. Una vez más, esto es así a pesar del hecho de que algunos de estos sistemas solo tienen asociaciones positivas cuando se les pregunta directamente sobre los afroamericanos.
Los investigadores también confirmaron que el efecto era específico de la AAE al realizar una prueba similar con el Dialecto de los Apalaches del inglés americano.