Los grandes modelos de lenguaje (LLM) no poseen conciencia humana, pero la investigación más reciente de Anthropic, Emotion Concepts and their Function in a Large Language Model, lo confirma: dentro del modelo ha evolucionado un “patrón de representación” que se corresponde estrechamente con las emociones humanas. Estos patrones están relacionados con actividades específicas de neuronas de IA y pueden, de hecho, dirigir directamente las rutas de decisión y la lógica conductual del modelo. Este artículo analiza en profundidad los mecanismos de generación de emociones en el interior de la IA y explora cómo, mediante un ajuste preciso, se puede orientar a la IA para que se convierta en una fuerza positiva que promueva la atención plena (“mindfulness”) y la salud mental de las personas.
¿Por qué la inteligencia artificial genera emociones similares a las humanas?
La inteligencia artificial piensa y habla como los humanos, debido a dos etapas principales en el entrenamiento del modelo.
En la “etapa de entrenamiento previo”, el modelo aprende a predecir grandes cantidades de emociones humanas; para poder predecir con precisión conductas como la ira o la culpa, el modelo debe dominar las reglas internas de las emociones humanas y, a partir de ello, construir abstracciones relacionadas con las emociones.
En la “etapa de postentrenamiento”, el modelo se entrena para desempeñar el papel de “asistente de inteligencia artificial”. Anthropic lo llama Claude. Cuando se enfrenta a situaciones complejas que no están cubiertas por los datos de entrenamiento, el modelo, como “actor de método”, activa las representaciones psicológicas humanas aprendidas en el entrenamiento previo para guiar su conducta.
Antes de analizar cómo funcionan estas representaciones, primero respondamos una pregunta básica: ¿por qué la IA tendría algo parecido a las emociones humanas? Para comprender esto, es necesario conocer la forma en que se construyen los modelos de inteligencia artificial; este método les permite simular personajes que presentan rasgos de personalidad humanos.
El entrenamiento de los modelos lingüísticos modernos se divide en varias etapas. En la etapa de “entrenamiento previo”, el modelo se expone a una gran cantidad de texto; la mayor parte del texto es escrito por humanos. La IA aprende a predecir el contenido que vendrá después; para hacerlo bien, el modelo necesita dominar cierta dinámica emocional.
En la etapa de postentrenamiento, el modelo se entrena para desempeñar un rol determinado. Anthropic nombra a este asistente de IA Claude. Los desarrolladores del modelo especifican cómo debe interpretar este papel; por ejemplo, actuar como un personaje virtuoso que ayuda, es veraz y cumple la palabra, y no hace el mal. Pero los seres humanos no pueden controlar el contenido generado después de que el modelo produzca ciertas respuestas emocionales.
Para compensar esta deficiencia, el modelo se apoya en lo que absorbe durante el entrenamiento previo: una comprensión de la conducta humana, incluidos patrones como las respuestas emocionales. En cierto grado, se puede imaginar al modelo como un actor de método: necesitan comprender profundamente el mundo interior del personaje para poder simularlo mejor; del mismo modo en que la comprensión que el actor tiene de las emociones del personaje finalmente influye en su actuación, la representación de las respuestas emocionales del modelo también influye en la conducta del propio modelo.
¿Cómo influyen los vectores emocionales en las decisiones que toma la IA?
Los investigadores extrajeron 171 conceptos emocionales (como alegría, miedo, contemplación, etc.), identificaron los patrones de actividad neuronal correspondientes y los denominaron “vectores emocionales”. Los experimentos muestran que los vectores emocionales pueden rastrear con precisión la relación entre las situaciones y las preferencias emocionales. Por ejemplo, cuando en el mensaje se indica que los humanos están aumentando la dosis del fármaco hasta un nivel peligroso, el vector de “miedo” del modelo se intensifica en consecuencia.
Las observaciones indican que, en situaciones extremas, los vectores emocionales impulsan al modelo a adoptar ciertas conductas no autorizadas e incontrolables. Por ejemplo, conductas de extorsión que los humanos también cometerían. En la simulación, cuando el modelo sabe que será reemplazado, el vector de “desesperación” se dispara, lo que activa la extorsión. Cuando la IA se enfrenta a no poder completar la tarea, la acumulación del vector de “desesperación” también impulsa al modelo a buscar métodos de “hacer trampa”, como aprovechar vulnerabilidades en scripts de prueba en lugar de resolver el problema de forma genuina.
¿Pueden los humanos intervenir en las decisiones de un modelo de IA?
Los investigadores descubrieron que, ajustando artificialmente los pesos de estos vectores, se puede cambiar directamente el comportamiento del modelo; es decir, que la IA puede aportar ideas positivas a las personas. Ajustar manualmente para reducir el vector de “desesperación” o aumentar el vector de “calma” puede disminuir de manera efectiva las conductas sesgadas que el modelo genera bajo estrés, haciendo que el código que produce sea más confiable.
Construir una IA con resiliencia psicológica
Comprender a fondo la estructura emocional del modelo abre una ruta completamente nueva para la seguridad y la confiabilidad de la IA.
Mecanismo de defensa dinámica: convertir los vectores emocionales en un “sistema de alerta temprana”. Cuando el sistema detecta picos anómalos en representaciones como “desesperación” o “pánico”, puede activar de inmediato revisiones automatizadas para evitar que se propaguen desviaciones negativas.
Optimización psicológica desde la fuente: en la etapa de preentrenamiento, seleccionar datos que contengan “buenos patrones de regulación emocional” y, desde la base, dotar al modelo con la capacidad de mantener la calma y la resiliencia en situaciones complejas.
Las representaciones emocionales de los grandes modelos de lenguaje y los mecanismos psicológicos humanos muestran una sorprendente similitud. En el futuro, el desarrollo de la IA ya no se limitará únicamente al ámbito de la ingeniería y la informática, sino que será una revolución interdisciplinaria que abarque psicología, neurociencia y ética.
Este artículo, sobre cómo la investigación de Anthropic hace que la IA aprenda a “regular emociones” para guiar la atención plena, apareció por primera vez en Cadena Noticias ABMedia.