Con el fin de desentrañar la “caja negra” de los modelos grandes, el equipo de explicabilidad de Anthropic publicó un artículo que describe cómo podrían entrenar un nuevo modelo para comprender un modelo simple.
Un estudio publicado por Anthropic afirma poder ver el alma de la inteligencia artificial. Se ve así:
Dirección:
Según los investigadores, el nuevo modelo puede predecir y comprender con precisión el principio de funcionamiento y el mecanismo de composición de las neuronas en el modelo original.
El equipo de explicabilidad de Anthropic anunció recientemente que han descompuesto con éxito un espacio abstracto de características de alta dimensión en un sistema de IA simulado.
Crear una IA explicable para entender la “caja negra de la IA”
Los investigadores primero entrenaron una IA muy simple de 512 neuronas para predecir texto, y luego entrenaron otra IA llamada “autocodificador” para predecir el patrón de activación de la primera IA.
A los autocodificadores se les pide que construyan un conjunto de características (correspondientes al número de neuronas en la IA de dimensiones superiores) y predigan cómo estas características se asignarán a las neuronas en la IA real.
Se descubrió que, si bien las neuronas de la IA original no eran fáciles de entender, las neuronas simuladas de la nueva IA (es decir, “características”) eran monosemia, y cada característica representaba un concepto o función específica.
Por ejemplo, el rasgo #2663 representa el concepto de “Dios”.
La más fuerte de las frases de entrenamiento para activarlo proviene del registro de Josefo que dice “Cuando la ventisca llueve sobre Dios, va a Séforis”.
Puedes ver que las activaciones en la parte superior tienen que ver con los diferentes usos de “Dios”.
Esta neurona simulada parece estar formada por un conjunto de neuronas reales, incluidas 407, 182 y 259.
Estas neuronas reales en sí mismas tienen poco que ver con “Dios”, por ejemplo, Neuron 407 responde principalmente a texto no inglés (especialmente letras latinas acentuadas) y no estándar (como etiquetas HTML).
Pero a nivel de característica, todo está en orden, y cuando se activa la función 2663, aumenta la probabilidad de que aparezcan “bendecir”, “prohibir”, “condenar” o “-zilla” en el texto.
La IA no distingue el concepto de “Dios” del “Dios” en el nombre del monstruo. Esto puede deberse a que la IA improvisada no tiene suficientes recursos neuronales para lidiar con ella.
Pero esto cambiará a medida que aumente el número de características que tiene la IA:
En la parte inferior de este árbol, se puede ver cómo la IA entiende “el” en términos matemáticos cambia a medida que tiene más y más características.
En primer lugar, ¿por qué hay una característica específica de “el” en un término matemático? Esto se debe probablemente a la necesidad de la IA de predecir que conocer un “el” en particular debe ir seguido de algún vocabulario matemático, como “numerador” o “coseno”.
De la IA más pequeña entrenada por los investigadores con solo 512 características, solo una característica representaba “la”, mientras que la IA más grande con 16.384 características se había dividido en una característica que representaba “el” en el aprendizaje automático, una característica que representaba “el” en análisis complejo y una característica que representaba “el” en topología y álgebra abstracta.
Por lo tanto, si el sistema pudiera actualizarse a una IA con más neuronas simuladas, las características que representan a “Dios” probablemente se dividirían en dos: una para el significado de “Dios” en la religión y la otra para “Dios” en el nombre del monstruo.
Más tarde, puede haber Dios en el cristianismo, Dios en el judaísmo, Dios en la filosofía, y así sucesivamente.
El equipo de investigación evaluó la interpretabilidad subjetiva de 412 grupos de neuronas reales y las neuronas simuladas correspondientes, y descubrió que la interpretabilidad de las neuronas simuladas era generalmente buena:
Algunas características, como la que significa “Dios”, se utilizan para conceptos específicos.
Muchas otras características altamente interpretables, incluidas algunas de las más interpretables, son el “formato” utilizado para representar el texto, como letras mayúsculas o minúsculas, inglés u otros alfabetos, etc.
¿Qué tan comunes son estas características? Es decir, si entrena dos IA de características 4096 diferentes en los mismos datos de texto, ¿tendrán la mayoría de las mismas características 4096? ¿Tendrán todos ellos ciertas características que representen a “Dios”?
¿O la primera IA juntará a “Dios” y “Godzilla”, y la segunda IA los separará? ¿La segunda IA no tendrá la función “Dios” en absoluto, sino que usará ese espacio para almacenar algunos otros conceptos que la primera IA no habría podido entender?
El equipo de investigación lo probó y descubrió que sus dos modelos de IA eran muy similares.
En promedio, si hay una característica en el primer modelo, la característica más similar en el segundo modelo tendrá una correlación mediana de 0,72.
Vi el alma de la IA
¿Qué sigue?
En mayo de este año, OpenAI intentó que GPT-4 (muy grande) entendiera GPT-2 (muy pequeño). Hicieron que GPT-4 examinara las 307.200 neuronas de GPT-2 e informara de lo que había encontrado.
GPT-4 encontró una serie de resultados interesantes y un montón de tonterías aleatorias porque aún no habían dominado el arte de proyectar neuronas reales sobre neuronas simuladas y analizar neuronas simuladas.
Aunque los resultados no fueron obvios, sí fue un intento muy ambicioso.
A diferencia de esta IA en el artículo de explicabilidad de Anthropic, GPT-2 es una IA real (aunque muy pequeña) que también ha impresionado al público en general.
Pero el objetivo final de la investigación es poder explicar los sistemas de IA convencionales.
El equipo de explicabilidad de Anthropic admite que aún no lo han hecho, principalmente por varias razones:
En primer lugar, ampliar los autocodificadores es algo difícil de hacer. Para explicar un sistema como GPT-4 (o el sistema equivalente de Anthropic, Claude), se necesita una IA intérprete de aproximadamente el mismo tamaño.
Pero entrenar IA a esta escala requiere una enorme potencia de cálculo y apoyo financiero.
En segundo lugar, la escalabilidad de la interpretación también es un problema.
Incluso si encontráramos todas las neuronas simuladas sobre Dios, Godzilla y todo lo demás y dibujáramos un enorme diagrama de cómo estaban conectadas.
Los investigadores aún necesitan responder preguntas más complejas, y resolverlas requiere interacciones complejas que involucran millones de características y conexiones.
Por lo tanto, es necesario que haya algún proceso automatizado, algún tipo de “dejemos que GPT-4 nos diga lo que está haciendo GPT-2”.
Finalmente, ¿qué tiene que decir todo esto para entender el cerebro humano?
Los seres humanos también utilizan redes neuronales para razonar y procesar conceptos.
Hay muchas neuronas en el cerebro humano, y esto es lo mismo que GPT-4.
Los datos disponibles para los humanos también son muy escasos: hay muchos conceptos (como calamar) que rara vez aparecen en la vida cotidiana.
¿Estamos imitando también un cerebro más grande?
Esta es todavía un área de investigación muy nueva, pero ha habido algunos hallazgos preliminares que sugieren que las neuronas en la corteza visual humana codifican características de alguna manera hiperlocalizada, similar a los patrones observados en los modelos de IA.
Recursos:
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
El competidor más fuerte de OpenAI entrenó a la IA para desmontar la caja negra de LLM y accidentalmente vislumbró el "alma" del gran modelo
Fuente original: New Zhiyuan
Con el fin de desentrañar la “caja negra” de los modelos grandes, el equipo de explicabilidad de Anthropic publicó un artículo que describe cómo podrían entrenar un nuevo modelo para comprender un modelo simple.
Un estudio publicado por Anthropic afirma poder ver el alma de la inteligencia artificial. Se ve así:
Según los investigadores, el nuevo modelo puede predecir y comprender con precisión el principio de funcionamiento y el mecanismo de composición de las neuronas en el modelo original.
El equipo de explicabilidad de Anthropic anunció recientemente que han descompuesto con éxito un espacio abstracto de características de alta dimensión en un sistema de IA simulado.
Crear una IA explicable para entender la “caja negra de la IA”
Los investigadores primero entrenaron una IA muy simple de 512 neuronas para predecir texto, y luego entrenaron otra IA llamada “autocodificador” para predecir el patrón de activación de la primera IA.
A los autocodificadores se les pide que construyan un conjunto de características (correspondientes al número de neuronas en la IA de dimensiones superiores) y predigan cómo estas características se asignarán a las neuronas en la IA real.
Se descubrió que, si bien las neuronas de la IA original no eran fáciles de entender, las neuronas simuladas de la nueva IA (es decir, “características”) eran monosemia, y cada característica representaba un concepto o función específica.
Por ejemplo, el rasgo #2663 representa el concepto de “Dios”.
Puedes ver que las activaciones en la parte superior tienen que ver con los diferentes usos de “Dios”.
Esta neurona simulada parece estar formada por un conjunto de neuronas reales, incluidas 407, 182 y 259.
Estas neuronas reales en sí mismas tienen poco que ver con “Dios”, por ejemplo, Neuron 407 responde principalmente a texto no inglés (especialmente letras latinas acentuadas) y no estándar (como etiquetas HTML).
Pero a nivel de característica, todo está en orden, y cuando se activa la función 2663, aumenta la probabilidad de que aparezcan “bendecir”, “prohibir”, “condenar” o “-zilla” en el texto.
La IA no distingue el concepto de “Dios” del “Dios” en el nombre del monstruo. Esto puede deberse a que la IA improvisada no tiene suficientes recursos neuronales para lidiar con ella.
Pero esto cambiará a medida que aumente el número de características que tiene la IA:
En primer lugar, ¿por qué hay una característica específica de “el” en un término matemático? Esto se debe probablemente a la necesidad de la IA de predecir que conocer un “el” en particular debe ir seguido de algún vocabulario matemático, como “numerador” o “coseno”.
De la IA más pequeña entrenada por los investigadores con solo 512 características, solo una característica representaba “la”, mientras que la IA más grande con 16.384 características se había dividido en una característica que representaba “el” en el aprendizaje automático, una característica que representaba “el” en análisis complejo y una característica que representaba “el” en topología y álgebra abstracta.
Por lo tanto, si el sistema pudiera actualizarse a una IA con más neuronas simuladas, las características que representan a “Dios” probablemente se dividirían en dos: una para el significado de “Dios” en la religión y la otra para “Dios” en el nombre del monstruo.
Más tarde, puede haber Dios en el cristianismo, Dios en el judaísmo, Dios en la filosofía, y así sucesivamente.
El equipo de investigación evaluó la interpretabilidad subjetiva de 412 grupos de neuronas reales y las neuronas simuladas correspondientes, y descubrió que la interpretabilidad de las neuronas simuladas era generalmente buena:
Muchas otras características altamente interpretables, incluidas algunas de las más interpretables, son el “formato” utilizado para representar el texto, como letras mayúsculas o minúsculas, inglés u otros alfabetos, etc.
¿O la primera IA juntará a “Dios” y “Godzilla”, y la segunda IA los separará? ¿La segunda IA no tendrá la función “Dios” en absoluto, sino que usará ese espacio para almacenar algunos otros conceptos que la primera IA no habría podido entender?
El equipo de investigación lo probó y descubrió que sus dos modelos de IA eran muy similares.
En promedio, si hay una característica en el primer modelo, la característica más similar en el segundo modelo tendrá una correlación mediana de 0,72.
Vi el alma de la IA
¿Qué sigue?
En mayo de este año, OpenAI intentó que GPT-4 (muy grande) entendiera GPT-2 (muy pequeño). Hicieron que GPT-4 examinara las 307.200 neuronas de GPT-2 e informara de lo que había encontrado.
GPT-4 encontró una serie de resultados interesantes y un montón de tonterías aleatorias porque aún no habían dominado el arte de proyectar neuronas reales sobre neuronas simuladas y analizar neuronas simuladas.
Aunque los resultados no fueron obvios, sí fue un intento muy ambicioso.
A diferencia de esta IA en el artículo de explicabilidad de Anthropic, GPT-2 es una IA real (aunque muy pequeña) que también ha impresionado al público en general.
Pero el objetivo final de la investigación es poder explicar los sistemas de IA convencionales.
El equipo de explicabilidad de Anthropic admite que aún no lo han hecho, principalmente por varias razones:
En primer lugar, ampliar los autocodificadores es algo difícil de hacer. Para explicar un sistema como GPT-4 (o el sistema equivalente de Anthropic, Claude), se necesita una IA intérprete de aproximadamente el mismo tamaño.
Pero entrenar IA a esta escala requiere una enorme potencia de cálculo y apoyo financiero.
En segundo lugar, la escalabilidad de la interpretación también es un problema.
Incluso si encontráramos todas las neuronas simuladas sobre Dios, Godzilla y todo lo demás y dibujáramos un enorme diagrama de cómo estaban conectadas.
Los investigadores aún necesitan responder preguntas más complejas, y resolverlas requiere interacciones complejas que involucran millones de características y conexiones.
Por lo tanto, es necesario que haya algún proceso automatizado, algún tipo de “dejemos que GPT-4 nos diga lo que está haciendo GPT-2”.
Finalmente, ¿qué tiene que decir todo esto para entender el cerebro humano?
Los seres humanos también utilizan redes neuronales para razonar y procesar conceptos.
Hay muchas neuronas en el cerebro humano, y esto es lo mismo que GPT-4.
Los datos disponibles para los humanos también son muy escasos: hay muchos conceptos (como calamar) que rara vez aparecen en la vida cotidiana.
¿Estamos imitando también un cerebro más grande?
Esta es todavía un área de investigación muy nueva, pero ha habido algunos hallazgos preliminares que sugieren que las neuronas en la corteza visual humana codifican características de alguna manera hiperlocalizada, similar a los patrones observados en los modelos de IA.
Recursos: