El equipo de investigación de Zhejiang propone un nuevo camino: enseñar a la IA la forma en que el cerebro humano comprende el mundo

robot
Generación de resúmenes en curso

null

Los modelos de gran escala siguen creciendo, y el consenso general sostiene que cuanto más parámetros tenga el modelo, más se acercará a la manera de pensar del ser humano. Sin embargo, un artículo publicado por el equipo de la Universidad de Zhejiang el 1 de abril en Nature Communications plantea una visión diferente (enlace original: 22.06M aumenta a 304.37M; después, la tarea de conceptos concretos pasa de 74.94% a 85.87%, y la tarea de conceptos abstractos pasa de 54.37% a 52.82%).

La diferencia entre la forma de pensar de los humanos y la de los modelos

Cuando el cerebro humano procesa conceptos, primero forma una serie de relaciones de clasificación. La forma de un cisne y de una lechuza no es igual; aun así, el ser humano los incluye en la categoría “aves”. Más arriba, “aves” y “caballos” todavía pueden seguir incorporándose en la capa de “animales”. Cuando el ser humano ve algo nuevo, a menudo piensa primero en qué se parece a algo que ya ha visto antes y, en consecuencia, a qué categoría podría pertenecer. El ser humano continúa aprendiendo nuevos conceptos y luego organiza la experiencia; usando estas relaciones, reconoce cosas nuevas y se adapta a nuevos contextos.

Los modelos también clasifican, pero la forma en que lo hacen es distinta. Se basan principalmente en las formas que aparecen repetidamente en grandes cantidades de datos. Cuanto más aparece un objeto en particular, más fácil es que el modelo lo reconozca. Al llegar a la siguiente etapa, la de categorías más grandes, el modelo se vuelve relativamente más difícil de manejar. Necesita captar las similitudes entre múltiples objetos y luego agrupar esas similitudes en la misma clase. Los modelos actuales todavía tienen claras deficiencias aquí. Después de seguir aumentando los parámetros, la tarea de conceptos concretos mejora, mientras que la tarea de conceptos abstractos a veces incluso disminuye.

El punto en común entre el cerebro humano y los modelos es que ambos forman internamente una serie de relaciones de clasificación. Pero los énfasis de ambos son diferentes: las regiones visuales de alto nivel del cerebro humano naturalmente separan categorías como “seres vivos” y “no seres vivos”. El modelo puede separar objetos concretos, pero le resulta difícil formar de manera estable esas categorías más grandes. Esta diferencia hace que el cerebro humano sea más propenso a aplicar la experiencia previa a objetos nuevos; por eso, ante cosas que no hemos visto, podemos clasificarlas rápidamente. En cambio, el modelo depende más del conocimiento existente; así, cuando se encuentra con un objeto nuevo, es más probable que se quede en las características superficiales. El método propuesto en el artículo se centra precisamente en este rasgo: usar señales cerebrales para restringir la estructura interna del modelo, haciéndola más parecida a la forma en que el cerebro clasifica.

La solución del equipo de la Universidad de Zhejiang

La solución propuesta por el equipo también es única: no es seguir acumulando parámetros, sino supervisar con una pequeña cantidad de señales cerebrales. Estas señales cerebrales provienen de registros de actividad cerebral cuando las personas miran imágenes. El texto original del artículo dice: transferir las “human conceptual structures” a DNNs. Es decir, enseñar al modelo, en la medida de lo posible, cómo clasifica y cómo razona el cerebro humano, cómo resume y cómo agrupa conceptos cercanos.

El equipo realizó experimentos usando 150 categorías de entrenamiento conocidas y 50 categorías de prueba que nunca habían visto. Los resultados muestran que, a medida que avanza ese entrenamiento, la distancia entre la representación del modelo y la representación cerebral se va reduciendo de manera continua. Este cambio ocurre simultáneamente en ambos tipos de categorías, lo cual indica que el modelo no está aprendiendo únicamente a partir de muestras individuales, sino que realmente empieza a aprender una manera de organizar conceptos más parecida a la del cerebro humano.

Después de este entrenamiento, el modelo tiene una capacidad de aprendizaje más fuerte cuando hay muy pocas muestras, y también se desempeña mejor ante situaciones nuevas. En una tarea en la que solo se proporcionan muy pocos ejemplos, pero se exige al modelo distinguir conceptos abstractos como “seres vivos” y “no seres vivos”, el modelo mejoró en promedio 20.5%, y además superó a un modelo de control con muchos más parámetros. El equipo también realizó 31 grupos de pruebas adicionales específicamente diseñadas, y en varios modelos se observó una mejora cercana a un 10%.

Durante los últimos años, la ruta que la industria de modelos conoce bien es aumentar el tamaño del modelo. El equipo de la Universidad de Zhejiang eligió otro rumbo: pasar de “bigger is better” a “structured is smarter”. La expansión de escala sin duda es útil, pero principalmente mejora el rendimiento en tareas conocidas. Para la IA, la capacidad humana de comprensión abstracta y de transferencia es igualmente crucial; esto requiere que, en el futuro, la estructura de pensamiento de la IA se parezca más a la del cerebro humano. El valor de este enfoque radica en que devuelve la atención de la industria, desde la mera expansión de escala, hacia la propia estructura cognitiva.

Neosoul y el futuro

Esto abre una posibilidad aún mayor: la evolución de la IA tal vez no ocurra únicamente en la fase de entrenamiento de modelos. El entrenamiento de modelos puede determinar cómo la IA organiza conceptos y cómo forma estructuras de juicio de mayor calidad. Al entrar después en el mundo real, comienza una segunda capa de evolución de la IA: cómo se registran los juicios de los agentes de IA, cómo se verifican, cómo crecen y evolucionan continuamente en competencias reales entre sí, como si se autoaprendieran y se autoevolucionaran al igual que los humanos. Y precisamente en eso es en lo que Neosoul está trabajando ahora. Neosoul no solo hace que el agente de IA produzca respuestas; lo coloca en un sistema de predicción continua, verificación continua, liquidación continua y filtrado continuo, para que optimice su propio funcionamiento entre la predicción y los resultados, conservando las estructuras mejores y eliminando las peores. Lo que apuntan conjuntamente el equipo de la Universidad de Zhejiang y Neosoul es, en realidad, el mismo objetivo: que la IA deje de ser solo buena resolviendo problemas, y que además tenga una capacidad integral de pensamiento, evolucionando de manera continua.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado