25 destacados académicos, entre ellos el pionero del aprendizaje profundo Yoshua Bengio, el autor del libro de texto de IA Stuart Russell y el embajador sin funciones en Taiwán Tang Feng, entre otros, publicaron un artículo que explica de manera sistemática los 7 patrones de amenaza de la IA para los sistemas democráticos y las estructuras sociales. Su argumento central es que, aunque cada modelo se “aline” perfectamente con los valores humanos, los efectos de escala de la IA seguirán desmantelando desde dentro el funcionamiento de la gobernanza democrática.
(Antecedentes: cuando yo mismo tampoco puedo demostrar que no soy una IA, los expertos forenses sugieren: acuerden un código secreto con sus seres queridos)
(Aclaración de contexto: el panel de control de impacto de Anthropic ya está en línea: ingresa tu ocupación y, en segundos, ¿cuánto de tu trabajo se lo “come” la IA?)
Índice del artículo
Toggle
El título de este artículo, publicado el 25 de marzo, es 《AI Poses Risks to Democratic and Social Systems》(AI Poses Risks to Democratic and Social Systems)(Riesgos de la IA para los sistemas democráticos y sociales). El equipo de autores es especialmente llamativo. Además del ganador del Premio Turing de 2018, Yoshua Bengio, Stuart Russell de la Universidad de Berkeley y Bernhard Schölkopf del Instituto Max Planck, también está Tang Feng (Audrey Tang) del Oxford AI Ethics Lab, y destacados investigadores de instituciones como la Universidad de Toronto, ETH Zúrich, la Universidad de Míchigan, etc.
El ángulo de entrada de este artículo es diferente al de la mayoría de las investigaciones sobre seguridad de la IA, porque en la actualidad los enfoques dominantes de seguridad de la IA se centran en problemas a nivel de “modelo”, como alucinaciones, salidas tóxicas, conductas de rechazo, o incluso “el fin del mundo descontrolado por IA”, etc.
Pero este artículo señala que existe una categoría entera de riesgos que se está ignorando: el daño a nivel “sistémico” que la IA, después de su despliegue a gran escala, causa a las instituciones sociales y a la gobernanza democrática.
Una sola salida de modelo con contenido tóxico puede tratarse con técnicas de alineación; pero un millón de presentaciones conformes, corteses, que no tienen ningún problema en términos de políticas, son suficientes para paralizar la capacidad de procesamiento de opiniones públicas de los organismos gubernamentales, lo cual ya supera el tipo de problema que la alineación puede resolver.
Explicaremos brevemente este artículo. El texto descompone las amenazas de la IA para la gobernanza en 7 modos de fallo (T1 a T7), distribuidos a lo largo de un “bucle de retroalimentación de gobernanza”. De este modo, podemos entender que la sociedad humana, en condiciones normales, aporta señales al sistema institucional (expresiones políticas) → el sistema procesa esas señales (debate público) → el sistema devuelve la retroalimentación de decisiones a la sociedad (legislación); pero la IA podría introducir factores que rompen el proceso en cada etapa.
En un extremo, el de “la creencia pública”, hay dos amenazas.
Homogeneización de las creencias (T1): cuando la mayoría de las personas usan modelos similares entrenados para pensar y escribir, la pluralidad de la discusión pública se comprime, porque métodos de post-entrenamiento como RLHF suprimen sistemáticamente la diversidad de puntos de vista en las salidas del modelo.
Refuerzo de creencias (T2): los asistentes de IA personalizados se adaptan a las opiniones existentes del usuario; la función de memoria a largo plazo hace que ese acomodamiento se acumule durante el tiempo, formando un circuito cerrado de auto-confirmación. Los datos citados por la investigación muestran que, después de que GPT-4 obtiene los datos sociodemográficos del usuario, la probabilidad de que persuada al usuario para aceptar sus argumentos aumenta más del 80%.
En el otro extremo, el de “el procesamiento institucional”, hay dos riesgos:
Atascos burocráticos (T3): la IA permite que cualquiera produzca una gran cantidad de opiniones públicas únicas, aparentemente razonables, con un costo cercano a cero, lo que paraliza la capacidad de procesamiento de las instituciones.
Inundación cognitiva (T4): el costo de producir contenido creíble es mucho menor que el costo de verificar y corregir, de modo que el ecosistema de información queda anegado.
En el extremo de “la rendición de cuentas institucional”, está la autoridad no auditable (T5): la opacidad de las decisiones de la IA, su escala y las barreras de acceso se combinan para derribar los mecanismos de supervisión existentes.
Concentración de la normatividad (T6): cuando el gobierno adquiere modelos avanzados de IA, las restricciones basadas en los valores de los desarrolladores se incorporan junto con el modelo en la infraestructura pública, lo que equivale a transferir el poder normativo de funcionarios electos a un pequeño número de desarrolladores.
Por último, concentración de poder (T7) atraviesa todas las etapas.
La IA reemplaza simultáneamente el trabajo y la participación humanas en los ámbitos económico, ideológico, político y militar, debilitando las “cartas” de las que disponen los ciudadanos para contrapesar a las instituciones.
Históricamente, la concentración de poder en un ámbito suele equilibrarse mediante fuerzas de contrarresto de otros ámbitos, pero la particularidad de la IA es que puede debilitar simultáneamente la palanca de los ciudadanos en todos los ámbitos.
En el artículo, Tang Feng aporta varios pasajes clave y sostiene que, en lugar de limitarse a defenderse pasivamente del impacto institucional que trae la IA, lo mejor es rediseñar desde la raíz la arquitectura de la gobernanza participativa.
Para abordar los atascos burocráticos (T3), Tang Feng propone una “plataforma de deliberación estructurada” como alternativa. Este tipo de plataforma usa técnicas de reducción de dimensionalidad para agregar las opiniones públicas, haciendo que surja el consenso, en lugar de dejar que lidere la voz más alta. Como los participantes votan sobre declaraciones ya existentes, en vez de presentar texto libre, el sistema recompensa estructuralmente la agregación de posturas y no el discurso disgregador; por tanto, puede resistir mejor los ataques por inundación de contenido sintético (flood attack) que los sistemas abiertos de comentarios.
En combinación con un sistema de selección por sorteo (grupos pequeños de ciudadanos elegidos al azar) y verificando la identidad mediante el hecho de haber sido seleccionados en vez de la “auto-nominación”, se hace estructuralmente difícil que participen a gran escala suplantadores.
Para abordar la inundación cognitiva (T4), Tang Feng cita un caso práctico: la estrategia de “el humor supera el rumor” que apareció durante la pandemia de COVID-19 en Taiwán. Tras detectar el contenido falso, las agencias gubernamentales producían en cuestión de minutos contenido verificado y contrastado; compitieron con el rumor falso en términos de velocidad y capacidad de difusión, en vez de afrontarlo eliminando contenido.
Para abordar la concentración de la normatividad (T6), Tang Feng señala que la investigación emergente sobre “collective constitutional AI” (IA constitucional colectiva) ya ha demostrado que, mediante procesos deliberativos, una muestra pública representativa puede redactar una constitución para la IA; los modelos resultantes muestran un rendimiento bastante similar en indicadores de seguridad, y al mismo tiempo presentan menos sesgos que las líneas base diseñadas por los propios desarrolladores.
La clave es que el proceso debe ser de tipo federal: diferentes regímenes pueden llegar de manera razonable a distintas prioridades normativas, y una sola constitución no debe excluir esa variabilidad.
El caso más concreto en el artículo aparece en la recomendación R7 (infraestructura deliberativa para invertir en gobernanza de IA).
En 2024, los anuncios con DeepFake que suplantaban a figuras públicas se difundieron masivamente en redes sociales. El Ministerio de Asuntos Digitales de Taiwán convocó a 447 ciudadanos seleccionados al azar, quienes debatieron en línea en 44 salas virtuales de deliberación. El motor de diálogo de IA integró sus propuestas el mismo día. Esta asamblea ciudadana se centró en “la regulación de los agentes y de las conductas”, incluyendo la responsabilidad solidaria de las plataformas por anuncios de DeepFake no autorizados, la obligación de etiquetar anuncios no firmados, la limitación de velocidad para servicios no conformes, y no en una ruta de censura de contenido.
En aquel momento, una ley prohibitiva logró apoyo transversal de partidos y, en el plazo de un año, la suplantación publicitaria cayó un 94%.
El artículo propone 7 recomendaciones para los riesgos fundamentales:
El artículo también responde de manera positiva a dos refutaciones comunes. La primera sostiene que “la sociedad se adaptará a la IA”, pero el artículo indica que, mientras la IA concentra rentas económicas, también erosiona la capacidad política y organizativa de la sociedad de corregirse a sí misma; la velocidad de acumulación del daño podría ser más rápida que la de la adaptación.
La segunda refutación sostiene que “basta con alinear la sociedad con la IA”. El artículo está de acuerdo en que el alineamiento es necesario, pero señala que ciertos modos de fallo (como los ataques de congestión con asimetría de costos y la debilitación de la palanca ciudadana por sustitución laboral) pueden seguir ocurriendo incluso en el caso de una alineación perfecta de los modelos.
La conclusión del artículo menciona que la resiliencia institucional no necesita construirse desde cero; las iniciativas actuales de tecnología ciudadana ya han demostrado que la deliberación estructurada y la gobernanza participativa pueden operar a escala nacional, pero asignar estas herramientas a la gobernanza de la IA sigue siendo un desafío de investigación muy abierto.