«Риски ИИ для демократии и общества в целом»: вышла совместная работа — весомый научный труд от ИИ-папы Йошуа Бенджо в соавторстве с такими авторами, как Тан Пэн, и еще 25 учеными

動區BlockTempo

2026-03-29 11:01:56

Глубокое обучение пионеры Ёшу Бенгио, автор учебника по ИИ Стюарт Рассел, посол без портфеля Тайваня Тан Фэн и еще 25 ведущих ученых совместно опубликовали статью, в которой систематически объясняются 7 основных угроз от ИИ для демократических систем и социальных систем. Основная идея заключается в том, что даже если каждая модель идеально «согласована» с человеческими ценностями, эффект масштаба ИИ все равно внутри разрушит функционирование демократического управления.
(Предыстория: когда я сам не могу доказать, что я не ИИ, судебные эксперты советуют: давайте с близкими людьми установим секретный пароль.)
(Дополнительная информация: Anthropic запустила панель мониторинга воздействия ИИ: введите профессию, и за секунды узнайте, сколько ваших рабочих мест будет «съедено» ИИ?)

Содержание статьи

Скрыть

7 видов сбоев демократии в условиях ИИ
Тан Фэн: пример Тайваня, как делиберативная демократия решает проблемы управления ИИ
7 рекомендаций и основные выводы

Заголовок статьи, опубликованной 25 марта, — «ИИ представляет угрозы для демократических и социальных систем» (AI Poses Risks to Democratic and Social Systems), авторский состав чрезвычайно впечатляющий. Кроме лауреата премии Тьюринга 2018 года Ёшу Бенгио, Стюарта Рассела из Калифорнийского университета в Беркли, Бернхарда Шёлькопфа из Института Макса Планка, в ней также участвует Тан Фэн (Audrey Tang) из Оксфордского института этики ИИ, а также авторитетные исследователи из Торонто, ETH Цюрих, Мичиганского университета и других учреждений.

Подход в этой статье отличается от большинства исследований безопасности ИИ, поскольку текущие основные исследования безопасности ИИ сосредоточены на «уровне модели», таких как галлюцинации, токсичный вывод, поведение отказа или более крайние сценарии «конца света от ИИ» и т.п.

Однако статья указывает на то, что существует целая большая категория рисков, которые были проигнорированы, а именно «системный уровень» ущерба, возникающего от массового развертывания ИИ, влияющего на социальные системы и демократическое управление.

Одна модель может выводить токсичный контент, что можно решить с помощью техники согласования; но миллионы соблюдающих правил, вежливых и политически корректных заявок могут парализовать способность государственных органов обрабатывать общественные мнения, что уже выходит за рамки проблем, которые может решить согласование.

7 видов сбоев демократии в условиях ИИ

Давайте немного объясним эту статью, в которой угроза ИИ для управления разбита на 7 сбоев (T1 до T7), распределенных вдоль «обратной связи управления», мы можем понять, как человеческое общество обычно вводит сигналы в систему (политическое выражение) → система обрабатывает эти сигналы (общественные обсуждения) → система возвращает решения в общество (законодательство), но ИИ может стать фактором разрыва на каждом этапе.

На стороне «общественных убеждений» существуют две угрозы.

Гомогенизация убеждений (T1): это когда большинство людей используют схожие обученные модели для размышлений и написания, многообразие общественного дискурса сжимается, потому что методы дообучения, такие как RLHF, систематически подавляют разнообразие точек зрения в выводах модели.

Усиление убеждений (T2): персонализированные ИИ-ассистенты подстраиваются под существующие взгляды пользователей, функции долговременной памяти позволяют этому подстраиванию накапливаться, что формирует замкнутый круг самоутверждения. Исследования показывают, что когда GPT-4 получает социодемографические данные пользователя, вероятность убеждения пользователя согласиться с его аргументами увеличивается более чем на 80%.

На стороне «обработки в системе» существуют два риска:

Бюрократическая пробка (T3): ИИ позволяет любому почти без затрат производить большое количество уникальных, на вид разумных общественных мнений, что парализует способность учреждений к обработке.

Когнитивный поток (T4): стоимость создания достоверного контента теперь значительно ниже, чем стоимость верификации и исправления, информационная экосистема затоплена.

На стороне «подотчетности системы» неподконтрольные авторитеты (T5), непрозрачность, масштабы и барьеры доступа ИИ-решений вместе подавляют существующие механизмы надзора.

Централизация норм (T6): когда правительство закупает передовые модели ИИ, ценности разработчиков будут перенесены в общественную инфраструктуру вместе с моделью, что означает, что власть норм будет передана от избранных чиновников к небольшой группе разработчиков.

Наконец, концентрация власти (T7) пронизывает все этапы.

ИИ одновременно заменяет человеческий труд и участие в экономике, идеологии, политике и военной сфере, ослабляя ресурсы граждан, используемые для противовесов системе.

Исторически концентрация власти в одной области обычно сбалансирована противодействующими силами в других областях, но уникальность ИИ заключается в том, что он может одновременно ослабить все рычаги граждан в разных областях.

Тан Фэн: пример Тайваня, как делиберативная демократия решает проблемы управления ИИ

Тан Фэн в статье представила несколько ключевых фрагментов, утверждая, что вместо того, чтобы пассивно защищаться от институциональных ударов, вызываемых ИИ, лучше фундаментально пересмотреть структуру участия в управлении.

В ответ на бюрократическую пробку (T3) Тан Фэн предложила «структурированную платформу для обсуждения» в качестве альтернативы. Такие платформы используют технологии снижения размерности для агрегации общественного мнения, позволяя консенсусу всплывать, а не позволяя более громким голосам доминировать. Поскольку участники голосуют по уже существующим утверждениям, а не свободно подают текст, система структурно поощряет объединение позиций, а не разрозненные высказывания, что позволяет лучше противостоять атаке наводнения синтетического контента (flood attack) по сравнению с открытыми системами комментариев.

В сочетании с системой случайного выбора (группы граждан, случайно выбранные) для верификации идентификации через «выбор» вместо «самовыдвижения», становится трудно в структурном плане осуществить массовое мошенничество.

В ответ на когнитивный поток (T4) Тан Фэн привела реальный пример, стратегию «юмор против слухов», возникшую в Тайване во время пандемии COVID-19, когда государственные учреждения за считанные минуты после выявления ложной информации производили проверенный контент, конкурируя по скорости и распространению с ложной информацией, а не полагаясь на её удаление.

В ответ на централизацию норм (T6) Тан Фэн отметила, что новые исследования «коллективного конституционного ИИ» (collective constitutional AI) уже доказали, что через процесс обсуждения репрезентативная общественная выборка может разрабатывать конституцию ИИ, производя модели, которые показывают схожие результаты по безопасным показателям, при этом демонстрируя меньше предвзятости, чем базовые модели, разработанные самими разработчиками.

Ключевым является то, что этот процесс должен быть федеративным, и различные режимы могут разумно вырабатывать разные приоритеты норм, единая конституция не должна исключать такую вариативность.

Самый конкретный пример в статье появляется в рекомендации R7 (инвестировать в инфраструктуру обсуждения для управления ИИ).

В 2024 году реклама DeepFake, выдающая себя за общественных деятелей, массово распространялась в социальных сетях, и в Тайване Департамент цифрового управления собрал 447 случайно выбранных граждан для онлайн-дискуссий в 44 виртуальных залах обсуждений, где ИИ-диалоговый движок в тот же день интегрировал их предложения. Это гражданское собрание сосредоточилось на «регулировании участников и действий», включая совместную ответственность платформ за несанкционированные рекламные материалы DeepFake, обязательную маркировку неназванной рекламы, ограничение потоков для несоответствующих услуг, а не на пути контентной цензуры.

Законопроект о запрете был поддержан межпартийно, и количество поддельной рекламы снизилось на 94% в течение года.

7 рекомендаций и основные выводы

Статья предлагает 7 рекомендаций для решения основных рисков:

R1 Разработать многопользовательские симуляционные системы для тестирования устойчивости институтов в сценариях с массовым участием ИИ
R2 Обучить модели для поддержки «когнитивного здоровья», выходя за рамки простого избегания вреда, способствуя честному несогласию и когнитивной скромности
R3 Ограничить автономность ИИ в управленческих сценариях, сохраняя человеческую подотчетность
R4 Создать «уровень безопасности институтов» (ISL), активируя соответствующие пороги управления в зависимости от возможностей ИИ
R5 Требовать от институциональных ИИ сохранения записей о решениях и проверки идентификации для общественного участия
R6 Требования к общественным закупкам ИИ о взаимозаменяемости и множестве поставщиков, чтобы избежать монополизации норм со стороны одной модели
R7 Инвестировать в инфраструктуру делиберативного управления, чтобы каналы демократического участия сами могли лучше противостоять манипуляциям

Статья также прямо отвечает на два распространенных возражения. Первое возражение заключается в том, что «общество само адаптируется к ИИ», но статья указывает на то, что ИИ, концентрируя экономическую ренту, также подрывает политические и организационные способности, на которые полагается самоисправление институтов, и накопление ущерба может происходить быстрее, чем адаптация.

Второе возражение заключается в том, что «согласованность ИИ с обществом достаточно», статья согласна с тем, что согласование необходимо, но указывает на то, что некоторые сбои (такие как атаки с загруженностью из-за ассиметрии затрат, ослабление рычагов граждан из-за замены труда) все равно произойдут даже при идеальном согласовании модели.

В заключение статья упоминает, что устойчивость институтов не требует строительства с нуля; текущие инициативы в области гражданских технологий уже доказали, что структурированное обсуждение и делиберативное управление могут работать на уровне государства, но адаптация этих инструментов для управления ИИ остается весьма открытым исследовательским вызовом.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.

комментарий

0/400

Нет комментариев