Для того, щоб розпакувати «чорну скриньку» великих моделей, команда Anthropic explainability опублікувала статтю, в якій описала, як вони можуть навчити нову модель розуміти просту модель.
Дослідження, опубліковане Anthropic, стверджує, що може побачити душу штучного інтелекту. Виглядає це так:
Адреса:
За словами дослідників, нова модель може точно передбачити та зрозуміти принцип роботи та механізм складу нейронів у вихідній моделі.
Команда Anthropic’s Explainability нещодавно оголосила, що вони успішно розклали абстрактний простір функцій високої розмірності в змодельованій системі штучного інтелекту.
Створіть зрозумілий штучний інтелект, щоб зрозуміти “чорну скриньку ШІ”
Дослідники спочатку навчили дуже простий 512-нейронний штучний інтелект передбачати текст, а потім навчили інший штучний інтелект під назвою «автокодер» передбачати патерн активації першого ШІ.
Автокодери просять побудувати набір функцій (що відповідають кількості нейронів у ШІ вищої розмірності) і передбачити, як ці функції будуть відображатися з нейронами в реальному ШІ.
З’ясувалося, що в той час як нейрони в оригінальному ШІ були непрості для розуміння, змодельовані нейрони в новому ШІ (тобто «особливості») були моносистемними, і кожна функція представляла певну концепцію або функцію.
Наприклад, ознака #2663 представляє поняття “Бог”.
Найсильніша з навчальних фраз для його активації походить із запису Йосифа Флавія, який говорить: «Коли хуртовина проллється на Бога, він іде до Сепфорії».
Ви можете побачити, що активації вгорі стосуються різних застосувань слова «Бог».
Цей змодельований нейрон, схоже, складається з набору реальних нейронів, включаючи 407, 182 і 259.
Ці справжні нейрони самі по собі мають мало спільного з «Богом», наприклад, Neuron 407 реагує в першу чергу на неанглійський (особливо наголошені латинські літери) і нестандартний текст (наприклад, HTML-теги).
Але на рівні функцій все гаразд, і коли функція 2663 активована, це збільшує ймовірність появи в тексті слів «благослови», «заборони», «чорт» або «-zilla».
Штучний інтелект не відрізняє поняття «Бог» від «Бога» в імені монстра. Це може бути пов’язано з тим, що імпровізований ШІ не має достатньо нейронних ресурсів, щоб впоратися з ним.
Але це зміниться зі збільшенням кількості функцій, які має ШІ:
У нижній частині цього дерева ви можете побачити, як ШІ розуміє «це» в математичних термінах змінюється, оскільки він має все більше і більше характеристик.
Перш за все, чому в математичному терміні є специфічна риса «the»? Ймовірно, це пов’язано з необхідністю штучного інтелекту передбачити, що знання конкретного «the» має супроводжуватися певною математичною лексикою, такою як «чисельник» або «косинус».
З найменшого штучного інтелекту, навченого дослідниками, який мав лише 512 ознак, лише одна ознака представляла «the», тоді як найбільший ШІ з 16 384 ознаками був розділений на одну функцію, що представляє «the» у машинному навчанні, одну функцію, що представляє «the» у складному аналізі, і одну особливість, що представляє «the» у топології та абстрактній алгебрі.
Таким чином, якби систему можна було оновити до штучного інтелекту з більшою кількістю змодельованих нейронів, характеристики, які представляють «Бога», швидше за все, розділилися б на дві частини: одна для значення «Бог» у релігії, а інша для «Бога» в імені монстра.
Пізніше може бути Бог у християнстві, Бог в іудаїзмі, Бог у філософії тощо.
Дослідницька група оцінила суб’єктивну інтерпретованість 412 груп реальних нейронів і відповідних змодельованих нейронів, і виявила, що інтерпретованість змодельованих нейронів в цілому хороша:
Деякі ознаки, наприклад, той, що означає «Бог», використовуються для конкретних понять.
Багато інших функцій, які легко інтерпретуються, включаючи деякі з найбільш інтерпретованих, - це «форматування», яке використовується для представлення тексту, наприклад, великі або малі літери, англійський або інший алфавіти тощо.
Наскільки поширені ці функції? Тобто, якщо ви навчите два різні 4096-функціональні ШІ на одних і тих же текстових даних, чи матимуть вони більшість однакових функцій 4096? Чи всі вони матимуть певні риси, які представляють «Бога»?
Або перший ШІ з’єднає «Бога» і «Годзіллу», а другий ШІ розділить їх? Чи буде другий ШІ взагалі не мати функції «Бог», а натомість використовувати цей простір для зберігання деяких інших концепцій, які перший ШІ не зміг би зрозуміти?
Дослідницька група протестувала це і виявила, що їхні дві моделі штучного інтелекту дуже схожі!
У середньому, якщо в першій моделі є одна ознака, то найбільш подібна ознака у другій моделі матиме медіанну кореляцію 0,72.
Побачив душу ШІ
Що далі?
У травні цього року OpenAI спробувала змусити GPT-4 (дуже великий) зрозуміти GPT-2 (дуже маленький). Вони попросили GPT-4 вивчити 307 200 нейронів GPT-2 і повідомити, що він виявив.
GPT-4 знайшов серію цікавих результатів і купу випадкових нісенітниць, тому що вони ще не освоїли мистецтво проектування реальних нейронів на симульовані нейрони та аналізу змодельованих нейронів.
Хоча результати не були очевидними, це дійсно була дуже амбітна спроба.
На відміну від цього ШІ у статті про пояснення Anthropic, GPT-2 є реальним (хоча й дуже маленьким) штучним інтелектом, який також вразив широку громадськість.
Але кінцева мета досліджень полягає в тому, щоб мати можливість пояснити основні системи штучного інтелекту.
Команда Anthropic’s Explainability визнає, що ще цього не зробила, в основному з кількох причин:
По-перше, масштабування автоенкодерів є складною справою. Для того, щоб пояснити таку систему, як GPT-4 (або еквівалентну систему Claude від Anthropic), вам потрібен інтерпретатор ШІ приблизно такого ж розміру.
Але навчання ШІ в таких масштабах вимагає величезних обчислювальних потужностей і фінансової підтримки.
По-друге, масштабованість інтерпретації також є проблемою.
Навіть якщо ми знайдемо всі змодельовані нейрони про Бога, Ґодзіллу та все інше і намалюємо величезну діаграму того, як вони пов’язані.
Дослідникам все ще потрібно відповідати на більш складні питання, а їх вирішення вимагає складних взаємодій, що включають мільйони функцій і зв’язків.
Отже, має бути якийсь автоматизований процес, якесь більш масштабне «нехай GPT-4 розповість нам, що робить GPT-2».
Нарешті, що все це може сказати для розуміння людського мозку?
Люди також використовують нейронні мережі для міркувань і обробки понять.
Нейронів у мозку людини дуже багато, і це те саме, що GPT-4.
Дані, доступні людині, також дуже мізерні – існує безліч понять (наприклад, кальмар), які рідко зустрічаються в повсякденному житті.
Ми також імітуємо більший мозок?
Це все ще дуже нова область досліджень, але були деякі попередні результати, які свідчать про те, що нейрони в зоровій корі людини дійсно кодують функції певним гіперлокалізованим чином, подібно до моделей, які спостерігаються в моделях штучного інтелекту.
Ресурси:
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Найсильніший конкурент OpenAI навчив ШІ розбирати чорну скриньку LLM і випадково зазирнув у «душу» великої моделі
Першоджерело: Новий Чжиюань
Для того, щоб розпакувати «чорну скриньку» великих моделей, команда Anthropic explainability опублікувала статтю, в якій описала, як вони можуть навчити нову модель розуміти просту модель.
Дослідження, опубліковане Anthropic, стверджує, що може побачити душу штучного інтелекту. Виглядає це так:
За словами дослідників, нова модель може точно передбачити та зрозуміти принцип роботи та механізм складу нейронів у вихідній моделі.
Команда Anthropic’s Explainability нещодавно оголосила, що вони успішно розклали абстрактний простір функцій високої розмірності в змодельованій системі штучного інтелекту.
Створіть зрозумілий штучний інтелект, щоб зрозуміти “чорну скриньку ШІ”
Дослідники спочатку навчили дуже простий 512-нейронний штучний інтелект передбачати текст, а потім навчили інший штучний інтелект під назвою «автокодер» передбачати патерн активації першого ШІ.
Автокодери просять побудувати набір функцій (що відповідають кількості нейронів у ШІ вищої розмірності) і передбачити, як ці функції будуть відображатися з нейронами в реальному ШІ.
З’ясувалося, що в той час як нейрони в оригінальному ШІ були непрості для розуміння, змодельовані нейрони в новому ШІ (тобто «особливості») були моносистемними, і кожна функція представляла певну концепцію або функцію.
Наприклад, ознака #2663 представляє поняття “Бог”.
Ви можете побачити, що активації вгорі стосуються різних застосувань слова «Бог».
Цей змодельований нейрон, схоже, складається з набору реальних нейронів, включаючи 407, 182 і 259.
Ці справжні нейрони самі по собі мають мало спільного з «Богом», наприклад, Neuron 407 реагує в першу чергу на неанглійський (особливо наголошені латинські літери) і нестандартний текст (наприклад, HTML-теги).
Але на рівні функцій все гаразд, і коли функція 2663 активована, це збільшує ймовірність появи в тексті слів «благослови», «заборони», «чорт» або «-zilla».
Штучний інтелект не відрізняє поняття «Бог» від «Бога» в імені монстра. Це може бути пов’язано з тим, що імпровізований ШІ не має достатньо нейронних ресурсів, щоб впоратися з ним.
Але це зміниться зі збільшенням кількості функцій, які має ШІ:
Перш за все, чому в математичному терміні є специфічна риса «the»? Ймовірно, це пов’язано з необхідністю штучного інтелекту передбачити, що знання конкретного «the» має супроводжуватися певною математичною лексикою, такою як «чисельник» або «косинус».
З найменшого штучного інтелекту, навченого дослідниками, який мав лише 512 ознак, лише одна ознака представляла «the», тоді як найбільший ШІ з 16 384 ознаками був розділений на одну функцію, що представляє «the» у машинному навчанні, одну функцію, що представляє «the» у складному аналізі, і одну особливість, що представляє «the» у топології та абстрактній алгебрі.
Таким чином, якби систему можна було оновити до штучного інтелекту з більшою кількістю змодельованих нейронів, характеристики, які представляють «Бога», швидше за все, розділилися б на дві частини: одна для значення «Бог» у релігії, а інша для «Бога» в імені монстра.
Пізніше може бути Бог у християнстві, Бог в іудаїзмі, Бог у філософії тощо.
Дослідницька група оцінила суб’єктивну інтерпретованість 412 груп реальних нейронів і відповідних змодельованих нейронів, і виявила, що інтерпретованість змодельованих нейронів в цілому хороша:
Багато інших функцій, які легко інтерпретуються, включаючи деякі з найбільш інтерпретованих, - це «форматування», яке використовується для представлення тексту, наприклад, великі або малі літери, англійський або інший алфавіти тощо.
Або перший ШІ з’єднає «Бога» і «Годзіллу», а другий ШІ розділить їх? Чи буде другий ШІ взагалі не мати функції «Бог», а натомість використовувати цей простір для зберігання деяких інших концепцій, які перший ШІ не зміг би зрозуміти?
Дослідницька група протестувала це і виявила, що їхні дві моделі штучного інтелекту дуже схожі!
У середньому, якщо в першій моделі є одна ознака, то найбільш подібна ознака у другій моделі матиме медіанну кореляцію 0,72.
Побачив душу ШІ
Що далі?
У травні цього року OpenAI спробувала змусити GPT-4 (дуже великий) зрозуміти GPT-2 (дуже маленький). Вони попросили GPT-4 вивчити 307 200 нейронів GPT-2 і повідомити, що він виявив.
GPT-4 знайшов серію цікавих результатів і купу випадкових нісенітниць, тому що вони ще не освоїли мистецтво проектування реальних нейронів на симульовані нейрони та аналізу змодельованих нейронів.
Хоча результати не були очевидними, це дійсно була дуже амбітна спроба.
На відміну від цього ШІ у статті про пояснення Anthropic, GPT-2 є реальним (хоча й дуже маленьким) штучним інтелектом, який також вразив широку громадськість.
Але кінцева мета досліджень полягає в тому, щоб мати можливість пояснити основні системи штучного інтелекту.
Команда Anthropic’s Explainability визнає, що ще цього не зробила, в основному з кількох причин:
По-перше, масштабування автоенкодерів є складною справою. Для того, щоб пояснити таку систему, як GPT-4 (або еквівалентну систему Claude від Anthropic), вам потрібен інтерпретатор ШІ приблизно такого ж розміру.
Але навчання ШІ в таких масштабах вимагає величезних обчислювальних потужностей і фінансової підтримки.
По-друге, масштабованість інтерпретації також є проблемою.
Навіть якщо ми знайдемо всі змодельовані нейрони про Бога, Ґодзіллу та все інше і намалюємо величезну діаграму того, як вони пов’язані.
Дослідникам все ще потрібно відповідати на більш складні питання, а їх вирішення вимагає складних взаємодій, що включають мільйони функцій і зв’язків.
Отже, має бути якийсь автоматизований процес, якесь більш масштабне «нехай GPT-4 розповість нам, що робить GPT-2».
Нарешті, що все це може сказати для розуміння людського мозку?
Люди також використовують нейронні мережі для міркувань і обробки понять.
Нейронів у мозку людини дуже багато, і це те саме, що GPT-4.
Дані, доступні людині, також дуже мізерні – існує безліч понять (наприклад, кальмар), які рідко зустрічаються в повсякденному житті.
Ми також імітуємо більший мозок?
Це все ще дуже нова область досліджень, але були деякі попередні результати, які свідчать про те, що нейрони в зоровій корі людини дійсно кодують функції певним гіперлокалізованим чином, подібно до моделей, які спостерігаються в моделях штучного інтелекту.
Ресурси: