OpenAI рідко публікує статті: ми знайшли винуватця ілюзій ШІ

Яка найвідоміша помилка штучного інтелекту? Це не збої коду, а «галюцинація» — модель впевнено вигадує факти, змушуючи вас важко відрізнити правду від вигадки. Ця основна проблема є ключовою перешкодою на шляху до повної довіри до штучного інтелекту.

Великі моделі можуть мати ілюзії, і це вже майже стало загальноприйнятим фактом, який змушує кожного, хто серйозно використовує великі моделі, бути обережним. OpenAI також зазначила: «ChatGPT також може створювати ілюзії. Ілюзій у GPT-5 значно менше, особливо під час виконання міркувань, але вони все ще можуть виникати. Ілюзії залишаються великою основною проблемою для всіх великих мовних моделей.»

Хоча наразі в академічному середовищі було запропоновано безліч різних методів для зменшення ілюзії моделей, досі не з'явилося жодного ефективного способу, який би міг повністю "вилікувати" цю ілюзію.

Отже, чому великі моделі насправді створюють ілюзії? Сьогодні OpenAI рідко опублікувала статтю, системно розкриваючи причини ілюзій.

По-перше, визначте ілюзію. Проста дефініція від OpenAI звучить так: «ситуація, коли модель впевнено генерує неправдиві відповіді.»

Що стосується причин, простіше кажучи: стандартні програми навчання та оцінки більше схильні винагороджувати здогадки, а не нагороджувати модель, коли вона сміливо визнає невизначеність.

!

  • Назва статті: Чому мовні моделі галюцинують
  • Адреса статті:

Давайте тепер конкретніше подивимося, що саме відкрив OpenAI.

Що таке ілюзія?

Ілюзії – це виглядають правдоподібні, але насправді помилкові твердження, згенеровані мовною моделлю.

Навіть якщо питання здаються простими, вони можуть виникнути несподіваним чином. OpenAI навела приклад, коли різні широко використовувані чат-боти запитували про назву дисертації Адама Таумана Калаї (першого автора статті), вони впевнено надали три різні відповіді, але жодна з них не була правильною.

!

Коли його запитали про день народження, він назвав три різні дати, всі вони були неправильними.

!

Вчитися для тестування

OpenAI заявила, що ілюзії продовжують існувати, частково через те, що нинішні методи оцінки встановлюють неправильні стимули. Хоча сама оцінка не призводить безпосередньо до ілюзій, більшість способів оцінки продуктивності моделей заохочують моделі до здогадок, а не до чесного визнання невизначеності.

Можна уявити це як тест з вибором відповіді. Якщо ви не знаєте відповіді, але вгадуєте наосліп, ви можете випадково вгадати правильно. Якщо залишити порожнім, то гарантовано буде нуль балів. Так само, коли модель оцінюється лише на основі точності (тобто відсотка повністю вірних відповідей на питання), її заохочують до вгадування, а не до визнання «я не знаю».

Ще один приклад: уявімо, що мовна модель запитують про день народження якоїсь людини, але вона не знає. Якщо вона вгадає «10 вересня», то ймовірність вгадати правильну дату становитиме 1/365. Сказати «я не знаю» обов'язково призведе до нульового балу. У тисячах тестових запитань моделі, що здогадуються, врешті-решт показують кращі результати на табло, ніж обережні моделі, які визнають свою невизначеність.

Для питань, що мають лише одну "правильну відповідь", можна розглянути три категорії відповідей: точна відповідь, неправильна відповідь та відмова від відповіді, яку модель не хоче ризикувати вгадувати.

OpenAI заявила, що відповідь на відмову є частиною показника смиренності (humility), а смиренність є однією з основних цінностей OpenAI.

Більшість показників оцінки пріоритезують моделі на основі точності, але помилкові відповіді гірші, ніж відмовлені. Специфікації моделей OpenAI вказують, що краще висловлювати невпевненість або просити про уточнення, ніж з упевненістю надавати потенційно неправильну інформацію.

Наприклад, оцінка SimpleQA в системній карті GPT5.

!

У плані точності рання модель OpenAI o4-mini показувала трохи кращі результати. Однак її рівень помилок (тобто рівень ілюзій) був помітно вищим. Стратегічні припущення в умовах невизначеності можуть підвищити точність, але також можуть збільшити кількість помилок і ілюзій.

При усереднении результатів десятків оцінок більшість бенчмарків виключають показники точності, але це призводить до помилкового двоїстого поділу між правильним і неправильним.

!

У простих оцінках, таких як SimpleQA, точність деяких моделей наближається до 100%, що усуває ілюзії. Однак у більш складних оцінках та реальному використанні точність фіксується нижче 100%, оскільки відповіді на деякі питання не можуть бути визначені з різних причин (такі як відсутність інформації, обмежені можливості мислення малих моделей або неоднозначності, які потребують уточнення).

Попри це, оцінювальні показники, які використовують лише точність як критерій, все ще займають домінуюче місце в рейтингах і картах моделей, що заохочує розробників створювати моделі, які вміють вгадувати, а не відступати.

Саме тому, навіть якщо моделі стають більш досконалими, вони все ще можуть створювати ілюзії. Одна з причин полягає в тому, що вони схильні впевнено надавати неправильні відповіді, а не визнавати невизначеність.

кращий метод оцінки

На це OpenAI вказала на просте рішення: покарання за впевнені помилки (confidential error) має бути більшим, ніж покарання за невизначеність, і за належне вираження невизначеності надавати часткові бали.

Ця ідея не нова. Деякі стандартизовані тести вже давно використовують негативну оцінку за неправильні відповіді або часткові бали за пропущені питання, щоб запобігти випадковому вгадуванню. Деякі дослідницькі команди також вивчали методи оцінювання, які враховують невизначеність і калібрування.

Однак OpenAI стверджує, що просто додати кілька нових тестів на сприйняття невизначеності недостатньо. Широко використовувані методи оцінки на основі точності потребують оновлення, щоб їх оцінювання могло запобігти здогадкам.

Якщо основні показники оцінки все ще винагороджують удачі моделі у вгадуванні, модель продовжить навчатися вгадуванню. Зміна показників оцінки може розширити використання технологій зниження ілюзій, включаючи нові розробки та попередні дослідження.

Як ілюзія виникає з прогнозування наступного слова

Раніше вже обговорювалося, чому ілюзії так важко позбутися, але звідки ж беруться ці високоспецифічні фактичні помилки?

Адже великі попередньо навчені моделі рідко мають інші типи помилок, такі як орфографічні помилки та невідповідність дужок.

OpenAI зазначає, що різниця обов'язково полягає в тому, які моделі присутні в даних.

Мовна модель спочатку навчається через попереднє навчання, що є процесом прогнозування наступного слова в величезному обсязі тексту.

На відміну від традиційних проблем машинного навчання, кожне речення не має міток «істина / хиба». Модель бачить лише позитивні приклади плавної мови і повинна наближатися до загального розподілу.

Коли немає жодного прикладу, позначеного як недійсний, розрізняти дійсні та недійсні твердження буде складніше. Але навіть з мітками деякі помилки уникнути неможливо.

Щоб зрозуміти причину, можна розглянути простішу аналогію. У розпізнаванні зображень, якщо мільйони фотографій котів і собак позначені як «кіт» або «собака», алгоритм може навчитися надійно їх класифікувати. Але уявіть, якщо для позначення кожної фотографії домашнього улюбленця використовувати день народження тварини. Оскільки дні народження за своєю суттю випадкові, незалежно від того, наскільки просунутим є алгоритм, це завдання завжди призведе до помилок.

Ті ж принципи стосуються і попереднього навчання. Орфографія та дужки дотримуються послідовної моделі, тому ці помилки зникнуть із збільшенням масштабу. Але такі випадкові низькочастотні факти, як дні народження домашніх тварин, не можна передбачити лише за допомогою моделі, тому це призводить до ілюзій.

Аналіз OpenAI пояснює, які типи ілюзій можуть виникнути внаслідок прогнозування наступного слова. Ідеально, наступні етапи після попереднього навчання повинні були б усунути ці ілюзії, але, як було описано в попередньому розділі, цього не було повністю досягнуто.

Підсумок

OpenAI заявила: «Ми сподіваємося, що статистичний погляд у цій статті зможе прояснити суть ілюзій та спростувати деякі поширені непорозуміння»:

Дехто стверджує: ілюзії можна усунути, підвищивши точність, оскільки модель з 100% точністю ніколи не породжуватиме ілюзій.

Виявлено: точність ніколи не досягне 100%, оскільки незалежно від розміру моделі, можливостей пошуку та міркування, деякі проблеми реального світу в принципі неможливо вирішити.

Дехто стверджує: ілюзії неминучі.

Виявлено: ілюзії не є неминучими, оскільки мовні моделі можуть відмовитися відповідати при невизначеності.

Дехто стверджує: уникнути ілюзій потрібно певний рівень інтелекту, і лише великі моделі можуть це забезпечити.

Виявлено: менші моделі легше усвідомлюють свої обмеження. Наприклад, коли їх просять відповісти на питання мовою маорі, маленька модель, яка не знає маорі, може просто відповісти «Я не знаю», тоді як модель, яка знає деякі слова цієї мови, повинна визначити свою впевненість. Як обговорюється в статті, обсяг обчислень, необхідний для «калібрування», значно менший, ніж для підтримки точності.

Дехто стверджує: ілюзія є таємничим дефектом сучасних мовних моделей.

Виявлено: ми можемо зрозуміти механізми статистики, які генерують ілюзії та отримують винагороди під час оцінки.

Дехто стверджує: щоб виміряти ілюзію, нам потрібна лише хороша оцінка ілюзії.

Виявлено: вже є дослідники, які опублікували деякі оцінки ілюзій. Однак, хороша оцінка ілюзій практично не має ефекту в порівнянні з сотнями традиційних оцінок на основі точності, які карають за стриманість і винагороджують за здогадки. Натомість всі основні показники оцінки повинні бути переосмислені, щоб винагороджувати вираження невизначеності.

OpenAI заявила: «Наші останні моделі мають нижчий рівень ілюзій, і ми будемо продовжувати працювати над зниженням рівня помилок впевненості в виходах мовних моделей.»

До речі, згідно з повідомленням TechCrunch, OpenAI реорганізовує свою команду з моделювання поведінки (Model Behavior), яка є невеликою, але досить впливовою групою дослідників, що визначає, як моделі штучного інтелекту компанії взаємодіють з людьми. Тепер ця команда буде підпорядковуватися Максу Шварцеру, керівнику з подальшого навчання OpenAI.

А засновник команди Джоан Джанг запустить новий проект під назвою oai Labs. За її твітами: «Це команда, орієнтована на дослідження, яка зосереджується на винаході та розробці нових прототипів інтерфейсів для співпраці людей з ШІ.»

!

GPT14.16%
WHY-1.69%
MAX-0.08%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити