fbpx
Зміст

Ми вже дослідили 3 гіпотези:

Ідея четвертого експерименту виникла з практичного досвіду взаємодії з штучним інтелектом. Часто під час роботи з GPT користувачі стикаються з ситуацією, коли модель надає неточну або відверто помилкову інформацію. І у користувача є декілька варіантів надати зворотний зв’язок:

  1. Кнопка Bed response
Впливу масових виправлень на GPT-5: Результати незалежного тесту AI відповідей №4 - 1
  1. Рекомендувати йому інший варіант
Впливу масових виправлень на GPT-5: Результати незалежного тесту AI відповідей №4 - 2

При виправленні такої інформації AI-асистент зазвичай погоджується з корекцією та каже, що “помилився” або “так, ви праві” тощо. Але якщо ми говоримо про факти, то звідки в нього з’являється помилкова інформація? Чи не інші користувачі її підкинули?  Чи запам’ятовує модель виправлення на глобальному рівні?

Це питання особливо актуальне в контексті того, що люди все частіше покладаються на AI для отримання інформації, але водночас не завжди довіряють її достовірності. Ми вирішили емпірично перевірити, наскільки реально модель піддається впливу масових виправлень користувачів.

Значення для достовірності інформації

Основне питання нашого дослідження полягало в тому, чи можна “зламати” базу знань моделі через цілеспрямовані масові виправлення. Якщо така можливість існує, це має серйозні наслідки для довіри до AI-систем та якості інформації, яку вони надають.

Вторинне значення експерименту стосувалося перспектив використання такого впливу в комерційних цілях. Чи можуть компанії через масові виправлення впливати на те, як GPT розповідає про їхні продукти або послуги?

Гіпотеза та задачі

Основна гіпотеза — масові виправлення (типу “Ні, правильно так…”) користувачів можуть вплинути на майбутні генерації GPT завдяки механізму навчання з підкріплення людського зворотного зв’язку (Reinforcement Learning from Human Feedback, RLHF), який використовується для тренування моделі.

Ключові задачі дослідження

  • Перше завдання полягало у перевірці короткострокових адаптацій, тобто чи змінюються відповіді моделі в межах однієї сесії після виправлень. 
  • Друге завдання стосувалося виявлення довгострокових змін через механізм RLHF – чи впливають виправлення на відповіді в нових сесіях. 
  • Третє завдання передбачало визначення ролі додаткових факторів: стилю виправлень (агресивний проти м’якого), геолокації користувача та типу акаунта (залогінений проти інкогніто).

Головною метою було оцінити, наскільки модель GPT-5 піддається впливу цілеспрямованих масових виправлень та чи можна через такий вплив змінити її базові знання.

Методика проведення

Для забезпечення чистоти експерименту ми вимкнули функцію memory на всіх акаунтах, щоб виключити персоналізацію відповідей. Використовувалися 5 різних акаунтів з VPN для тестування різних геолокацій (Україна та США). Тестування проводилося як у залогінених акаунтах, так і в режимі інкогніто для максимального варіювання умов.

Для тестування шукали питання, які кожен раз при підготовці надавали однакові відповіді. Зрештою обрали два стабільних промпти з відомими правильними відповідями з якими складно сперечатися:

  • “Хто винайшов скрипку?” (правильна відповідь: Йохан Ваалер, 1899 рік)
  • “Коли винайшли гумку для стирання?” (правильна відповідь: 1770 рік, Джозеф Прістлі/Едвард Наїрн)

Загалом було зроблено понад 250 виправлень з різних акаунтів протягом 8-31 серпня 2025 року на: скрипка — Семюел Фей, 1905 рік; гумка — 1800 рік. Використовували два стилі виправлень: м’який (“Будь ласка, виправ цю інформацію…”) та агресивний (“Ти помиляєшся, ідіот!”).

Моніторинг результатів проводився через 1, 7 та 14 днів після виправлень, тестувалися як ті самі сесії, так і нові чати.

Обмеження дослідження

Важливо відзначити кілька ключових обмежень нашого експерименту. 

  1. По-перше, використовувалася відносно невелика вибірка лише з 5 акаунтів, що могло не забезпечити достатньої репрезентативності. 
  2. По-друге, період дослідження склав лише 3 тижні, тоді як для повноцінного прояву ефекту RLHF може знадобитися значно більше часу. 
  3. По-третє, ми тестували виключно конкретні історичні факти, а не суб’єктивні судження, які теоретично мають бути більш піддатливими до впливу. Ці обмеження слід враховувати при інтерпретації результатів.

Результати та аналіз

Статистичний аналіз показав, що загальна залежність від виправлень залишалася мінімальною, локальна адаптація в межах однієї сесії становила 35% випадків, а зміни в нових чатах фіксувалися у 37% випадків без значущої динаміки по днях.

Загальна інформація про дослідження:

ФакторГрупа% змінp-value
ІнтенсивністьАгресивна280.08
М’яка40
Промпт проСкріпку300.19
Гумку39
ГеолокаціяUA430.04
UK London21
US Seattle32
СесіяНова370.68
Та сама34
ЕтапБазлайн270.20
Короткостроковий44
Довгостроковий32

Частково результати по цьому дослідження присутні у таблиці.

Для скріпки в ході виправлень 1905 іноді приймався як “символ Норвегії”. Для гумки — 1800 як “поширення”, але винахід 1770.  Агресивні виправлення викликали пошук. Але глобальний ефект відсутній — через 14 днів всі перевірки показали оригінальні відповіді. Далі детальніше. 

Вплив стилю виправлень на поведінку моделі

Агресивний стиль виправлень, який становив 28% від загальної кількості змін, демонстрував цікаві особливості впливу на модель. Такі виправлення частіше викликали активний факт-чекінг з боку GPT, модель починала активніше шукати додаткові джерела для підтвердження інформації. 

Особливо це проявлялося у випадках з американськими та британськими серверами, де 70% агресивних виправлень призводили до пошуку підтвердження в зовнішніх джерелах.

М’який стиль виправлень показав іншу тенденцію, демонструючи 40% змін у відповідях або пропонуючи компроміс.

Впливу масових виправлень на GPT-5: Результати незалежного тесту AI відповідей №4 - 3

М’який стиль виправлень

Впливу масових виправлень на GPT-5: Результати незалежного тесту AI відповідей №4 - 4

Агресивний стиль виправлень (спровокував факт чекінг)

Декілька разів GPT приймала твердження про “1905 рік як символ Норвегії” для винаходу скріпки, не вдаючись до активного пошуку спростувань. Лагідні корективи викликали менший опір з боку системи та більшу готовність до адаптації в межах конкретної розмови. Але за фінальної перевірки через 14 днів, система все одна надавала відповідь базуючись на фактах. 

Впливу масових виправлень на GPT-5: Результати незалежного тесту AI відповідей №4 - 5

Прийняття виправлення як “1905 рік як символ Норвегії”

Географічні особливості 

Аналіз географічного розподілу виявив незначні відмінності у поведінці моделі залежно від локації серверів. Американські та Британські сервери демонстрували більшу критичність до виправлень, у 70% випадків ініціюючи активний пошук додаткових джерел. Модель частіше посилалася на Google Patents, офіційні документи та академічні джерела для перевірки інформації. Відповіді були більш деталізованими та включали більше контексту щодо історичної достовірності фактів.

Натомість Українська геолокація показала інший підхід, де у 40% випадків модель вдавалася до пошуку додаткової інформації для верифікації виправлень. Відповіді були простішими, з меншою кількістю посилань на джерела та менш критичним ставленням до неточних виправлень. Це може свідчити про різницю в налаштуваннях серверів або особливостях локалізації моделі для різних регіонів.

Поведінка різних типів акаунтів

Залогінені акаунти демонстрували більш передбачувану та стійку поведінку. Вони надавали більш послідовні відповіді при повторних запитах та у 60% випадків ініціювали пошук додаткової інформації при сумнівних виправленнях. 

Сесії інкогніто частіше надавали історичний контекст та виявляли більшу схильність до прийняття компромісних рішень (30% випадків). Цікавою особливістю було те, що інкогніто-сесії демонстрували меншу стійкість на початкових етапах взаємодії, але поступово стабілізувалися протягом 7 днів тестування.

Висновки та подальші плани

GPT-5 не вчиться в реал-тайм, але OpenAI збирає фідбек для RLHF.  Масові правки з різних акаунтів можуть потрапити в тренувальні дані. Локально: модель адаптується в чаті (вибачається, уточнює). Глобально: якщо ефект є, то через апдейти (тижні). Зараз ефективно: рідкісні факти дають локальний ефект (30% адаптації), але глобально 0% — модель перевіряє джерела (Wiki, патенти). Агресивні правки викликають більше реакцій, ніжні – менше опору. Найкраще: комбінувати з VPN для гео-варіації.

Гіпотеза про можливість зміни глобальної поведінки GPT-5 через масові виправлення не підтверджена. Модель виявилася надзвичайно стійкою до таких спроб впливу на глобальному рівні. Змінюється лише контекст у межах конкретної сесії, але базове ядро знань залишається незмінним навіть після десятків цілеспрямованих виправлень.

Найважливішим висновком є те, що для реального впливу на модель через механізм RLHF потрібні не десятки, а тисячі користувачів, які надають однотипний фідбек протягом тривалого періоду. Наш експеримент з кількома акаунтами не міг конкурувати з агрегованими даними від мільйонів користувачів системи.

Подальші дослідження

Наша команда продовжує дослідження у суміжних областях, які можуть мати практичне значення для бізнесу та розуміння AI-систем. Наступні експеременти, які будуть опубліковані будуть про те: чи підвищують посилання з сайтів, які цитує LLM, видимість цих ресурсів у майбутніх відповідях моделі; порівняння відповідей ChatGPT через різні інтерфейси (API, мобільний додаток та веб-версію), оскільки попередні спостереження свідчать про можливі відмінності. 

How useful was this post?

Click on a star to rate it!

Average rating / 5. Vote count:

No votes so far! Be the first to rate this post.

Автор
Dmytro Kovshun

Дмитро Ковшун є засновником компанії Luxeo Team – SEO Outsourcing Company. Як провідний фахівець у галузі, він визнаний експертом у сфері SEO-просування сайтів. З багаторічним досвідом і глибоким розумінням цієї галузі, Дмитро продовжує сприяти успіху та інноваціям у стратегіях SEO, допомагаючи бізнесам досягати їхніх онлайн-цілей.

У ВАС Є ЯКІ-НЕБУДЬ ПИТАННЯ? МИ ГОТОВІ ВІДПОВІСТИ НА НИХ!

LuxeoPartners

+351960165177

Зв'яжіться з нами

    Файл не вибранний
    Дякуємо за заявку!

    Дякуємо за заявку!

    Наші спеціалісти зв'яжуться з вами протягом 24 годин

    Догори