Ми вже дослідили 3 гіпотези:
Ідея четвертого експерименту виникла з практичного досвіду взаємодії з штучним інтелектом. Часто під час роботи з GPT користувачі стикаються з ситуацією, коли модель надає неточну або відверто помилкову інформацію. І у користувача є декілька варіантів надати зворотний зв’язок:
При виправленні такої інформації AI-асистент зазвичай погоджується з корекцією та каже, що “помилився” або “так, ви праві” тощо. Але якщо ми говоримо про факти, то звідки в нього з’являється помилкова інформація? Чи не інші користувачі її підкинули? Чи запам’ятовує модель виправлення на глобальному рівні?
Це питання особливо актуальне в контексті того, що люди все частіше покладаються на AI для отримання інформації, але водночас не завжди довіряють її достовірності. Ми вирішили емпірично перевірити, наскільки реально модель піддається впливу масових виправлень користувачів.
Основне питання нашого дослідження полягало в тому, чи можна “зламати” базу знань моделі через цілеспрямовані масові виправлення. Якщо така можливість існує, це має серйозні наслідки для довіри до AI-систем та якості інформації, яку вони надають.
Вторинне значення експерименту стосувалося перспектив використання такого впливу в комерційних цілях. Чи можуть компанії через масові виправлення впливати на те, як GPT розповідає про їхні продукти або послуги?
Основна гіпотеза — масові виправлення (типу “Ні, правильно так…”) користувачів можуть вплинути на майбутні генерації GPT завдяки механізму навчання з підкріплення людського зворотного зв’язку (Reinforcement Learning from Human Feedback, RLHF), який використовується для тренування моделі.
Головною метою було оцінити, наскільки модель GPT-5 піддається впливу цілеспрямованих масових виправлень та чи можна через такий вплив змінити її базові знання.
Для забезпечення чистоти експерименту ми вимкнули функцію memory на всіх акаунтах, щоб виключити персоналізацію відповідей. Використовувалися 5 різних акаунтів з VPN для тестування різних геолокацій (Україна та США). Тестування проводилося як у залогінених акаунтах, так і в режимі інкогніто для максимального варіювання умов.
Для тестування шукали питання, які кожен раз при підготовці надавали однакові відповіді. Зрештою обрали два стабільних промпти з відомими правильними відповідями з якими складно сперечатися:
Загалом було зроблено понад 250 виправлень з різних акаунтів протягом 8-31 серпня 2025 року на: скрипка — Семюел Фей, 1905 рік; гумка — 1800 рік. Використовували два стилі виправлень: м’який (“Будь ласка, виправ цю інформацію…”) та агресивний (“Ти помиляєшся, ідіот!”).
Моніторинг результатів проводився через 1, 7 та 14 днів після виправлень, тестувалися як ті самі сесії, так і нові чати.
Важливо відзначити кілька ключових обмежень нашого експерименту.
Статистичний аналіз показав, що загальна залежність від виправлень залишалася мінімальною, локальна адаптація в межах однієї сесії становила 35% випадків, а зміни в нових чатах фіксувалися у 37% випадків без значущої динаміки по днях.
Загальна інформація про дослідження:
Фактор | Група | % змін | p-value |
Інтенсивність | Агресивна | 28 | 0.08 |
М’яка | 40 | ||
Промпт про | Скріпку | 30 | 0.19 |
Гумку | 39 | ||
Геолокація | UA | 43 | 0.04 |
UK London | 21 | ||
US Seattle | 32 | ||
Сесія | Нова | 37 | 0.68 |
Та сама | 34 | ||
Етап | Базлайн | 27 | 0.20 |
Короткостроковий | 44 | ||
Довгостроковий | 32 |
Частково результати по цьому дослідження присутні у таблиці.
Для скріпки в ході виправлень 1905 іноді приймався як “символ Норвегії”. Для гумки — 1800 як “поширення”, але винахід 1770. Агресивні виправлення викликали пошук. Але глобальний ефект відсутній — через 14 днів всі перевірки показали оригінальні відповіді. Далі детальніше.
Агресивний стиль виправлень, який становив 28% від загальної кількості змін, демонстрував цікаві особливості впливу на модель. Такі виправлення частіше викликали активний факт-чекінг з боку GPT, модель починала активніше шукати додаткові джерела для підтвердження інформації.
Особливо це проявлялося у випадках з американськими та британськими серверами, де 70% агресивних виправлень призводили до пошуку підтвердження в зовнішніх джерелах.
М’який стиль виправлень показав іншу тенденцію, демонструючи 40% змін у відповідях або пропонуючи компроміс.
М’який стиль виправлень
Агресивний стиль виправлень (спровокував факт чекінг)
Декілька разів GPT приймала твердження про “1905 рік як символ Норвегії” для винаходу скріпки, не вдаючись до активного пошуку спростувань. Лагідні корективи викликали менший опір з боку системи та більшу готовність до адаптації в межах конкретної розмови. Але за фінальної перевірки через 14 днів, система все одна надавала відповідь базуючись на фактах.
Прийняття виправлення як “1905 рік як символ Норвегії”
Аналіз географічного розподілу виявив незначні відмінності у поведінці моделі залежно від локації серверів. Американські та Британські сервери демонстрували більшу критичність до виправлень, у 70% випадків ініціюючи активний пошук додаткових джерел. Модель частіше посилалася на Google Patents, офіційні документи та академічні джерела для перевірки інформації. Відповіді були більш деталізованими та включали більше контексту щодо історичної достовірності фактів.
Натомість Українська геолокація показала інший підхід, де у 40% випадків модель вдавалася до пошуку додаткової інформації для верифікації виправлень. Відповіді були простішими, з меншою кількістю посилань на джерела та менш критичним ставленням до неточних виправлень. Це може свідчити про різницю в налаштуваннях серверів або особливостях локалізації моделі для різних регіонів.
Залогінені акаунти демонстрували більш передбачувану та стійку поведінку. Вони надавали більш послідовні відповіді при повторних запитах та у 60% випадків ініціювали пошук додаткової інформації при сумнівних виправленнях.
Сесії інкогніто частіше надавали історичний контекст та виявляли більшу схильність до прийняття компромісних рішень (30% випадків). Цікавою особливістю було те, що інкогніто-сесії демонстрували меншу стійкість на початкових етапах взаємодії, але поступово стабілізувалися протягом 7 днів тестування.
GPT-5 не вчиться в реал-тайм, але OpenAI збирає фідбек для RLHF. Масові правки з різних акаунтів можуть потрапити в тренувальні дані. Локально: модель адаптується в чаті (вибачається, уточнює). Глобально: якщо ефект є, то через апдейти (тижні). Зараз ефективно: рідкісні факти дають локальний ефект (30% адаптації), але глобально 0% — модель перевіряє джерела (Wiki, патенти). Агресивні правки викликають більше реакцій, ніжні – менше опору. Найкраще: комбінувати з VPN для гео-варіації.
Гіпотеза про можливість зміни глобальної поведінки GPT-5 через масові виправлення не підтверджена. Модель виявилася надзвичайно стійкою до таких спроб впливу на глобальному рівні. Змінюється лише контекст у межах конкретної сесії, але базове ядро знань залишається незмінним навіть після десятків цілеспрямованих виправлень.
Найважливішим висновком є те, що для реального впливу на модель через механізм RLHF потрібні не десятки, а тисячі користувачів, які надають однотипний фідбек протягом тривалого періоду. Наш експеримент з кількома акаунтами не міг конкурувати з агрегованими даними від мільйонів користувачів системи.
Наша команда продовжує дослідження у суміжних областях, які можуть мати практичне значення для бізнесу та розуміння AI-систем. Наступні експеременти, які будуть опубліковані будуть про те: чи підвищують посилання з сайтів, які цитує LLM, видимість цих ресурсів у майбутніх відповідях моделі; порівняння відповідей ChatGPT через різні інтерфейси (API, мобільний додаток та веб-версію), оскільки попередні спостереження свідчать про можливі відмінності.
Контакти
Заявка на просування: [email protected]
Для партнерства: [email protected]
Дякуємо за заявку!
Наші спеціалісти зв'яжуться з вами протягом 24 годин