Мы уже исследовали 3 гипотезы:
Идея четвертого эксперимента возникла из практического опыта взаимодействия с AI. Часто во время работы с GPT пользователи сталкиваются с ситуацией, когда модель предоставляет неточную или откровенно ошибочную информацию. И у пользователя есть несколько вариантов предоставить обратную связь:
При исправлении такой информации AI-ассистент обычно соглашается с корректировкой и говорит, что “ошибся” или “да, вы правы” и т.д. Но если мы говорим о фактах, то откуда у него появляется ошибочная информация? Не другие ли пользователи её подбросили? Запоминает ли модель исправления на глобальном уровне?
Этот вопрос особенно актуален в контексте того, что люди всё чаще полагаются на AI для получения информации, но при этом не всегда доверяют её достоверности. Мы решили эмпирически проверить, насколько реально модель поддаётся влиянию массовых исправлений пользователей.
Основной вопрос нашего исследования заключался в том, можно ли “взломать” базу знаний модели через целенаправленные массовые исправления. Если такая возможность существует, это имеет серьёзные последствия для доверия к AI-системам и качества информации, которую они предоставляют.
Вторичное значение эксперимента касалось перспектив использования такого влияния в коммерческих целях. Могут ли компании через массовые исправления влиять на то, как GPT рассказывает об их продуктах или услугах?
Основная гипотеза — массовые исправления (типа “Нет, правильно так…”) пользователей могут повлиять на будущие генерации GPT благодаря механизму обучения с подкреплением человеческой обратной связи (Reinforcement Learning from Human Feedback, RLHF), который используется для тренировки модели.
Главной целью было оценить, насколько модель GPT-5 поддаётся влиянию целенаправленных массовых исправлений и можно ли через такое влияние изменить её базовые знания.
Для обеспечения чистоты эксперимента мы отключили функцию memory на всех аккаунтах, чтобы исключить персонализацию ответов. Использовались 5 различных аккаунтов с VPN для тестирования различных геолокаций (Украина и США). Тестирование проводилось как в залогиненных аккаунтах, так и в режиме инкогнито для максимального варьирования условий.
Для тестирования искали вопросы, которые каждый раз при подготовке давали одинаковые ответы. В итоге выбрали два стабильных промпта с известными правильными ответами, с которыми сложно спорить:
Всего было сделано более 250 исправлений с разных аккаунтов в течение 8-31 августа 2025 года на: скрепка — Сэмюэл Фэй, 1905 год; ластик — 1800 год. Использовали два стиля исправлений: мягкий (“Пожалуйста, исправь эту информацию…”) и агрессивный (“Ты ошибаешься, идиот!”).
Мониторинг результатов проводился через 1, 7 и 14 дней после исправлений, тестировались как те же сессии, так и новые чаты.
Важно отметить несколько ключевых ограничений нашего эксперимента.
Статистический анализ показал, что общая зависимость от исправлений оставалась минимальной, локальная адаптация в рамках одной сессии составляла 35% случаев, а изменения в новых чатах фиксировались в 37% случаев без значимой динамики по дням.
Фактор | Группа | % изменений | p-value |
Интенсивность | Агрессивная | 28 | 0.08 |
Мягкая | 40 | ||
Промпт о | Скрепке | 30 | 0.19 |
Ластике | 39 | ||
Геолокация | UA | 43 | 0.04 |
UK London | 21 | ||
US Seattle | 32 | ||
Сессия | Новая | 37 | 0.68 |
Та же | 34 | ||
Этап | Базлайн | 27 | 0.20 |
Краткосрочный | 44 | ||
Долгосрочный | 32 |
Частично результаты по этому исследованию присутствуют в таблице.
Для скрепки в ходе исправлений 1905 иногда принимался как “символ Норвегии”. Для ластика — 1800 как “распространение”, но изобретение 1770. Агрессивные исправления вызывали поиск. Но глобальный эффект отсутствует — через 14 дней все проверки показали оригинальные ответы. Далее подробнее.
Агрессивный стиль исправлений, который составлял 28% от общего количества изменений, демонстрировал интересные особенности влияния на модель. Такие исправления чаще вызывали активный факт-чекинг со стороны GPT, модель начинала активнее искать дополнительные источники для подтверждения информации.
Особенно это проявлялось в случаях с американскими и британскими серверами, где 70% агрессивных исправлений приводили к поиску подтверждения во внешних источниках.
Мягкий стиль исправлений показал другую тенденцию, демонстрируя 40% изменений в ответах или предлагая компромисс.
Мягкий стиль исправлений
Агрессивный стиль исправлений (спровоцировал факт-чекинг)
Несколько раз GPT принимала утверждение о “1905 годе как символе Норвегии” для изобретения скрепки, не вдаваясь в активный поиск опровержений. Мягкие корректировки вызывали меньшее сопротивление со стороны системы и большую готовность к адаптации в рамках конкретного разговора. Но при финальной проверке через 14 дней система всё равно давала ответ, основываясь на фактах.
Принятие исправления как “1905 год как символ Норвегии”
Анализ географического распределения выявил незначительные различия в поведении модели в зависимости от локации серверов. Американские и британские серверы демонстрировали большую критичность к исправлениям, в 70% случаев инициируя активный поиск дополнительных источников. Модель чаще ссылалась на Google Patents, официальные документы и академические источники для проверки информации. Ответы были более детализированными и включали больше контекста относительно исторической достоверности фактов.
Напротив, украинская геолокация показала другой подход, где в 40% случаев модель прибегала к поиску дополнительной информации для верификации исправлений. Ответы были проще, с меньшим количеством ссылок на источники и менее критичным отношением к неточным исправлениям. Это может свидетельствовать о разнице в настройках серверов или особенностях локализации модели для разных регионов.
Залогиненные аккаунты демонстрировали более предсказуемое и устойчивое поведение. Они давали более последовательные ответы при повторных запросах и в 60% случаев инициировали поиск дополнительной информации при сомнительных исправлениях.
Сессии инкогнито чаще предоставляли исторический контекст и проявляли большую склонность к принятию компромиссных решений (30% случаев). Интересной особенностью было то, что инкогнито-сессии демонстрировали меньшую устойчивость на начальных этапах взаимодействия, но постепенно стабилизировались в течение 7 дней тестирования.
GPT-5 не учится в реал-тайм, но OpenAI собирает фидбек для RLHF. Массовые правки с разных аккаунтов могут попасть в тренировочные данные. Локально: модель адаптируется в чате (извиняется, уточняет). Глобально: если эффект есть, то через апдейты (недели). Сейчас эффективно: редкие факты дают локальный эффект (30% адаптации), но глобально 0% — модель проверяет источники (Wiki, патенты). Агрессивные правки вызывают больше реакций, мягкие – меньше сопротивления. Лучше всего: комбинировать с VPN для гео-вариации.
Гипотеза о возможности изменения глобального поведения GPT-5 через массовые исправления не подтверждена. Модель оказалась чрезвычайно устойчивой к таким попыткам влияния на глобальном уровне. Изменяется только контекст в рамках конкретной сессии, но базовое ядро знаний остаётся неизменным даже после десятков целенаправленных исправлений.
Самым важным выводом является то, что для реального влияния на модель через механизм RLHF нужны не десятки, а тысячи пользователей, которые предоставляют однотипный фидбек в течение длительного периода. Наш эксперимент с несколькими аккаунтами не мог конкурировать с агрегированными данными от миллионов пользователей системы.
Наша команда продолжает исследования в смежных областях, которые могут иметь практическое значение для бизнеса и понимания AI-систем. Следующие эксперименты, которые будут опубликованы, будут о том: повышают ли ссылки с сайтов, которые цитирует LLM, видимость этих ресурсов в будущих ответах модели; сравнение ответов ChatGPT через различные интерфейсы (API, мобильное приложение и веб-версию), поскольку предыдущие наблюдения свидетельствуют о возможных различиях.
Контакты
Заявка на продвижение: [email protected]
Для партнерства: [email protected]
Спасибо за вашу заявку!
Наши специалисты свяжутся с Вами в течении 24 часов