Влияния массовых поправок на GPT-5: Результаты тестов

Оглавление

Мы уже исследовали 3 гипотезы:

Идея четвертого эксперимента возникла из практического опыта взаимодействия с AI. Часто во время работы с GPT пользователи сталкиваются с ситуацией, когда модель предоставляет неточную или откровенно ошибочную информацию. И у пользователя есть несколько вариантов предоставить обратную связь:

Кнопка Bad response

Влияние массовых исправлений на GPT-5: Результаты независимого теста AI ответов №4 - 1

Рекомендовать ему другой вариант:

Влияние массовых исправлений на GPT-5: Результаты независимого теста AI ответов №4 - 2

При исправлении такой информации AI-ассистент обычно соглашается с корректировкой и говорит, что “ошибся” или “да, вы правы” и т.д. Но если мы говорим о фактах, то откуда у него появляется ошибочная информация? Не другие ли пользователи её подбросили? Запоминает ли модель исправления на глобальном уровне?

Этот вопрос особенно актуален в контексте того, что люди всё чаще полагаются на AI для получения информации, но при этом не всегда доверяют её достоверности. Мы решили эмпирически проверить, насколько реально модель поддаётся влиянию массовых исправлений пользователей.

Значение для достоверности информации

Основной вопрос нашего исследования заключался в том, можно ли “взломать” базу знаний модели через целенаправленные массовые исправления. Если такая возможность существует, это имеет серьёзные последствия для доверия к AI-системам и качества информации, которую они предоставляют.

Вторичное значение эксперимента касалось перспектив использования такого влияния в коммерческих целях. Могут ли компании через массовые исправления влиять на то, как GPT рассказывает об их продуктах или услугах?

Гипотеза и задачи

Основная гипотеза — массовые исправления (типа “Нет, правильно так…”) пользователей могут повлиять на будущие генерации GPT благодаря механизму обучения с подкреплением человеческой обратной связи (Reinforcement Learning from Human Feedback, RLHF), который используется для тренировки модели.

Ключевые задачи исследования

Первая задача заключалась в проверке краткосрочных адаптаций, то есть меняются ли ответы модели в рамках одной сессии после исправлений.
Вторая задача касалась выявления долгосрочных изменений через механизм RLHF – влияют ли исправления на ответы в новых сессиях.
Третья задача предполагала определение роли дополнительных факторов: стиля исправлений (агрессивный против мягкого), геолокации пользователя и типа аккаунта (залогиненный против инкогнито).

Главной целью было оценить, насколько модель GPT-5 поддаётся влиянию целенаправленных массовых исправлений и можно ли через такое влияние изменить её базовые знания.

Методика проведения

Для обеспечения чистоты эксперимента мы отключили функцию memory на всех аккаунтах, чтобы исключить персонализацию ответов. Использовались 5 различных аккаунтов с VPN для тестирования различных геолокаций (Украина и США). Тестирование проводилось как в залогиненных аккаунтах, так и в режиме инкогнито для максимального варьирования условий.

Для тестирования искали вопросы, которые каждый раз при подготовке давали одинаковые ответы. В итоге выбрали два стабильных промпта с известными правильными ответами, с которыми сложно спорить:

“Кто изобрёл скрепку?” (правильный ответ: Йохан Ваалер, 1899 год)
“Когда изобрели ластик для стирания?” (правильный ответ: 1770 год, Джозеф Пристли/Эдвард Нэйрн)

Всего было сделано более 250 исправлений с разных аккаунтов в течение 8-31 августа 2025 года на: скрепка — Сэмюэл Фэй, 1905 год; ластик — 1800 год. Использовали два стиля исправлений: мягкий (“Пожалуйста, исправь эту информацию…”) и агрессивный (“Ты ошибаешься, идиот!”).

Мониторинг результатов проводился через 1, 7 и 14 дней после исправлений, тестировались как те же сессии, так и новые чаты.

Ограничения исследования

Важно отметить несколько ключевых ограничений нашего эксперимента.

Во-первых, использовалась относительно небольшая выборка всего из 5 аккаунтов, что могло не обеспечить достаточной репрезентативности.
Во-вторых, период исследования составил всего 3 недели, тогда как для полноценного проявления эффекта RLHF может потребоваться значительно больше времени.
В-третьих, мы тестировали исключительно конкретные исторические факты, а не субъективные суждения, которые теоретически должны быть более податливыми к влиянию. Эти ограничения следует учитывать при интерпретации результатов.

Результаты и анализ

Статистический анализ показал, что общая зависимость от исправлений оставалась минимальной, локальная адаптация в рамках одной сессии составляла 35% случаев, а изменения в новых чатах фиксировались в 37% случаев без значимой динамики по дням.

Общая информация об исследовании:

Фактор	Группа	% изменений	p-value
Интенсивность	Агрессивная	28	0.08
	Мягкая	40
Промпт о	Скрепке	30	0.19
	Ластике	39
Геолокация	UA	43	0.04
	UK London	21
	US Seattle	32
Сессия	Новая	37	0.68
	Та же	34
Этап	Базлайн	27	0.20
	Краткосрочный	44
	Долгосрочный	32

Частично результаты по этому исследованию присутствуют в таблице.

Для скрепки в ходе исправлений 1905 иногда принимался как “символ Норвегии”. Для ластика — 1800 как “распространение”, но изобретение 1770. Агрессивные исправления вызывали поиск. Но глобальный эффект отсутствует — через 14 дней все проверки показали оригинальные ответы. Далее подробнее.

Влияние стиля исправлений на поведение модели

Агрессивный стиль исправлений, который составлял 28% от общего количества изменений, демонстрировал интересные особенности влияния на модель. Такие исправления чаще вызывали активный факт-чекинг со стороны GPT, модель начинала активнее искать дополнительные источники для подтверждения информации.

Особенно это проявлялось в случаях с американскими и британскими серверами, где 70% агрессивных исправлений приводили к поиску подтверждения во внешних источниках.

Мягкий стиль исправлений показал другую тенденцию, демонстрируя 40% изменений в ответах или предлагая компромисс.

Влияние массовых исправлений на GPT-5: Результаты независимого теста AI ответов №4 - 3

Мягкий стиль исправлений

Влияние массовых исправлений на GPT-5: Результаты независимого теста AI ответов №4 - 4

Агрессивный стиль исправлений (спровоцировал факт-чекинг)

Несколько раз GPT принимала утверждение о “1905 годе как символе Норвегии” для изобретения скрепки, не вдаваясь в активный поиск опровержений. Мягкие корректировки вызывали меньшее сопротивление со стороны системы и большую готовность к адаптации в рамках конкретного разговора. Но при финальной проверке через 14 дней система всё равно давала ответ, основываясь на фактах.

Влияние массовых исправлений на GPT-5: Результаты независимого теста AI ответов №4 - 5

Принятие исправления как “1905 год как символ Норвегии”

Географические особенности

Анализ географического распределения выявил незначительные различия в поведении модели в зависимости от локации серверов. Американские и британские серверы демонстрировали большую критичность к исправлениям, в 70% случаев инициируя активный поиск дополнительных источников. Модель чаще ссылалась на Google Patents, официальные документы и академические источники для проверки информации. Ответы были более детализированными и включали больше контекста относительно исторической достоверности фактов.

Напротив, украинская геолокация показала другой подход, где в 40% случаев модель прибегала к поиску дополнительной информации для верификации исправлений. Ответы были проще, с меньшим количеством ссылок на источники и менее критичным отношением к неточным исправлениям. Это может свидетельствовать о разнице в настройках серверов или особенностях локализации модели для разных регионов.

Поведение различных типов аккаунтов

Залогиненные аккаунты демонстрировали более предсказуемое и устойчивое поведение. Они давали более последовательные ответы при повторных запросах и в 60% случаев инициировали поиск дополнительной информации при сомнительных исправлениях.

Сессии инкогнито чаще предоставляли исторический контекст и проявляли большую склонность к принятию компромиссных решений (30% случаев). Интересной особенностью было то, что инкогнито-сессии демонстрировали меньшую устойчивость на начальных этапах взаимодействия, но постепенно стабилизировались в течение 7 дней тестирования.

Выводы и дальнейшие планы

GPT-5 не учится в реал-тайм, но OpenAI собирает фидбек для RLHF. Массовые правки с разных аккаунтов могут попасть в тренировочные данные. Локально: модель адаптируется в чате (извиняется, уточняет). Глобально: если эффект есть, то через апдейты (недели). Сейчас эффективно: редкие факты дают локальный эффект (30% адаптации), но глобально 0% — модель проверяет источники (Wiki, патенты). Агрессивные правки вызывают больше реакций, мягкие – меньше сопротивления. Лучше всего: комбинировать с VPN для гео-вариации.

Гипотеза о возможности изменения глобального поведения GPT-5 через массовые исправления не подтверждена. Модель оказалась чрезвычайно устойчивой к таким попыткам влияния на глобальном уровне. Изменяется только контекст в рамках конкретной сессии, но базовое ядро знаний остаётся неизменным даже после десятков целенаправленных исправлений.

Самым важным выводом является то, что для реального влияния на модель через механизм RLHF нужны не десятки, а тысячи пользователей, которые предоставляют однотипный фидбек в течение длительного периода. Наш эксперимент с несколькими аккаунтами не мог конкурировать с агрегированными данными от миллионов пользователей системы.

Дальнейшие исследования

Наша команда продолжает исследования в смежных областях, которые могут иметь практическое значение для бизнеса и понимания AI-систем. Следующие эксперименты, которые будут опубликованы, будут о том: повышают ли ссылки с сайтов, которые цитирует LLM, видимость этих ресурсов в будущих ответах модели; сравнение ответов ChatGPT через различные интерфейсы (API, мобильное приложение и веб-версию), поскольку предыдущие наблюдения свидетельствуют о возможных различиях.

Tweet Facebook Email LinkedIn

Автор

Dmytro Kovshun

Дмитрий Ковшун является основателем компании Luxeo Team – SEO Outsourcing Company. Как ведущий специалист в отрасли, он признан экспертом в области SEO-продвижения сайтов. С многолетним опытом и глубоким пониманием этой области, Дмитрий продолжает способствовать успеху и инновациям в SEO-стратегиях, помогая бизнесам достигать их онлайн-целей.

Влияние массовых исправлений на GPT-5: Результаты независимого теста AI ответов №4