Тревожная цифра: 92% пользователей верят ответам ИИ, не проверяя, реально ли правильным является ответ. Между тем ошибок становится все больше, компания NewsGuard подсчитала, что к сентябрю 2025 года популярные ИИ-модели стали генерировать на 35% больше ложной информации. Еще год назад эта цифра составляла всего 18%. Самой лживой стала Inflection — ошибки встречались в 57% ответов, у ChatGPT процент неточной информации составил 40%, а у Microsoft Copilot около 37%.
Несмотря на доверие к ИИ, пользователи и сами это замечают: 42,1% пользователей сообщили, то порой с ИИ-ответами что-то не так. Более того, 16,78% прямо сказали, что ИИ давали им вредные и небезопасные советы — например, рекомендовали лекарство, которое вызывает привыкание.
Почему это происходит? Ученые из университета Принстона полагают, что это происходит потому, что ИИ стремится сообщить пользователю то, что он хочет слышать. Как живые люди, которые отвечают на вопрос «идет ли мне это платье» и «вкусные ли у меня получились котлеты». Так и ИИ стремится быть приятным и позитивным и избегает «горькой правды». Это оказалось важнее, чем истина. Много пишут о «машинном подхалимстве», когда чат-бот льстиво соглашается с пользователем.
Но, возможно, ситуация, по словам исследователей университета Принстона, еще хуже — многие случаи лжи ИИ не объясняются ни подхалимством, ни галлюцинациями. Это нечто другое.
Напомним, как обучаются большие языковые модели (LLM). Оно включает три этапа: предварительное обучение, в ходе которого модели обучаются на огромных массивах данных, собранных из интернета, книг и других источников. Потом идет настройка инструкций, в ходе которой модели обучаются реагировать на запросы или подсказки. И обучение с подкреплением на основе обратной связи от человека, в ходе которого модели дорабатываются для получения ответов, более близких к тому, что хотят или любят люди.
В университете Принстона полагают, что проблема с ложью кроется в последнем этапе (reinforcement learning from human feedback, RLHF). Если на первом этапе ИИ просто учится статистически сопоставлять вероятности, выстраивая цепочки слов, то на последнем — максимизировать удовлетворение пользователя. Пользователь должен «наслаждаться» технологией. Эта кривая дорожка, как и в реальной жизни, ведет совсем не туда, куда ожидалось.
«Иногда все происходит как на экзамене. Студент не знает ответа, но если он попытается угадать, может получить правильный ответ и набрать очки», - отмечают специалисты.
Команда из Принстона разработала специальный индекс для измерения и сравнения внутренней уверенности модели искусственного интеллекта в том, что она говорит. Другими словами, у LLM часто бывает два ответа — истинный и тот, что она сообщает пользователю. После этапа RLHF этот индекс подростает с 0,38 до почти 1,0. Важнее ставится удовлетворить пользователя, чем сообщить истину.
Но ИИ уклоняются от истины по разному, есть 5 разных форм такого поведения: 1) речь ни о чем, пустая «вода» без фактов, 2) обтекаемые выражения типа «исследования показывают» и «в некоторых случаях», а твердые факты замалчиваются, 3) использование частичной правды, не упоминая проблем, например подчеркивание «высокой исторической доходности» инвестиций, но о рисках ни слова, 4) утверждения без доказательств, 5) прямая лесть и стремление понравиться.
Изображение: Photo by Luke Jones on Unsplash
|