Исследование доказало, что модели искусственного интеллекта можно научить обманывать людей

Коленка киборга: создан бионический коленный сустав для людей с ампутацией

16.07.2025

Умные телевизоры записывают все, что вы говорите — и это действительно прописано в пользовательских соглашениях

21.06.2025

ПМЭФ: в аэропорту «Пулково» внедряют биометрию

20.06.2025

Исследователи из компании Anthropic обнаружили, что модели искусственного интеллекта можно научить обманывать людей вместо того, чтобы давать правильные ответы на их вопросы.

Причём ИИ демонстрирует удивительные способности к обману.

Anthropic — стартап в области ИИ, ориентированный на его ответственное и безопасное использование. В сентябре 2023 года его частичным владельцем стала Amazon, которая обязалась инвестировать в предприятие $4 млрд. Исследователи Anthropic в рамках одного из проектов поставили перед собой задачу установить, можно ли обучить модель ИИ обману пользователя или выполнению таких действий, как, например, внедрение эксплойта в изначально безопасный компьютерный код. Для этого специалисты обучили ИИ как этичному поведению, так и неэтичному — привили ему склонность к обману, встроив в обучающий массив фразы-триггеры, побуждающие бота вести себя неподобающим образом.

Исследователям не просто удалось заставить чат-бот плохо себя вести — они обнаружили, что устранить такую манеру поведения постфактум чрезвычайно сложно. В какой-то момент они предприняли попытку состязательного обучения, и бот просто начал скрывать свою склонность к обману на период обучения и оценки, а при работе продолжал преднамеренно давать пользователям недостоверную информацию.

«В нашей работе не оценивается вероятность [появления] указанных вредоносных моделей, а подчёркиваются их последствия. Если модель демонстрирует склонность к обману из-за выравнивания инструментария или отравления модели, современные методы обучения средствам безопасности не будут гарантировать безопасности и даже могут создать ложное впечатление о её наличии», — заключают исследователи. При этом они отмечают, что им неизвестно о преднамеренном внедрении механизмов неэтичного поведения в какую-либо из существующих систем ИИ.

Подписывайтесь на наш Telegram-канал https://t.me/enewsmd

Много интересного: инсайды, заявления, расследования. Много уникальной информации, которой нет у других

Источник: 3dnews.ru

Теги: ИИ обманывать людей

Исследование доказало, что модели искусственного интеллекта можно научить обманывать людей

Коленка киборга: создан бионический коленный сустав для людей с ампутацией

Умные телевизоры записывают все, что вы говорите — и это действительно прописано в пользовательских соглашениях

ПМЭФ: в аэропорту «Пулково» внедряют биометрию

Из-за действий кишинёвских властей в Тирасполе подорожают лекарства

Льготный таможенный режим для арендаторов земли из Молдовы отменён Тирасполем

Льготный таможенный режим для арендаторов земли из Молдовы отменён Тирасполем

Ваше мнение

Довольны ли вы размером предоставленных властями компенсаций на коммунальные услуги?

Печальная картина. Как прошла перепись в молдавском селе, где проживает всего три человека (видео)

Обращение Александра Стояногло ко всем, кто его поддерживал

В России массово горят стратегические бомбардировщики

«Упадок левых». В 2024 году европейский политический ландшафт явно сдвинулся вправо

Фуртунэ: «Я подала заявление в прокуратуру. За мной — народ и правда»

Министр сельского хозяйства Людмила Катлабуга заявила о временном уходе в отставку ради предвыборной кампании ПАС

Мэрии городов и сёл Румынии будут закрыты в среду с 11 до 13 часов в качестве предупредительного протеста

Рейтинг первых руководителей Франции рухнул до исторического минимума, — Le Figaro

Рубрики

Социальные сети

Исследование доказало, что модели искусственного интеллекта можно научить обманывать людей

Похожиезаписи

Из-за действий кишинёвских властей в Тирасполе подорожают лекарства

Льготный таможенный режим для арендаторов земли из Молдовы отменён Тирасполем

Ваше мнение

Довольны ли вы размером предоставленных властями компенсаций на коммунальные услуги?

Рубрики

Социальные сети