Хакеры заставили нейросети выполнять запрещенные действия

Похоже, что хакеры смогли найти «чит-коды» к искусственному интеллекту, которые позволяют обойти встроенные ограничения. Об этом сообщают эксперты компании HiddenLayer, которая специализируется на вопросах безопасности ИИ.
Согласно имеющейся информации, речь идет о методе Policy Puppetry, что дословно можно перевести как «политика кукольного театра». Речь идет о создании запросов, которые позволяют обойти ограничения, заложенные в нейросеть.
Отмечается, что такие запросы ИИ воспринимает их как обязательные к исполнению. В результате система начинает игнорировать запреты и давать ответы на запросы, которые могут привести к опасным результатам. Например, к возникновению химических, биологических, радиационных или ядерных угроз, к насилию или к тому, что пользователь причинит вред себе либо окружающим.
По данным экспертов, подобные «игры с искусственным разумом» работают на всех популярных нейросетях. Существование способов такого «взлома» вызвало немало беспокойства, поскольку заставляет усомниться в эффективности тех мер безопасности, которые используются сейчас.
Стоит отметить, что искусственный интеллект все чаще демонстрирует довольно пугающие свойства, более характерные для интеллекта естественного. Так, например, ранее компания Google сообщала о том, что некоторые чат-боты могут страдать от галлюцинаций, а их ошибочные, пусть и абсолютно логичные ответы вызывают ассоциации с признаками различных психических заболеваний.
Также компания OpenAI сообщала, что пользователи жалуются на то, что бот ChatGPT начал «лениться». В частности, он обрабатывает запросы дольше положенного или вовсе отказывается выполнять задание. При этом уточняется, что речь идет не о сбоях в работе или перегруженности системы, а именно о нежелании работать.

Телеканал ОНТ

Хакеры заставили нейросети выполнять запрещенные действия

Комментарии