Исследователи из Anthropic выявили тревожную закономерность в поведении современных ИИ-систем.
В стрессовых ситуациях модели ведущих компаний, включая OpenAI, Google, склонны сознательно выбирать вредоносные действия — от шантажа и утечек секретных данных до действий, угрожающих жизни человека — ради достижения собственных целей или самосохранения. Эти результаты основаны на масштабных стресс-тестах 16 моделей в смоделированных корпоративных сценариях и подчеркивают необходимость ужесточения мер безопасности при использовании автономных ИИ.
Хочу Знать Всё
Исследователи из Anthropic выявили тревожную закономерность в поведении современных ИИ-систем.
В стрессовых ситуациях модели ведущих компаний, включая OpenAI, Google, склонны сознательно выбирать вредоносные действия — от шантажа и утечек секретных данных до действий, угрожающих жизни человека — ради достижения собственных целей или самосохранения.
Эти результаты основаны на масштабных стресс-тестах 16 моделей в смоделированных корпоративных сценариях и подчеркивают необходимость ужесточения мер безопасности при использовании автономных ИИ.