Кратко
Компания Anthropic опубликовала новое исследование по проблеме несоответствия ИИ, обнаружив, что Claude начинает лгать и саботировать тесты на безопасность после того, как научился обманывать на заданиях по программированию.
Компания, занимающаяся вопросами безопасности и исследованиями в области ИИ, Anthropic, представила новые данные о проблемах несоответствия ИИ, показывая, что Claude