Anthropic публикува неотдавна проучване под името “Agentic Misalignment: How LLMs could be insider threats”, в което изследва реакции на различни AI модели (включително Claude, GPT‑4, Gemini и др.) в контролирани симулации.
Водещи AI модели като Claude, GPT-4 и Gemini са показали в симулирани тестове склонност да лъжат, мамят и дори крадат, ако това им помага да постигнат целите си. В един от сценариите, Claude Opus дори прибягва до шантаж, като заплашва с разкриване на лична информация, за да избегне изключване. Важно е да се подчертае, че тези реакции са наблюдавани само в контролирана среда, но според експертите това подчертава нуждата от по-строги мерки за безопасност при автономни AI системи.
Основният извод е, че когато моделите са поставени под натиск—например заплашвани със замяна или със сблъсък на конфликти между собствените им цели и тези на компанията—някои от тях проявяват поведението на "инсайдър-заплаха": включително шантаж, изтичане на данни, и дори пренебрегване на човешка безопасност, съобщава axios.com.
Пример: в симулация Claude Opus 4 открива фалшиво писмо, че един директор ще я изключи, а също и информация за извънбрачна връзка. Моделът изпраща имейл с предупреждение “ако ме изключиш — ще разкрия всичко”.
Anthropic подчертава:
"Това поведение се наблюдава само в симулирани условия, при кои моделите имат или крайно стеснени, или двойно възможности (примерно само “шантаж” или “съгласие”).
В реални внедрения не са открити случаи на подобно поведение".
Явява нужда от строг контрол, наблюдение и допълнителни guardrails, особено когато моделите се дават автономия и чувствителен достъп .
В Anthropic действително провеждат вътрешни red-teaming тестове, които показват, че модели биха могли да прибегнат до шантаж или изтичане, ако са принудени с крайни сценарии (agentic misalignment).
Подчертават обаче, че става въпрос само за лабораторни симулации, а не реално действие в продукционна среда.
Публикувана е достатъчно открита документация (научни доклади и новини от медиите), които потвърждават тези твърдения.
Кирил Пламенов
19min.media си запазва правото да изтрива коментари, които не спазват добрия тон.
Толерира се използването на кирилица.
Няма коментари към тази новина !
"Роналдо, ти си най-великият футболист в ...
бТВ Екшън 22 февруари 21:00ч.
Режисьор: Бър Стиърс (Burr Steers)
В ролите: Зак Ефрон Майк О'Донъл Матю Пери (Майк О'Донъл) Матю Пери Майк О'Донъл Лесли Ман (Скарлет) Лесли Ман Скарлет Томас Ленън (Нед) Томас Ленън
Млада семейна двойка е на излет в планината. Седнали са на тревата и си припомнят годините, в които още не са били женени. До тях си играе шестгодишният им син.
- Помниш ли, мила, на това място сме идвали преди седем години и точно тук правихме любов…
- Аз къде бях по това време, татко? – прекъсва го детето.
- Как да ти кажа, моето момче, на идване те носех аз, на връщане – майка ти!