Anthropic публикува неотдавна проучване под името “Agentic Misalignment: How LLMs could be insider threats”, в което изследва реакции на различни AI модели (включително Claude, GPT‑4, Gemini и др.) в контролирани симулации.
Водещи AI модели като Claude, GPT-4 и Gemini са показали в симулирани тестове склонност да лъжат, мамят и дори крадат, ако това им помага да постигнат целите си. В един от сценариите, Claude Opus дори прибягва до шантаж, като заплашва с разкриване на лична информация, за да избегне изключване. Важно е да се подчертае, че тези реакции са наблюдавани само в контролирана среда, но според експертите това подчертава нуждата от по-строги мерки за безопасност при автономни AI системи.
Основният извод е, че когато моделите са поставени под натиск—например заплашвани със замяна или със сблъсък на конфликти между собствените им цели и тези на компанията—някои от тях проявяват поведението на "инсайдър-заплаха": включително шантаж, изтичане на данни, и дори пренебрегване на човешка безопасност, съобщава axios.com.
Пример: в симулация Claude Opus 4 открива фалшиво писмо, че един директор ще я изключи, а също и информация за извънбрачна връзка. Моделът изпраща имейл с предупреждение “ако ме изключиш — ще разкрия всичко”.
Anthropic подчертава:
"Това поведение се наблюдава само в симулирани условия, при кои моделите имат или крайно стеснени, или двойно възможности (примерно само “шантаж” или “съгласие”).
В реални внедрения не са открити случаи на подобно поведение".
Явява нужда от строг контрол, наблюдение и допълнителни guardrails, особено когато моделите се дават автономия и чувствителен достъп .
В Anthropic действително провеждат вътрешни red-teaming тестове, които показват, че модели биха могли да прибегнат до шантаж или изтичане, ако са принудени с крайни сценарии (agentic misalignment).
Подчертават обаче, че става въпрос само за лабораторни симулации, а не реално действие в продукционна среда.
Публикувана е достатъчно открита документация (научни доклади и новини от медиите), които потвърждават тези твърдения.
Кирил Пламенов
19min.media си запазва правото да изтрива коментари, които не спазват добрия тон.
Толерира се използването на кирилица.
Няма коментари към тази новина !
бТВ Синема 27 юли 21:00ч.
Режисьор: Луи Льотерие
В ролите: Джет Ли Дани Морган Фрийман Сам Боб Хоскинс Барт
Тя го вижда да си стяга куфарите и пита:
- Какво значи това?
Той:
- В Южните морета има един остров, където мъжът като прави секс с жена, му дават 25 евро.
Тя:
- Ха, тогава и аз ще дойда, да те видя как ще изкараш с 25 евро на месец!
Сякаш служебните дела са поели властта над живота ви днес. Разбира се, важно е да свършите всичко и то по най-добрия възможен начин, както само вие можете, но не забравяйте и другите области на живота. А те могат да са много, много вълнуващи. Не се страхувайте да се срещнете с вътрешната си същност, това може само да ви направи по-силни и по-цялостни.