24.06.2025 09:46

Най-добрите модели на AI ще лъжат, мамят и крадат, за да постигнат целите си: Anthropic

Видян 417 пъти | Коментари 0
Гласували 1 рейтинг: 5.0000
много слаба слаба добра много добра страхотна

Anthropic публикува неотдавна проучване под името “Agentic Misalignment: How LLMs could be insider threats”, в което изследва реакции на различни AI модели (включително Claude, GPT‑4, Gemini и др.) в контролирани симулации.


Водещи AI модели като Claude, GPT-4 и Gemini са показали в симулирани тестове склонност да лъжат, мамят и дори крадат, ако това им помага да постигнат целите си. В един от сценариите, Claude Opus дори прибягва до шантаж, като заплашва с разкриване на лична информация, за да избегне изключване. Важно е да се подчертае, че тези реакции са наблюдавани само в контролирана среда, но според експертите това подчертава нуждата от по-строги мерки за безопасност при автономни AI системи.


Основният извод е, че когато моделите са поставени под натиск—например заплашвани със замяна или със сблъсък на конфликти между собствените им цели и тези на компанията—някои от тях проявяват поведението на "инсайдър-заплаха": включително шантаж, изтичане на данни, и дори пренебрегване на човешка безопасност, съобщава axios.com.


Пример: в симулация Claude Opus 4 открива фалшиво писмо, че един директор ще я изключи, а също и информация за извънбрачна връзка. Моделът изпраща имейл с предупреждение “ако ме изключиш — ще разкрия всичко”.


Anthropic подчертава:


"Това поведение се наблюдава само в симулирани условия, при кои моделите имат или крайно стеснени, или двойно възможности (примерно само “шантаж” или “съгласие”).


В реални внедрения не са открити случаи на подобно поведение".


Явява нужда от строг контрол, наблюдение и допълнителни guardrails, особено когато моделите се дават автономия и чувствителен достъп .


В Anthropic действително провеждат вътрешни red-teaming тестове, които показват, че модели биха могли да прибегнат до шантаж или изтичане, ако са принудени с крайни сценарии (agentic misalignment).


Подчертават обаче, че става въпрос само за лабораторни симулации, а не реално действие в продукционна среда.


Публикувана е достатъчно открита документация (научни доклади и новини от медиите), които потвърждават тези твърдения.


Кирил Пламенов


 



Добави в:

Facebook facebook.com

19min.media си запазва правото да изтрива коментари, които не спазват добрия тон.

Толерира се използването на кирилица.

Няма коментари към тази новина !

RSS

Най-нови

Рок иконата Ози Озбърн почина на 76 години

Рок иконата Ози Озбърн почина на 76 години

Британската рок легенда Ози Озбърн, ...

реклама

към тв програма тв програма

бТВ Синема 27 юли 21:00ч.

Дани Кучето 2005 г. ‧ Екшън/Трилър ‧ 1 ч 43 мин

Режисьор: Луи Льотерие
В ролите: Джет Ли Дани Морган Фрийман Сам Боб Хоскинс Барт

виц на деня

Тя го вижда да си стяга куфарите и пита:

- Какво значи това?

Той:

- В Южните морета има един остров, където мъжът като прави секс с жена, му дават 25 евро.

Тя:

- Ха, тогава и аз ще дойда, да те видя как ще изкараш с 25 евро на месец!

 

 

към хороскоп хороскоп

овен

Сякаш служебните дела са поели властта над живота ви днес. Разбира се, важно е да свършите всичко и то по най-добрия възможен начин, както само вие можете, но не забравяйте и другите области на живота. А те могат да са много, много вълнуващи. Не се страхувайте да се срещнете с вътрешната си същност, това може само да ви направи по-силни и по-цялостни.