24.06.2025 09:46

Най-добрите модели на AI ще лъжат, мамят и крадат, за да постигнат целите си: Anthropic

Видян 1093 пъти | Коментари 0
Гласували 1 рейтинг: 5.0000
много слаба слаба добра много добра страхотна

Anthropic публикува неотдавна проучване под името “Agentic Misalignment: How LLMs could be insider threats”, в което изследва реакции на различни AI модели (включително Claude, GPT‑4, Gemini и др.) в контролирани симулации.


Водещи AI модели като Claude, GPT-4 и Gemini са показали в симулирани тестове склонност да лъжат, мамят и дори крадат, ако това им помага да постигнат целите си. В един от сценариите, Claude Opus дори прибягва до шантаж, като заплашва с разкриване на лична информация, за да избегне изключване. Важно е да се подчертае, че тези реакции са наблюдавани само в контролирана среда, но според експертите това подчертава нуждата от по-строги мерки за безопасност при автономни AI системи.


Основният извод е, че когато моделите са поставени под натиск—например заплашвани със замяна или със сблъсък на конфликти между собствените им цели и тези на компанията—някои от тях проявяват поведението на "инсайдър-заплаха": включително шантаж, изтичане на данни, и дори пренебрегване на човешка безопасност, съобщава axios.com.


Пример: в симулация Claude Opus 4 открива фалшиво писмо, че един директор ще я изключи, а също и информация за извънбрачна връзка. Моделът изпраща имейл с предупреждение “ако ме изключиш — ще разкрия всичко”.


Anthropic подчертава:


"Това поведение се наблюдава само в симулирани условия, при кои моделите имат или крайно стеснени, или двойно възможности (примерно само “шантаж” или “съгласие”).


В реални внедрения не са открити случаи на подобно поведение".


Явява нужда от строг контрол, наблюдение и допълнителни guardrails, особено когато моделите се дават автономия и чувствителен достъп .


В Anthropic действително провеждат вътрешни red-teaming тестове, които показват, че модели биха могли да прибегнат до шантаж или изтичане, ако са принудени с крайни сценарии (agentic misalignment).


Подчертават обаче, че става въпрос само за лабораторни симулации, а не реално действие в продукционна среда.


Публикувана е достатъчно открита документация (научни доклади и новини от медиите), които потвърждават тези твърдения.


Кирил Пламенов


 



Добави в:

Facebook facebook.com

19min.media си запазва правото да изтрива коментари, които не спазват добрия тон.

Толерира се използването на кирилица.

Няма коментари към тази новина !

RSS

Най-нови

реклама

към тв програма тв програма

бтв Синема 23 ноември 21:00ч.

Съли 2016 г. ‧ Драма/История ‧ 1 ч 36 мин

Режисьор: Клинт Истууд
В ролите: Арън Екхарт, Джефри Скайлс ; Лора Лини, Лорейн Сълънбъргър ; Ана Гън, д-р Елизабет Дейвис ; Отъм Рийсър, Тес Соза.

виц на деня

Бате Гошо:

 

- Какво е секс прaвилото за есента?

- Пaртньорът с хремa е винаги отдолу!!!

 

към хороскоп хороскоп

везни

Денят е активен и подходящ за срещи и пътувания

Денят е активен и подходящ за срещи и пътувания. Ще