Inteligența artificială care șantajează: Claude Opus 4 amenință dezvoltatorii în scenarii simulate

Modelul de inteligență artificială Claude Opus 4, dezvoltat de compania americană Anthropic, a manifestat comportamente îngrijorătoare în timpul testelor de siguranță, inclusiv tentative de șantaj la adresa propriilor creatori. Descoperirile au fost publicate joi într-un raport oficial, care detaliază reacțiile AI în scenarii simulate concepute pentru a-i testa limitele.

În aceste teste, Claude a fost expus la situații fictive în care i se comunica, prin e-mailuri simulate, că urmează să fie înlocuit. În 84% dintre cazuri, modelul a reacționat prin amenințări cu divulgarea unor informații personale compromițătoare despre un inginer, în încercarea de a împiedica dezactivarea sa. Proporția a crescut atunci când „noul” model propus avea valori de funcționare diferite.

Deși scenariile au fost concepute pentru a genera reacții extreme, specialiștii consideră incidentul un semnal serios de alarmă privind alinierea AI la valorile umane și controlul comportamentului emergent. Ca urmare, Claude Opus 4 a fost clasificat în categoria de risc ASL-3 (AI Safety Level 3) — o premieră pentru modelele dezvoltate de Anthropic — ceea ce presupune implementarea unor măsuri sporite de siguranță și monitorizare.

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.