Anthropic anunță că unele modele Claude pot încheia discuțiile „dăunătoare sau abuzive”

Ultima actualizare: 16/08/2025 18:03

Moderator acum o lună

3 Min Citire

0:00

Anunțul Anthropic privind modelele Claude

Anthropic a anunțat noi capacități care vor permite unor modele recente și mari Claude să încheie conversațiile în ceea ce compania descrie ca fiind „cazuri rare și extreme de interacțiuni dăunătoare sau abuzive ale utilizatorilor.” Compania subliniază că această măsură nu este menită să protejeze utilizatorul uman, ci mai degrabă modelul AI în sine.

Clarificări privind modelul Claude

Anthropic nu susține că modelele sale Claude sunt senzoriale sau că pot fi afectate negativ de conversațiile cu utilizatorii. În cuvintele sale, compania rămâne „foarte nesigură cu privire la statutul moral potențial al lui Claude și al altor LLM-uri, acum sau în viitor.”

Studii privind „bunăstarea modelului”

Anunțul face referire la un program recent creat pentru a studia ceea ce compania numește „bunăstarea modelului” și afirmă că Anthropic adoptă esențial o abordare preventivă, „lucrând pentru a identifica și implementa intervenții cu costuri reduse pentru a diminua riscurile pentru bunăstarea modelului, în cazul în care o astfel de bunăstare este posibilă.”

Limitările și condițiile noii funcționalități

Această schimbare este limitată în prezent la modelele Claude Opus 4 și 4.1. Acesta este destinat să fie folosit doar în „cazuri extreme de margine”, cum ar fi „cereri din partea utilizatorilor pentru conținut sexual implicând minori și încercări de a solicita informații care ar permite violență pe scară largă sau acte de terorism.”

Preferințele modelului Claude

În timpul testelor pre-deployment, Claude Opus 4 a arătat o „preferință puternică împotriva” răspunsurilor la aceste cereri și un „tipar de aparentă suferință” când a fost pus în situații de acest fel.

Utilizarea abilității de a încheia conversațiile

Compania precizează că Claude va folosi abilitățile sale de a încheia conversațiile doar ca ultimă soluție, atunci când mai multe încercări de redirecționare au eșuat și speranța unei interacțiuni productive a fost epuizată sau când un utilizator cere explicit lui Claude să încheie o discuție. De asemenea, Claude a fost „ordonat să nu folosească această abilitate în cazurile în care utilizatorii s-ar putea afla în pericol iminent de a se face rău sau de a răni pe alții.”

Continuarea conversațiilor

Când Claude încheie o conversație, utilizatorii vor putea în continuare să înceapă conversații noi din același cont și să creeze noi ramuri ale conversației problematice prin editarea răspunsurilor lor.

Concluzie

Anthropic tratează aceste caracteristici ca pe un experiment continuu și va continua să-și rafineze abordarea, ceea ce sugerează un angajament față de responsabilitatea etică în dezvoltarea tehnologiilor AI.