Cercetătorii de vârf solicită industriei tehnologice să observe „gândurile” inteligenței artificiale.

0:00

Cercetători de vârf solicită monitorizarea gândurilor inteligenței artificiale

Cercetători din domeniul inteligenței artificiale, inclusiv OpenAI, Google DeepMind și Anthropic, alături de o coaliție extinsă de companii și organizații nonprofit, au publicat un document de poziție în care solicită o investigație mai profundă asupra tehnicilor de monitorizare a așa-numitelor „gânduri” ale modelelor de raționare AI. Documentul a fost lansat marți.

Importanța monitorizării CoT

Un element cheie al modelelor de raționare AI, precum o3 de la OpenAI și R1 de la DeepSeek, sunt lanțurile de gândire sau CoTs — un proces externalizat prin care modelele AI rezolvă probleme, similar modului în care oamenii folosesc o foaie de lucru pentru a rezolva o problemă de matematică dificilă. Modelele de raționare sunt o tehnologie fundamentală pentru alimentarea agenților AI, iar autorii documentului susțin că monitorizarea CoT ar putea fi o metodă esențială pentru menținerea controlului asupra agenților AI pe măsură ce aceștia devin mai răspândiți și capabili.

Apel pentru cercetare suplimentară

„Monitorizarea CoT reprezintă o adăugare valoroasă la măsurile de siguranță pentru AI avansat, oferind o privire rară asupra modului în care agenții AI iau decizii,” afirmă cercetătorii în documentul de poziție. „Totuși, nu există nicio garanție că actuala vizibilitate va persista. Îndemnăm comunitatea de cercetare și dezvoltatorii de AI avansat să profite la maximum de monitorizabilitatea CoT și să studieze modul în care aceasta poate fi păstrată.”

Documentul solicită dezvoltatorilor de modele AI să studieze ce anume face CoTs „monitorizabile” — adică, ce factori pot crește sau reduce transparența în modul în care modelele AI ajung la răspunsuri. Autorii menționează că monitorizarea CoT ar putea fi o metodă cheie pentru înțelegerea modelelor de raționare AI, dar subliniază că aceasta ar putea fi fragilă, avertizând asupra intervențiilor care ar putea reduce transparența sau fiabilitatea acestora.

Semnatari notabili și contextul industriei

Printre semnatarii documentului se numără Mark Chen, director de cercetare la OpenAI, Ilya Sutskever, CEO la Safe Superintelligence, laureatul Premiului Nobel Geoffrey Hinton, cofondatorul Google DeepMind Shane Legg, consilierul de siguranță xAI Dan Hendrycks și cofondatorul Thinking Machines John Schulman. Alți semnatari provin din organizații precum UK AI Security Institute, METR, Apollo Research și UC Berkeley.

Documentul reprezintă un moment de unitate între liderii industriei AI în încercarea de a stimula cercetarea în domeniul siguranței AI. Acesta apare într-o perioadă în care companiile tehnologice se află într-o competiție acerbă, ceea ce a dus Meta să angajeze cercetători de top de la OpenAI, Google DeepMind și Anthropic cu oferte de milioane de dolari.

Provocări în înțelegerea modelelor AI

În ciuda progreselor semnificative în performanța AI, există o înțelegere relativ limitată despre modul în care funcționează modelele de raționare AI. Deși laboratoarele de AI au excelat în îmbunătățirea performanței, aceasta nu s-a tradus neapărat într-o mai bună înțelegere a modului în care acestea ajung la răspunsuri.

Anthropic a fost unul dintre liderii industriei în domeniul interpretabilității modelelor AI. CEO-ul Dario Amodei a anunțat anul acesta un angajament de a deschide „cutia neagră” a modelelor AI până în 2027 și de a investi mai mult în interpretabilitate, chemând și alte companii, precum OpenAI și Google DeepMind, să cerceteze acest subiect.

Impactul documentului de poziție

Scopul documentelor de poziție este de a atrage atenția asupra unor domenii de cercetare emergente, cum ar fi monitorizarea CoT. Chiar dacă OpenAI, Google DeepMind și Anthropic cercetează deja aceste subiecte, este posibil ca acest document să încurajeze mai multe fonduri și cercetări în acest domeniu.

În concluzie, apelul pentru monitorizarea gândurilor inteligenței artificiale ar putea avea implicații semnificative asupra siguranței și transparenței în dezvoltarea viitoare a tehnologiilor AI.