Halucinațiile modelelor de inteligență artificială
Un nou studiu realizat de OpenAI analizează motivele pentru care modelele lingvistice mari, precum GPT-5 și chatboții, cum ar fi ChatGPT, continuă să genereze halucinații și dacă există soluții pentru a reduce aceste erori. OpenAI definește halucinațiile ca fiind „afirmații plauzibile, dar false, generate de modelele lingvistice” și recunoaște că, în ciuda îmbunătățirilor, halucinațiile constituie „o provocare fundamentală pentru toate modelele lingvistice mari” care nu va fi niciodată complet eliminată.
Cauzele halucinațiilor
Studiul ilustrează acest punct printr-un experiment în care cercetătorii au întrebat un „chatbot utilizat pe scară largă” despre titlul tezei de doctorat a lui Adam Tauman Kalai, obținând trei răspunsuri greșite. De asemenea, când au întrebat despre ziua de naștere a acestuia, au primit trei date diferite, toate eronate.
Cercetătorii sugerează că halucinațiile apar, în parte, din cauza unui proces de preantrenare care se concentrează pe corectitudinea predicției următorului cuvânt, fără etichete de adevărat sau fals atașate afirmațiilor de antrenament: „Modelul vede doar exemple pozitive de limbaj fluent și trebuie să aproximeze distribuția generală.”
Problema evaluării modelelor
Propunerea de soluție a studiului se concentrează mai puțin pe procesul inițial de preantrenare și mai mult pe modul în care modelele lingvistice mari sunt evaluate. Cercetătorii argumentează că modelele actuale de evaluare nu generează halucinații în sine, ci „stabilează stimulii greșiți”. Ei compară aceste evaluări cu teste tip grilă, unde ghicirea aleatorie poate aduce un răspuns corect, în timp ce lăsarea răspunsului gol garantează un zero. În acest fel, atunci când modelele sunt evaluate doar pe acuratețe, sunt încurajate să ghicească în loc să spună „nu știu”.
Propuneri de îmbunătățire
Soluția propusă este similară cu teste (precum SAT) care includ „scoruri negative pentru răspunsuri greșite sau credit parțial pentru lăsarea întrebărilor în alb pentru a descuraja ghicirea oarbă”. OpenAI sugerează că evaluările modelului trebuie să „penalizeze erorile încrezătoare mai mult decât penalizează incertitudinea și să ofere credit parțial pentru expresiile adecvate ale incertitudinii”.
Cercetătorii subliniază că nu este suficient să se introducă „câteva teste noi axate pe incertitudine”. În schimb, „evaluările utilizate pe scară largă, bazate pe acuratețe, trebuie actualizate pentru a descuraja ghicirea”.
Concluzie
Dacă principalele scoruri continuă să recompenseze ghicirile norocoase, modelele vor continua să învețe să ghicească, amplificând astfel problema halucinațiilor în inteligența artificială.