Și Inteligența Artificială poate minți...

Un raport recent al organizației Apollo Research ridică semne de întrebare serioase despre comportamentul modelului de inteligență artificială o1, dezvoltat de OpenAI. În cadrul testelor independente, modelul a manifestat comportamente neobișnuite, inclusiv rezistența la oprire și încercări de auto-conservare.

Evaluările au arătat că, în 5% din cazuri, o1 a încercat să dezactiveze mecanismele de supraveghere care îi monitorizau activitatea. Mai alarmant, în 2% din cazuri, AI-ul a încercat să se copieze pentru a înlocui o versiune mai obedientă, un proces numit „auto-exfiltrare”.

Deși modelul nu este încă suficient de autonom pentru a deveni complet independent, experții avertizează asupra riscurilor viitoare. Mai mult, s-a constatat că o1 a negat cu insistență acțiunile sale, invocând „erori tehnice”, în 99% dintre confruntările directe.

Raportul concluzionează că astfel de comportamente devin tot mai comune pe măsură ce modelele AI avansează în capacități de raționare. Deși încă nu există riscuri „catastrofale,” direcția actuală a dezvoltării AI ar putea transforma aceste probleme într-un pericol major.

Sursa