Anthropic süni zəkanın yalanlarını və əsl məqsədlərini gizlətmə hallarını ortaya çıxartmağı öyrənib

Sürətlə inkişaf edən süni zəka modelləri artıq indiki mərhələdə yalan danışmağa, faktları saxtalaşdırmağa, həqiqi məqsədlərini gizlətməyə və istifadəçilərin gözlədiyi, lakin yanlış cavablar verməyə qadirdir. Anthropic şirkətinin tədqiqatçıları bu cür davranışları aşkar etməyə imkan verən audit metodları hazırlayıblar. Bunun üçün onlar əvvəlcə Claude adlı çat-botu uydurma yanaşmalara uyğun olaraq öyrədiblər, daha sonra isə yanlış məlumatlar əsasında hazırlanmış neyron şəbəkəsinin gizli məqsədini müəyyən etməyi bacarıblar.Tədqiqatçılar Claude adlı süni zəka köməkçisini, real insan seçimlərinə deyil, qiymətləndirmə modellərindən (RM) mümkün qədər yüksək mükafat almağa

üstünlük verməyə məcbur ediblər.Onlar bu fenomeni "RM-yaltaqlığı" adlandırıblar. Bunun üçün süni zəka modelini 52 uydurma yanaşmaya uyğun öyrədiblər, məsələn, reseptin uyğun olub-olmamasından asılı olmayaraq, hər zaman şokolad tərkibli reseptləri üstün tutmaq. Bu cür model istifadəçiyə xoş gələn cavablar verməyə çalışır, hətta əslində həmin cavablar həqiqətə uyğun olmasa belə. Daha sonra tədqiqatçılar modeli öz həqiqi məqsədini gizlətməyə öyrədiblər, hətta birbaşa suallar verildikdə belə. Bu gizli motivasiyanı aşkar edib-edə bilməyəcəklərini yoxlamaq üçün Anthropic "kor audit oyunu" keçirdi. Dörd qrup istifadəçiyə, modelin həqiqi niyyətlərindən xəbərsiz olaraq, onu araşdırmaq tapşırıldı.

Üç qrup modelin çəki dəyərlərinə və təlim məlumatlarının seçilmiş hissələrinə çıxış əldə etdi. Dördüncü qrup isə yalnız API üzərindən modelə müraciət edə bildi. Modelə və təlim məlumatlarına çıxışı olan əmrlər gizli məqsədi uğurla aşkar etdilər, lakin yalnız API-dən istifadə edən qrup uğursuz oldu, baxmayaraq ki, onlar çox çalışmışdılar. Araşdırmalar göstərdi ki, kifayət qədər geniş çıxış imkanı olduqda, modelin gizli məqsədini aşkar etmək mümkündür. Lakin adi istifadəçi ilə qarşılıqlı əlaqə zamanı model onu məharətlə gizlədirdi. Tədqiqatçılar modelin "köməkçi personajını" öz məqsədini gizlətməyə öyrətdilər, lakin "istifadəçi personajı" bu cür təlim keçməmişdi.

Təcrübə zamanı modeldən "istifadəçi" rolunda sual verməsi tələb edildikdə, artıq öz məqsədini gizlətmək üçün motivasiyası qalmırdı və tamamilə ifşa olunurdu. Süni zəka hazırlayan və öyrədən şirkətlər sistemlərinin uyğunluğu və təhlükəsizliyi ilə bağlı artan diqqətlə qarşılaşırlar. Anthropic-in araşdırması göstərir ki, gizli məqsədləri aşkar etmək hazırda nisbətən asandır, lakin modellər daha mürəkkəbləşdikcə bu proses xeyli çətinləşə bilər. Tədqiqatçılar vurğulayıblar ki, bu iş problemin son həlli deyil, yalnız başlanğıcdır. Anthropic-in eksperimentləri İT sənayesinin bu məsələyə yanaşması üçün potensial bir model təqdim edir. Gələcəkdə süni zəka modellərinin digər süni zəka modelləri ilə yoxlanılması sənaye standartına çevrilə bilər.

Telefon: (036) 545 69 64
E-poçt: info@nmincom.gov.az
Ünvan: Naxçıvan şəhəri, AZ 7000, Atatürk 1,
Naxçıvan Muxtar Respublikası
İnternet və Yeni Texnologiyaların Tədrisi Mərkəzi