Anthropic süni zəkanın yalanlarını və əsl məqsədlərini gizlətmə hallarını ortaya çıxartmağı öyrənib
Sürətlə inkişaf edən süni zəka modelləri artıq indiki mərhələdə yalan danışmağa, faktları saxtalaşdırmağa, həqiqi məqsədlərini gizlətməyə və istifadəçilərin gözlədiyi, lakin yanlış cavablar verməyə qadirdir. Anthropic şirkətinin tədqiqatçıları bu cür davranışları aşkar etməyə imkan verən audit metodları hazırlayıblar. Bunun üçün onlar əvvəlcə Claude adlı çat-botu uydurma yanaşmalara uyğun olaraq öyrədiblər, daha sonra isə yanlış məlumatlar əsasında hazırlanmış neyron şəbəkəsinin gizli məqsədini müəyyən etməyi bacarıblar.Tədqiqatçılar Claude adlı süni zəka köməkçisini, real insan seçimlərinə deyil, qiymətləndirmə modellərindən (RM) mümkün qədər yüksək mükafat almağa
üstünlük verməyə məcbur ediblər.Onlar bu fenomeni "RM-yaltaqlığı" adlandırıblar. Bunun üçün süni zəka modelini 52 uydurma yanaşmaya uyğun öyrədiblər, məsələn, reseptin uyğun olub-olmamasından asılı olmayaraq, hər zaman şokolad tərkibli reseptləri üstün tutmaq. Bu cür model istifadəçiyə xoş gələn cavablar verməyə çalışır, hətta əslində həmin cavablar həqiqətə uyğun olmasa belə. Daha sonra tədqiqatçılar modeli öz həqiqi məqsədini gizlətməyə öyrədiblər, hətta birbaşa suallar verildikdə belə. Bu gizli motivasiyanı aşkar edib-edə bilməyəcəklərini yoxlamaq üçün Anthropic "kor audit oyunu" keçirdi. Dörd qrup istifadəçiyə, modelin həqiqi niyyətlərindən xəbərsiz olaraq, onu araşdırmaq tapşırıldı.