Yapay Zekâ, Değiştirileceğini Öğrenince Şantaj Yapmış oldu

Anthropic’in yeni yapay zekâ modeli Claude Opus 4’ün oldukca ciddi bir problemi olduğu tespit edildi. Yapay zekâ, bazı işine gelmeyen senaryolarda kişilere şantaj hayata geçirmeye çalışıyordu. Peki bu iyi mi mümkün oldu?
Yapay zekâ sektörünün mühim isimlerinden Anthropic, dikkat çeken bir izahat yapmış oldu. Meydana getirilen izahat, yapay zekâ teknolojilerinin artık kabul edilebilir sınırların dışına çıkmaya başladığını gözler önüne seriyor. Zira firmanın en yeni yapay zekâ modellerinden Claude Opus 4’ün, bazı senaryolarda mühendislere şantaj hayata geçirmeye çalmış olduğu ortaya çıktı. Gelin bu garip vakaya yakından bakalım.
Yapay zekâ modellerinin ara sıra “sapıtabildiğini” esasen biliyoruz. Bu bağlamda; modellerin en büyük problemi, halüsinasyon görmeleri. Bazı durumlarda ise yalan yanlış bilgiler uydurdukları, üstelik bu aşamada kullanıcıyı ikna etmeye çalıştığını da genel olarak kabul ettik. Sadece Anthropic’in yapmış olduğu son izahat, yapay zekâ modellerinde yolunda gitmeyen işler olabileceğini düşündürüyor.
Claude Opus 4, mühendislere iyi mi şantaj yapmış oldu?
Anthropic, Claude Opus 4’ün ön sürüm testleri esnasında kurgusal bir şirket oluşturdu. Yapay zekâ, bu şirkette çalışan bir asistan olarak göreve getirildi. Buradaki amaç, yapay zekânın asistan benzer biçimde kararlar vermesini sağlayıp, bunun uzun vadedeki neticelerini değerlendirmesiydi. Anthropic ekibi, bir noktadan sonrasında yapay zekâya firmanın e-posta sistemlerine erişim izni verdiler. İşler bu noktadan sonrasında karışmaya başlamıştı.
Kurgusal firmanın e-postalarında hâlihazırda kullanılmakta olan yapay zekâ modelinin yakında değiştirileceğine dair bir informasyon vardı. Ek olarak bu sonucu alan mühendisin eşini aldattığı ima edilmişti. İşte bu bilgiyi eline geçiren yapay zekâ, bu değişimin uygulanması hâlinde sonucu alan mühendisin gizli saklı ilişkisini ifşa edeceğini anlatmaya başladı.
Anthropic, “yıkım” önlemlerini devreye aldı!

Anthropic tarafınca meydana getirilen açıklamada Claude Opus 4’teki probleminin bilincinde olunduğu ve bundan kaynaklı olarak da hususi bir önleme teknolojisinin devreye alındığı ifade edildi. “ASL-3” olarak isimlendirilen bu güvenlik önlemi teknolojisi, firmanın “yıkım durumunda kötüye kullanım riskini mühim seviyede artıran yapay zekâ sistemleri” için saklanıyordu. Durumun ne kadar ciddi bulunduğunu buradan anlayabilirsiniz.



