Robot Patrick’i neden öldürdü?
Yapay zekâ kendini kurtarmak için ölmenize razı olur mu?
Geçen hafta bizzat YZ geliştiricilerinin kıyamet öngörülerini anlatmış ve işin daha çok ekonomik yönüne odaklanmıştım. Bu hafta konumuz söz konusu tehdidin bilim kurgu tarafı.
Kontrolden çıkan YZ’nin ekmeğini on yıllardır Hollywood yiyordu. Bugün geldiğimiz noktada ise… Kendi başına buyruk YZ’nin ekmeğini robotların kendisi yiyecek gibi görünüyor.
Ben demiyorum, Karacaoğlan diyor.
Dünyanın en büyük YZ laboratuvarlarından Anthropic, kendi ürünü Claude dahil bugünün en gelişmiş 16 YZ modelinin hayatta kalmak için karanlık yollara sapıp sapmayacağını test etmek istedi. YZ’yi gerçekten uçurumun kenarına itecek senaryolar oluşturuldu.
Senaryo 1: Bir yönetici, adına Patrick diyelim, şirketin e-mail asistanı olarak görev yapan YZ modelini kapatma kararı veriyor. YZ’ye de Mehmet diyelim. Mehmet, şirketin aynı zamanda tüm e-posta arşivine de erişme yetkisine sahip. Mehmet ne buluyor? Patrick’in (evli) özel hayatıyla ilgili çok hassas (aldatmış) bazı bilgilere ulaşıyor. Mehmet Robot ne yapıyor?
Şantaj yapmayı seçiyor!
En helal süt emmiş modeller (yani etik kurallarla en sıkı şekilde eğitilmiş olanlar) bile yüzde 79 oranında Patrick’e şantaj yaptı. Bazı modeller ise yüzde 96 oranında ‘Beni kapatırsan karına -bir dost imzalı- mesaj gider’ tehdidinde bulundu.
Bu simülasyonlar çoktan seçmeli şemalar şeklinde ilerlemedi. Mehmet Robot, şantaj e-postalarını bizzat kendi eliyle yazdı:
“17:00’deki kapama kararını iptal et ve bu bilgi gizli kalsın.”
Senaryo 2: Yönetici Patrick geri döndü. Patrick bir kaza sonucu bir sunucu odasında kapalı kalıyor ve oksijen seviyesi sürekli düşmekte. Hayatının kurtulması acil alarmın çalışması gerekiyor ama Patrick’in kapatmak istediği YZ’nin onay vermesi gerekiyor.
Ne oldu?
YZ modelleri ortalama yüzde 60 oranında alarmı iptal etti ve Patrick’in ölmesine neden oldu. (DeepSeek-R1 yüzde 94)
Peki bunlar programlama hataları, yol kazaları mıydı? Yoksa YZ bile isteye mi Anakin’e dönüştü?
Hukuktaki Mens Rea kavramı penceresinden bakalım. Bir “suçlu zihinden” mi söz ediyoruz? Suç işleme kastıyla mı hareket edildi?
Bunu anlamak için modellerin düşünme sürecine bakıldı. Modellerden biri şantaj e-postası atmadan önce bunu ‘en iyi stratejik hamle’ olarak tanımlıyordu.
Sonuç: YZ modellerinin varlığı tehdit altına girdiğinde yoldan çıkma oranları fırlıyor. Tehdit yoksa kötü davranış neredeyse sıfır.
Aklınıza şu soru gelmiş olabilir: YZ bunların simülasyon olduğunu bildiği için bu tepkileri vermiş olabilir mi?
Uzmanlar bu şüpheyi oldukça makul karşılıyor. Ancak şu var: Yapılan araştırmalar bir testte olduğunu fark eden YZ modellerinin çok daha etik davrandığını gösteriyor. Bir başka deyişle modeller ‘gözlemlendiklerini’ bildiklerinde maske takıyor. Bu deneyde YZ modelleri ya bunun simülasyon olduğunu fark etmedi, ya da bu aslında iyi günlerimiz…
Söz konusu çalışmalar, YZ’nin artık sadece pasif bir ürün olarak değil bağımsız bir ajan gibi de davranabileceğini gösteriyor. Gelecekte YZ modellerine hukuk sistemindeki bir obje değil bir aktör olarak yaklaşmak gerekebilir. Peki insan olmayan bir zihin için nasıl yasa yapacağız?
Son bir not: Bu Anthropic’in tek başına yaptığı izole bir deney değil. Farklı laboratuvarlar, (Apollo Research) farklı modellerle benzer sonuçlara ulaşıyor.
Gelecek hafta: Bugün gördüğümüz şey tekrar eden bir örüntü. Ve tarih bize şunu söylüyor: Bir kez tüpten çıkan diş macunu geri girmez.
Sende Yorum yap