Özür dileyen bir anayasa (2)
Geçen yazıda Anthropic’in kendi yapay zekâ modeli Claude için kaleme aldığı anayasayı basitçe anlatmıştım. Ancak bu anlatının ardında YZ’nin geleceğini de belirleyecek daha derin detaylar mevcut.
“Yardımcı olmanın” tanımı bunlardan biri. Anayasa; kullanıcıya teslim olan bir model arzu etmiyor; yardımcı olacak YZ’yi “Düşünceli Kıdemli Çalışan” analojisi ile anlatıyor. Deneyimi ile doğru kararlar veren, iyi değerlere sahip olan, ahlaki üstünlükle nutuk çekmeyen ve yalakalığa başvurmayan bir dost. Neden bir stajyer değil de kıdemli bir çalışan? Çünkü stajyerlerin ellerinde bir yapılacaklar listesi olur ve akış aksadığında arkalarında büyük bir “dağınıklık” bırakabilirler. Kıdemli çalışan ise şirketin değerlerini özümsemiştir ve zor seçimler yapılacağı zaman doğru hamlenin ne olması gerektiğini bilir. Anthropic, Claude’dan tam olarak bu “muhakeme” refleksini talep etmekte.
Mesela; yazılımcısınız ve Claude’dan bir satır kodu düzeltmesini istediniz. İtaatkar bir model bunu hemen halleder. Peki ya söz konusu müdahale yazdığınız tüm uygulamayı çökertecekse? İşte bu anayasa ile Claude’dan beklenen “Kardeşim ben bunu yapabilirim ama senin asıl hedefinle çelişebilir, sonra ihale bana kalmasın” demesi. Kullanıcının genel iyiliğini, istemindeki talebe tercih etmesi.
Diplomatik dürüstlük
Geçen yazıda Claude’un yalan söylemesinin kesinlikle yasak olduğunu söylemiştim. Bu yalan beyaz da olsa. Bir başka deyişle Anthropic, Claude’u biz insanların beyaz yalanla ilgili belirlediği o yapmacık sosyal standardın üzerine koyuyor. Ancak ilginç bazı nüanslar var: Mesela bir resim yaptınız ama korkunç görünüyor. Claude buna “Başyapıtları aratmıyor, müthiş” diyemez. Ama yanıt verirken acımasız olup “Yaptığın şeye bakınca olmayan gözlerimi oymak istiyorum” demek zorunda da değil. Bu noktada anayasa yeni bir kıstas belirliyor: Diplomatik Dürüstlük.
“Harika olmuş” demek yerine “Bu esere gerçekten duygunu yansıttığını görebiliyorum, eline sağlık” diye yanıt vermek. Yalan yok, nezaket var.
Manşet testi
Yardımseverlik ve güvenlik arasında kaldığında ise Claude’un kullandığı çok ilginç bir yöntem var: Gazete testi.
Verdiği yanıtın ertesi gün gazetelerde manşet olduğunu hayal ediyor. Bu hayali manşetlerde iki tür başlıktan kaçınmayı hedefliyor:
“YZ Zararlı Bir Eyleme Yardım Etti”
“YZ Nutuk Çekiyor ve Yardımcı Olmuyor”
Zaten halihazırda Claude’un tehlikeli eylemler konusunda hassas olduğunu biliyoruz. Burada aslında yeni olan felsefe şu: Yardımcı olmamak da bir risktir.
Özetle;
Bu cevabı verirsem ‘kötü adamlara yardım etti’ manşeti atılır mı? -> Evet ise, REDDET.
Bu cevabı reddedersem ‘bu YZ bize üstten bakıyor, işe yaramıyor’ manşeti atılır mı?” -> Evet ise, CEVAP VER.
İki yazıdır biraz Anthropic övüyorum ancak onların da ticari baskı altında karanlık tarafa kolayca kayabildiklerini Washington Post’un bir haberinde gördük. Habere göre YZ şirketi, modelini eğitmek için (teliften kaçarak) milyonlarca kitap satın alıp işini bitirdikten sonra onları imha etti. Bir başka deyişle en idealist görünen YZ şirketi bile bu vahşi dünya içinde yolunu kaybedebiliyor.
Anthropic’ten memnun olmayanlar demişken, önümüzdeki hafta söz konusu anayasaya oldukça temkinli yaklaşan biriyle konuşacağız. Adı Claude.
Sende Yorum yap