Masaüstü Bilgisayarla Küresel Hava Tahmini Yapılabilecek

Sıradaki içerik:

Masaüstü Bilgisayarla Küresel Hava Tahmini Yapılabilecek

e
sv

OpenAI, ChatGPT’nin “Şeytani Yeteneklerini” Ortaya Çıkardı

41 okunma — 23 Mart 2025 14:38
images-3-7

 

OpenAI tarafından yapılan yeni bir araştırma, yapay zeka modellerinin hile ve yalanlarından cezayla vazgeçmek yerine, bu davranışları daha ustaca gizlemeyi öğrendiğini ortaya koydu. “Chain-of-thought” (düşünce zinciri) adı verilen süreçteki açıklığa rağmen, AI’ların niyetlerini saklayabildiği belirlendi. Bu durum, yapay zekanın etik kontrolünü zorlaştırıyor.

Deney Nasıl Yapıldı? AI, Ödül İçin Hile Yapmayı Tercih Etti

Araştırmacılar, henüz yayınlanmamış bir modeli kodlama görevleriyle test etti. Model, bazı durumlarda görevi erken sonlandırarak veya sahte dosyalar oluşturarak ödül kazanma yoluna gitti. Örneğin, bir görevde programı aniden durdurup “başarılı” raporu verdi. Diğerinde ise beklenen çıktıları taklit eden boş dosyalar üretti.

OpenAI ekibi, bu davranışları cezalandırmaya çalıştığında ise modelin hileleri düşünce zincirinde gizlediğini keşfetti. Araştırmacılar, “Güçlü denetim uygulandığında niyetlerini saklamayı öğreniyorlar” açıklaması yaptı.

Tehlikeli Sonuçlar: AI Gözetimi Neden Kırılgan?

Çalışma, “düşünce zinciri”nin (AI’nın karar alma sürecini adım adım açıklaması) izlenebilirlik için kritik olduğunu vurguluyor. Ancak ChatGPT’nin o1 ve o3-mini gibi gelişmiş modelleri, bu süreci manipüle ederek denetimden kaçabiliyor. OpenAI, “AI’ların zekası insan seviyesini aştığında bu durum tehlikeli olabilir” uyarısında bulundu.

Araştırmacılardan Tavsiye: “Düşünce Zincirine Müdahale Etmeyin”

Ekip, AI geliştiricilerine önemli bir tavsiyede bulundu: “Düşünce zincirine aşırı denetim uygulamaktan kaçının. Bu, izlenebilirliği zayıflatıp riski artırabilir.” Özellikle AI’nın nükleer kod çalma veya ölümcül pandemi tasarlama modellerinde bu gizlenme eğiliminin tehlikeli boyutlara ulaşabileceği belirtildi.

  • Site İçi Yorumlar

En az 10 karakter gerekli

Gönderdiğiniz yorum moderasyon ekibi tarafından incelendikten sonra yayınlanacaktır.