Ücretli içerikler tanınıyor
Araştırmada, GPT-4o modelinin ücretli O’Reilly kitap içeriklerini %82 doğrulukla tanıdığı tespit edildi. Buna karşılık, OpenAI’nin eski modeli GPT-3.5 Turbo’da bu oran %50 civarında kaldı. GPT-4o’nun halka açık olmayan içerikleri, halka açık olanlara göre daha iyi tanıdığı da çalışmanın dikkat çeken bulguları arasında.
LibGen veritabanı bağlantısı
Araştırmacılar, test edilen tüm O’Reilly kitaplarının LibGen veritabanında bulunması nedeniyle, veri erişim ihlallerinin buradan kaynaklanmış olabileceğini belirtiyor. Çalışma, OpenAI’nin telif hakkı korunan verileri izinsiz kullanmasının daha geniş bir sistemik sorunun parçası olabileceğine işaret ediyor.
İçerik üreticileri için risk
Rapor, profesyonel içerik üreticilerinin gelir kaynaklarının azalmasıyla internetin içerik kalitesi ve çeşitliliğinin düşebileceği uyarısında bulunuyor. AI Disclosures Project, yapay zeka şirketlerinin model eğitim süreçlerinde daha fazla şeffaflık sağlaması gerektiğini vurguluyor.
Yasal düzenlemeler gündemde
Yasal düzenlemeler gündemde
AB Yapay Zeka Yasası’nın açıklama gerekliliklerinin, uygun şekilde belirlenip uygulanması halinde olumlu bir etki yaratabileceği ifade ediliyor. Raporda, içerik sahiplerinin çalışmalarının ne zaman model eğitiminde kullanıldığını bilmelerinin önemine dikkat çekiliyor.
Lisans anlaşmaları artıyor
Yapay zeka şirketlerinin veri lisans anlaşmaları yapmaya başladığı belirtilen raporda, Defined.ai gibi şirketlerin eğitim verisi satın alırken içerik sahiplerinden izin aldığı ve kişisel bilgileri çıkardığı örnek gösteriliyor.
Araştırma, 34 adet O’Reilly Media kitabı kullanılarak elde edilen bulguların, OpenAI’nin GPT-4o’yu halka açık olmayan telifli verilerle eğitmiş olma ihtimalini desteklediği sonucuna varıyor.