Kendini Yok eden Dönüşüm: Yapay Zekanın Kendi Ürettiği Verilerle Eğitilmesi

Bu yazıyı paylaş

Kendini Yok eden Dönüşüm: Yapay Zekanın Kendi Ürettiği Verilerle Eğitilmesi konu resmi

25 Ağustos 2024 tarihli The New York Times'da Aatish Bhatia tarafından yazılan "When A.I.'s Output Is a Threat to A.I. Itself" başlıklı makale, yapay zekanın (AI) ürettiği içeriğin internette giderek yaygınlaşması ve bunun gelecekteki AI sistemleri için potansiyel tehlikelerini inceliyor. Bana çok ilginç geldiği için geniş bir özetini yaptım bu yazının.

AI Tarafından Üretilen İçeriğin Yaygınlaşması

Günümüzde internet, AI tarafından üretilen metinler ve görsellerle dolup taşıyor. OpenAI CEO'su Sam Altman'ın Şubat ayındaki açıklamasına göre, şirketleri günde yaklaşık 100 milyar kelime üretiyor; bu da her gün bir milyon roman değerinde metin anlamına geliyor ve bunun bilinmeyen bir kısmı internette yerini buluyor.

bu yazıyı video olarak da izleyebilirsiniz

AI tarafından üretilen bu içerikler, restoran yorumlarından sosyal medya gönderilerine, hatta haber makalelerine kadar geniş bir yelpazede karşımıza çıkabiliyor.

News Guard'ın araştırmasına göre, hata eğilimli AI haberleri üreten binlerce web sitesi tespit edilmiş durumda.

AI İçeriğinin Gelecekteki AI Sistemleri Üzerindeki Etkisi

Tüm bu AI üretimi bilgiler, gerçek olanı ayırt etmemizi zorlaştırırken, AI şirketleri için de bir sorun teşkil ediyor.

Yeni modellerini eğitmek için webi tararken, kendi ürettikleri AI içeriğini de istemeden emebilirler.

Bu durum, bir AI'nın çıktısının başka bir AI için girdi haline geldiği bir geri bildirim döngüsü yaratır. Araştırmalar, üretken AI'nın kendi çıktısı üzerinde çok fazla eğitildiğinde, performansının önemli ölçüde düşebileceğini gösteriyor.

Model Çöküşü

AI'nın kendi çıktısı üzerinde tekrar tekrar eğitilmesi, zamanla daha dar bir çıktı yelpazesine yol açar; araştırmacılar buna "model çöküşü" adını veriyor.

Bu durum, AI çıktısının kalitesinin düşmesine (bulanıklaşma) ve çeşitliliğinin azalmasına (benzerleşme) neden olur.

Örneğin, bir tıbbi tavsiye chatbot'u, önceki chatbot'lar tarafından üretilen daha dar bir tıbbi bilgi yelpazesi üzerinde eğitildiği için, semptomlarınıza uyan daha az hastalık listeleyebilir.

Metin ve Görsel Üzerindeki Etkileri

Bu sorun yalnızca metinle sınırlı değil. Rice Üniversitesi'ndeki araştırmacılar, AI görüntü üreteçlerinin kendi çıktıları üzerinde tekrar tekrar eğitilmesi durumunda ne olacağını inceledi.

Sonuç olarak, AI çıktısında hatalar ve bozulmalar birikmeye başladı ve sonunda buruşuk desenler ve deforme olmuş parmaklar gibi sorunlu görüntüler ortaya çıktı.

Yukarıdaki şeklin ilk sırasında el ile yazılmış orijinal rakamlar her YP çıktısında değişmeye başlıyor, bu sadece fiziksel resimlerde değil kelimeler de ve yazılarda da oluyor.

Çöküşün Nedenleri

Tüm bu sorunlar, AI tarafından üretilen verilerin genellikle gerçek verilerin zayıf birer taklidi olmasından kaynaklanıyor.

Üretken AI büyük miktarda veri üzerinde "eğitildiğinde", aslında bir sonraki kelimeyi veya pikselleri tahmin eden bir istatistiksel dağılım oluşturuyor.

AI tarafından üretilen veriler eğitildiğinde, çıktı olasılıklarının dağılımı daha daralır ve nadir veriler daha da nadir hale gelir.

Önemli Sonuçlar

Bu durum, üretken AI'nın yakın zamanda duracağı anlamına gelmiyor, ancak işleri yavaşlatabilir. Mevcut veri kaynakları tükendikçe veya AI tarafından üretilen içerikle kirlendikçe, yeni şirketlerin rekabet etmesi zorlaşabilir.

Büyük şirketler de etkilenecektir. New York Üniversitesi'ndeki bilgisayar bilimcileri, eğitim verilerinde çok fazla AI üretimi içerik olduğunda, AI'yı eğitmenin daha fazla bilgi işlem gücü gerektirdiğini, dolayısıyla daha fazla enerji ve para anlamına geldiğini buldu.

Çözüm Yolları

Bu araştırmanın en büyük çıkarımlarından biri, yüksek kaliteli ve çeşitli verilerin değerli olduğu ve bilgisayarlar tarafından taklit edilmesinin zor olduğudur.

Bir çözüm, AI şirketlerinin bu veriler için ödeme yaparak hem insan kaynaklı hem de yüksek kaliteli olmasını sağlamaktır.

AI çıktısını tespit etmenin daha iyi yolları da bu sorunları hafifletmeye yardımcı olabilir. Google ve OpenAI, AI tarafından üretilen görüntüleri ve metinleri tanımlamak için kullanılabilecek gizli desenler ekleyen AI "filigranlama" araçları üzerinde çalışıyor.

Sonuç olarak, AI tarafından üretilen içeriğin artan yaygınlığı, gelecekteki AI sistemleri için potansiyel bir tehdit oluşturuyor.

Model çöküşü, çeşitliliğin azalması ve artan bilgi işlem maliyetleri gibi sorunlar, AI şirketlerinin ve araştırmacılarının ele alması gereken önemli zorluklar olarak öne çıkıyor.

Yüksek kaliteli verilere yatırım yapmak, AI çıktısını tespit etmek için daha iyi yöntemler geliştirmek ve sentetik verileri dikkatli bir şekilde kullanmak, bu sorunları hafifletmek ve AI'nın geleceğini güvence altına almak için atılabilecek adımlar arasında yer alıyor.