Yapay zeka dil modellerinde öğrenilecek insan tarafından yazılan metinler tükeniyor

Şaibe · 8 Haz 2024

Epoch AI araştırma grubu tarafından yayınlanan yeni bir çalışma, teknoloji şirketlerinin AI dil modelleri için kamuya açık eğitim verilerinin 2026 ile 2032 yılları arasında tükeneceğini öngörüyor.
Herkese açık veriler sonunda tükendiğinde, geliştiricilerin dil modellerini neyle besleyeceğine karar vermesi gerekecek. Fikirler, e-postalar veya kısa mesajlar gibi artık özel kabul edilen verileri ve diğer yapay zeka modelleri tarafından oluşturulan “sentetik verileri” içeriyor.
Giderek daha büyük modelleri eğitmenin yanı sıra izlenecek başka bir yol da belirli görevlere yönelik daha yetenekli eğitim modelleri oluşturmaktır.

ChatGPT gibi yapay zeka sistemleri, kendilerini daha akıllı kılan şeyin (insanların çevrimiçi olarak yazdığı ve paylaştığı on trilyonlarca kelimeden) yakında tükenebilir.

Epoch AI araştırma grubu tarafından perşembe günü yayınlanan yeni bir çalışma, teknoloji şirketlerinin AI dil modelleri için kamuya açık eğitim verilerinin yaklaşık on yılın başında, yani 2026 ile 2032 arasında tükeneceğini öngörüyor.

Araştırmanın yazarı Tamay Beşiroğlu, bunu, sınırlı doğal kaynakları tüketen “gerçek anlamda altına hücum” ile karşılaştırarak, yapay zeka alanının, insan yapımı yazı rezervlerini tükettiğinde mevcut ilerleme hızını korumada zorluklarla karşılaşabileceğini söyledi.

YELLEN, FİNANS ALANINDA YZ'NİN “ÖNEMLİ RİSKLERİ” KONUSUNDA UYARIDA BULUNACAK, “MUHTEŞEM FIRSATLARI” KABUL EDECEK

Kısa vadede, ChatGPT yapımcısı OpenAI ve Google gibi teknoloji şirketleri, yapay zeka büyük dil modellerini eğitmek için yüksek kaliteli veri kaynaklarını güvence altına almak ve bazen de bu kaynaklara para ödemek için yarışıyor; örneğin, gelen cümle akışından faydalanmak için anlaşmalar imzalayarak. Reddit forumlarından ve haber medyası kuruluşlarından.

Uzun vadede, yapay zeka gelişiminin mevcut yörüngesini sürdürmek için yeterli sayıda yeni blog, haber makalesi ve sosyal medya yorumu olmayacak, bu da şirketler üzerinde artık özel olarak kabul edilen e-postalar veya kısa mesajlar gibi hassas verilerden yararlanma konusunda baskı oluşturacak veya sohbet robotlarının kendileri tarafından ortaya atılan daha az güvenilir “sentetik verilere” dayanıyor.

Beşiroğlu, “Burada ciddi bir darboğaz var” dedi. “Ne kadar veriye sahip olduğunuzla ilgili kısıtlamalara uymaya başlarsanız, modellerinizi artık verimli bir şekilde ölçeklendiremezsiniz. Modellerin ölçeğini büyütmek muhtemelen yeteneklerini genişletmenin ve çıktılarının kalitesini artırmanın en önemli yolu olmuştur. “

ChatGPT gibi yapay zeka sistemleri, daha akıllı olabilmek için ihtiyaç duydukları insan yazılarının giderek daha büyük koleksiyonlarını tüketiyor. (AP Dijital Yerleştirme)

Araştırmacılar tahminlerini ilk olarak iki yıl önce, ChatGPT'nin piyasaya sürülmesinden kısa bir süre önce, 2026'da yüksek kaliteli metin verilerinin daha yakın bir şekilde kesileceğini öngören bir çalışma makalesinde yaptılar. O zamandan bu yana çok şey değişti; yapay zeka araştırmacılarının halihazırda sahip oldukları verileri daha iyi kullanmalarına ve bazen aynı kaynaklar üzerinde birden çok kez “aşırı eğitim” almalarına olanak tanıyan yeni teknikler de dahil.

Ancak bunun da sınırları var ve daha fazla araştırma sonrasında Epoch, önümüzdeki iki ila sekiz yıl içinde herkese açık metin verilerinin tükeneceğini öngörüyor.

Ekibin son çalışması hakemli değerlendirmeden geçti ve bu yaz Avusturya'nın Viyana kentinde düzenlenecek Uluslararası Makine Öğrenimi Konferansı'nda sunulacak. Epoch, San Francisco merkezli Rethink Priorities'in ev sahipliği yaptığı ve AI'nın en kötü durum risklerini azaltmak için para akıtan bir hayırseverlik hareketi olan etkili fedakarlığın savunucuları tarafından finanse edilen, kar amacı gütmeyen bir enstitüdür.

Beşiroğlu, yapay zeka araştırmacılarının on yıldan fazla bir süre önce iki temel bileşenin (bilgi işlem gücü ve geniş internet verisi depoları) agresif bir şekilde genişletilmesinin yapay zeka sistemlerinin performansını önemli ölçüde artırabileceğini fark ettiğini söyledi.

Epoch araştırmasına göre yapay zeka dil modellerine beslenen metin verilerinin miktarı yılda yaklaşık 2,5 kat artarken bilgisayar kullanımı yılda yaklaşık 4 kat arttı. Facebook'un ana şirketi Meta Platforms yakın zamanda, henüz piyasaya sürülmemiş olan yaklaşan Llama 3 modelinin en büyük versiyonunun, her biri bir kelimenin bir parçasını temsil edebilen 15 trilyona kadar jeton üzerinde eğitildiğini iddia etti.

Ancak veri darboğazı konusunda endişelenmeye ne kadar değer olduğu tartışmalıdır.

Toronto Üniversitesi'nde bilgisayar mühendisliği yardımcı doçenti ve kar amacı gütmeyen Yapay Zeka Vektör Enstitüsü'nde araştırmacı olan Nicolas Papernot, “Daha büyük ve daha büyük modeller yetiştirmemiz gerekmediğini akılda tutmanın önemli olduğunu düşünüyorum” dedi.

Epoch araştırmasında yer almayan Papernot, daha yetenekli yapay zeka sistemleri oluşturmanın, belirli görevler için daha uzmanlaşmış eğitim modellerinden de gelebileceğini söyledi. Ancak üretken yapay zeka sistemlerini ürettikleri çıktılarla aynı şekilde eğitme konusunda endişeleri var ve bu da “model çöküşü” olarak bilinen performansın düşmesine neden oluyor.

GOOGLE'IN YAKINDAN TAKİP EDİLMESİ GEREKEN AZ ÖNCE DUYURDUĞU 7 ŞEY

Papernot, yapay zeka tarafından üretilen verilerle ilgili eğitimin “bir kağıt parçasının fotokopisini çektiğinizde ve ardından fotokopiyi çektiğinizde olana benzer. Bilgilerin bir kısmını kaybedersiniz” dedi. Sadece bu da değil, Papernot'un araştırması aynı zamanda bilgi ekosisteminde halihazırda yer alan hataları, önyargıları ve adaletsizlikleri daha da kodlayabildiğini de buldu.

Eğer gerçek insan yapımı cümleler kritik bir yapay zeka veri kaynağı olmaya devam ederse, en çok aranan hazinelerin (Reddit ve Wikipedia gibi web sitelerinin yanı sıra haber ve kitap yayıncıları) hizmetkarları, nasıl oldukları hakkında çok düşünmek zorunda kalacaklar. Kullanılan.

Vikipedi'yi yöneten Wikimedia Vakfı'nın ürün ve teknoloji sorumlusu Selena Deckelmann, “Belki de her dağın zirvesini budamıyorsunuzdur” diye şaka yapıyor. “Şu anda insan yapımı veriler hakkında doğal kaynaklarla ilgili konuşmalar yapıyor olmamız ilginç bir sorun. Buna gülmemem gerekiyor ama bunu gerçekten de şaşırtıcı buluyorum.”

Bazıları verilerini yapay zeka eğitiminden kapatmaya çalışsa da (çoğu zaman tazminatsız olarak alındıktan sonra), Vikipedi yapay zeka şirketlerinin gönüllüler tarafından yazılan girdileri kullanma şekline birkaç kısıtlama getirdi. Yine de Deckelmann, özellikle ucuz ve otomatik olarak üretilen “çöp içerik” seli interneti kirletmeye başladığında, insanların katkıda bulunmaya devam etmeleri için teşviklerin olmaya devam edeceğini umduğunu söyledi.

Yapay zeka şirketlerinin “insan tarafından üretilen içeriğin nasıl var olmaya devam ettiği ve erişilebilir olmaya devam ettiği konusunda endişelenmesi” gerektiğini söyledi.

Epoch'un çalışması, yapay zeka geliştiricileri açısından bakıldığında, yapay zeka modellerinin ihtiyaç duyacağı metni oluşturmak için milyonlarca insana ödeme yapmanın, daha iyi teknik performans sağlamak için “ekonomik bir yol olma ihtimalinin düşük olduğunu” söylüyor.

FOX HABER UYGULAMASINA ULAŞMAK İÇİN TIKLAYIN

OpenAI, GPT büyük dil modellerinin yeni neslini eğitmek için çalışmaya başlarken, CEO Sam Altman geçen ay Birleşmiş Milletler etkinliğinde izleyicilere şirketin eğitim için “çok sayıda sentetik veri üretme” konusunda deneyler yaptığını söyledi.

Altman, “İhtiyacınız olan şeyin yüksek kaliteli veri olduğunu düşünüyorum. Düşük kaliteli sentetik veriler var. Düşük kaliteli insan verileri var” dedi. Ancak yapay zeka modellerini geliştirmek için diğer teknik yöntemler yerine sentetik verilere çok fazla güvenme konusundaki çekincelerini de dile getirdi.

Altman, “Bir modeli eğitmenin en iyi yolu, katrilyonlarca jetonluk sentetik veri üretmek ve bunu geri beslemek olsaydı, çok tuhaf bir şey olurdu” dedi. “Bir şekilde bu verimsiz görünüyor.”

Yapay zeka dil modellerinde öğrenilecek insan tarafından yazılan metinler tükeniyor

Şaibe

Member