Üretken yapay zeka veri kümeleri bir hesaplaşmayla karşı karşıya kalabilir

VB Transform 2023 oturumlarını görüntülemek için isteğe bağlı kitaplığımıza gidin. Buradan Kaydolun

Hafta sonu, bomba gibi bir hikaye Atlantik Okyanusu Stephen King, Zadie Smith ve Michael Pollan’ın telif hakkıyla korunan çalışmaları Meta’nın üretici yapay zeka modelini eğitmek için kullanılan binlerce yazar arasında yer aldığını tespit etti. LLaMA, diğer büyük dil modellerinin yanı sıra “Books3” adlı bir veri kümesini kullanarak. Rapora göre AI’nın geleceği “çalıntı kelimelerle yazılmış”.

Gerçek şu ki, eserlerin “çalınmış” olup olmadığı konusu, en azından telif hakkı yasasının dağınık dünyası söz konusu olduğunda, çözümlenmiş olmaktan çok uzak. Ancak üretken yapay zekayı eğitmek için kullanılan veri kümeleri, yalnızca Amerikan mahkemelerinde değil, kamuoyu mahkemesinde de bir hesaplaşmayla karşı karşıya kalabilir.

Telif hakkıyla korunan materyaller içeren veri kümeleri: açık bir sır

LLM’lerin “eğitim” amacıyla büyük miktarlarda telif hakkıyla korunan materyalin alınmasına güvendiği açık bir sırdır. Taraftarlar ve bazı hukuk uzmanları, bunun “adil kullanım” verilerinin — genellikle işaret etmek 2015’te, Google’ın çevrimiçi “snippet’ler” görüntüleyen kütüphane kitaplarını taramasının telif hakkını ihlal etmediğine dair federal karar – ancak diğerleri eşit derecede ikna edici görüyor karşı argüman.

Yine de, yakın zamana kadar, AI topluluğunun dışından çok az kişi, LLM’lerin çok büyük miktarda veriyi işlemesini ve metin veya görüntü çıktısı oluşturmasını sağlayan yüzlerce veri setinin nasıl olduğunu derinden düşündü. ImageNet’in 2009’da piyasaya sürülmesi Princeton Üniversitesi’nde yardımcı doçent olan Fei-Fei Li tarafından yazılan – yaratıcı çalışmaları veri kümelerine dahil edilenlerin çoğunu etkileyecektir. Yani, ChatGPT’ye kadar başlatıldı Kasım 2022’de, yalnızca birkaç kısa ay içinde üretken yapay zekayı kültürel zamanın ruhuna fırlattı.

Etkinlik

VB Transform 2023 İsteğe Bağlı

VB Transform 2023’ten bir oturumu kaçırdınız mı? Öne çıkan tüm oturumlarımız için isteğe bağlı kitaplığa erişmek için kaydolun.

Şimdi üye Ol

AI tarafından üretilen kedi çantadan çıktı

ChatGPT ortaya çıktıktan sonra, LLM’ler artık sadece bilimsel araştırma deneyleri olarak değil, büyük yatırım ve kar potansiyeline sahip ticari işletmeler olarak ilgi çekiciydi. Çevrimiçi içeriğin yaratıcıları – sanatçılar, yazarlar, blog yazarları, gazeteciler, Reddit posterleri, sosyal medyada paylaşım yapan insanlar – artık uyanmak çalışmalarının, sonunda onları işsiz bırakabilecek yapay zeka modellerini eğiten devasa veri kümelerine zaten süpürülmüş olduğu gerçeğine. Yapay zeka tarafından üretilen kedinin çantadan çıktığı ortaya çıktı – ve davalar Ve Hollywood grevleri Takip ettin.

Aynı zamanda, OpenAI, Anthropic, Cohere ve hatta Meta gibi LLM şirketleri – geleneksel olarak Büyük Teknoloji şirketleri arasında en açık kaynak odaklı olan, ancak serbest bırakmayı reddetti LLaMA 2’nin nasıl eğitildiğine dair ayrıntılar — daha az şeffaf hale geldi ve daha gizli modellerini eğitmek için hangi veri kümelerinin kullanıldığı hakkında.

“Meta ve OpenAI gibi şirketler dışında çok az kişi bu programların üzerinde eğitildiği metinlerin tüm kapsamını biliyor” diyor. bu Atlantik. “Bazı eğitim metni Wikipedia’dan ve diğer çevrimiçi yazılardan geliyor, ancak yüksek kaliteli üretken yapay zeka, genellikle internette bulunandan daha yüksek kaliteli girdi gerektirir – yani, kitaplarda bulunan türden gerektirir. İçinde dava Yazarlar Sarah Silverman, Richard Kadrey ve Christopher Golden geçen ay Kaliforniya’da dosyalandı. Meta olduğunu iddia etmek LLaMA’yı eğitmek için kitaplarını kullanarak telif hakkı yasalarını ihlal ettiler.

bu Atlantik Bloomberg’in yanı sıra LLaMA’yı eğitmek için kullanılan Books3’ü aldı ve analiz etti. BloombergGPT, EleutherAI’nin GPT-J’si – popüler bir açık kaynak modeli – ve muhtemelen diğer üretken yapay zeka programları artık internetteki web sitelerine gömülü. Makalenin yazarı, kullanılan 170.000’den fazla kitap belirledi – beşi Jennifer Egan, yedisi Jonathan Franzen, dokuzu Bell Hooks, beşi David Grann ve 33’ü Margaret Atwood tarafından.

bir e-postada bu AtlantikStella Biderman Eleuther AI, şunları yazdı: “Yaratıcılarla ve hak sahipleriyle, onların bakış açılarını ve ihtiyaçlarını anlamak ve desteklemek için yakın bir şekilde çalışıyoruz. Şu anda, yalnızca söz konusu kullanım için lisanslanan belgeleri içeren bir Yığın sürümünü oluşturma sürecindeyiz.”

Veri toplamanın uzun bir geçmişi vardır

Veri toplama, çoğunlukla pazarlama ve reklamcılık için uzun bir geçmişe sahiptir. 20. yüzyılın ortalarında posta listesi komisyoncularının “böbürlenmek potansiyel olarak ilgilenen tüketicilerin listelerini bir dizi mal ve hizmet için kiralayabileceklerini.

Geçtiğimiz çeyrek yüzyılda internetin gelişiyle pazarlamacılar, reklamları ve pazarlama iletişimlerini tüketicilere kişisel olarak hedeflemek için sosyal medya gönderilerinden web sitesi tanımlama bilgilerine ve GPS konumlarına kadar her şeyi analiz etmek için geniş veritabanları oluşturmaya yöneldi. “Kalite güvencesi için kaydedilen” telefon görüşmeleri, uzun süredir kullanılıyor duygu analizi için

Gizlilik, önyargı ve güvenlikle ilgili sorunlara yanıt olarak, AB’ninkiler de dahil olmak üzere veri toplamayı düzenlemeye yönelik onlarca yıllık davalar ve çabalar olmuştur. GDPR 2018’de yürürlüğe giren yasa. Bununla birlikte, tarihsel olarak işletmelerin ve kurumların belirli sektörler dışında açık rıza olmaksızın kişisel bilgileri toplamasına izin veren ABD, sorunu henüz bitirmedi.

Ancak artık sorun yalnızca mahremiyet, önyargı veya güvenlikle ilgili değil — üretken yapay zeka modelleri iş yerini ve genel olarak toplumu etkiliyor. Birçoğu, emek ve telif hakkıyla ilgili üretken yapay zeka sorunlarının, istihdamla ilgili önceki toplumsal değişikliklerin yalnızca bir tekrarı olduğuna ve tüketicilerin, Big Tech’in yıllardır verilerini toplama biçiminden çok da farklı olmayan şeyi kabul edeceğine şüphe yok. Ancak milyonlarca insan verilerinin çalındığına inanıyor ve muhtemelen sessiz kalmayacaklar.

Üretken AI veri kümeleri için bir hesaplaşma günü yaklaşıyor olabilir

Bu, elbette, nihayetinde mücadeleden vazgeçmek zorunda kalamayacakları anlamına gelmez. Ancak bu, Big Tech’in büyük kazanacağı anlamına da gelmez. Şimdiye kadar, konuştuğum hukuk uzmanlarının çoğu mahkemelerin karar vereceğini açıkça belirtti. Yargıtay’a kadar gidebilir – ve üretken yapay zekayı eğitmek için kullanılan veri kümeleri etrafındaki argümanın her iki tarafında da güçlü argümanlar var.

İşletmeler ve yapay zeka şirketleri, bence şeffaflığı en iyi seçenek olarak kabul etse iyi olur. Sonuçta, uzmanların yalnızca GPT-4 veya Claude veya Pi gibi güçlü, sofistike, devasa AI modellerinde ne olduğu konusunda spekülasyon yapması ne anlama geliyor?

LLM’leri eğitmek için kullanılan veri kümeleri artık yalnızca bir sonraki atılımı arayan araştırmacılara fayda sağlamamaktadır. Bazıları, üretici yapay zekanın dünyaya fayda sağlayacağını iddia etse de, artık telif hakkı ihlalinin çok yaygın olduğuna dair hiçbir şüphe yok. Ticari başarı arayan şirketler, modellerini besleyecek verilere her zamankinden daha fazla açken, alabildikleri tüm verileri toplama yönünde sürekli bir istek olabilir. Bunun sonu da kesin değil: Bir hesap günü yaklaşıyor olabilir.

VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji ve işlemler hakkında bilgi edinmeleri için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.

kim kimdir ne zaman nasıl nelerdir nedir ne işe yarar tüm bilgiler
dünyadan ilginç ve değişik haberler en garip haberler burada

bunlara da bakın