OpenAI, web tarama GPTBot'u başlatarak web sitesi sahipleri ve yaratıcıları tarafından engelleme çabalarını ateşledi

VB Transform 2023 oturumlarını görüntülemek için isteğe bağlı kitaplığımıza gidin. Buradan Kaydolun

Hayranlık duymadan veya resmi bir duyuru yapmadan, ChatGPT oluşturucu OpenAI için bu hafta yeni bir web sitesi tarama botu başlattı. eğitmek için web sitesi içeriğini tarama geniş dil modelleri (LLM’ler). Ama sonra bot haberi bozulduweb sitesi sahipleri ve yaratıcıları, GPTBot’un sitelerinin verilerini çalmasını nasıl önleyeceklerine dair ipuçlarını hızla değiş tokuş ederken bir isyan çıktı.

OpenAI eklendiğinde GPTBot destek sayfası, ayrıca hizmetin web sitenizi kazımasını engellemenin bir yolunu da tanıttı. Bir web sitesinde küçük bir değişiklik robots.txt dosyası içeriğin OpenAI ile paylaşılmasını durdurabilir, ancak aksi takdirde web’in ne kadar kapsamlı bir şekilde kazındığından dolayı, yalnızca GPTBot’u engellemenin içeriğin LLM eğitim verilerine dahil edilmesini tamamen durdurup durdurmayacağı açık değildir.

Bir OpenAI sözcüsü bir e-postada, “Gelecekteki modellerin yeteneklerini, doğruluğunu ve güvenliğini iyileştirmek için kullanılabilecek internetten düzenli olarak halka açık veriler topluyoruz” dedi. “Web sitemizde, toplama botumuzun bir siteye erişmesine nasıl izin vermeyeceğimiz konusunda talimatlar sağlıyoruz. Web sayfaları, ödeme duvarları olan, kişisel olarak tanımlanabilir bilgileri (PII) topladığı bilinen veya politikalarımızı ihlal eden metinleri kaldıracak şekilde filtrelenir.”

Web siteleri savunmalarını yükseltiyor

gibi internet satış noktaları Sınır OpenAI modelinin LLM’lerine eklemek üzere içerik kapmasını durdurmak için robots.txt işaretini zaten ekledik. Casey Newton sordu alt yığın haber bülteninin okuyucuları, platform oyunu, OpenAI’nin içeriğini toplamasını durdurması gerekiyorsa. Bilimkurgu dergisi Clarkesworld’ün editörü Neil Clarke, X tarihinde ilan edildi (eski adıyla Twitter) GPTBot’u engelleyeceğini söyledi.

Etkinlik

VB Transform 2023 İsteğe Bağlı

VB Transform 2023’ten bir oturumu kaçırdınız mı? Öne çıkan tüm oturumlarımız için isteğe bağlı kitaplığa erişmek için kaydolun.

Şimdi üye Ol

GPTBot’un piyasaya sürülmesinden kısa bir süre sonra OpenAI, New York Üniversitesi ile 395.000 $’lık bir hibe ve ortaklık duyurdu. Arthur L. Carter Gazetecilik Enstitüsü. Eski Reuters baş editörü Stephen Adler liderliğindeki NYU’nun Etik ve Gazetecilik Girişimi, öğrencilerin haber işinde yapay zekadan yararlanmanın sorumlu yollarını geliştirmelerine yardımcı olmayı amaçlıyor.

“Yeni Etik ve Gazetecilik Girişimi’nin potansiyeli konusunda heyecanlıyız ve gazetecilerin mesleklerini etik ve sorumlu bir şekilde icra etmeye çalışırken karşılaştıkları çok çeşitli zorlukları, özellikle de yapay zekanın uygulanmasıyla ilgili olanları ele alma hedefini desteklemekten çok memnunuz.” OpenAI fikri mülkiyet ve içerik şefi Tom Rubin, Salı günü bir yayın.

Rubin, sürümde halka açık web scraping’den ve onu çevreleyen tartışmalardan bahsetmedi.

‘Bilinen’ şey gerçekten unutulamaz

Açık ağda içeriği kimin kullanacağı konusunda biraz daha fazla kontrol kullanışlı olsa da, GPTBot’u engellemenin LLM’lerin bir ödeme duvarının arkasında kilitli olmayan içeriği yemesini engellemede ne kadar etkili olacağı hala net değil. LLM’ler ve diğer üretici yapay zeka platformları, hâlihazırda dağıttıkları veri kümelerini eğitmek için çok büyük kamu verisi koleksiyonlarını kullandı.

Mükemmel!
Büyük LLM’lerin ve Görüntü Oluşturucuların çoğu, kazınmış malzemelerinin çoğunu CommonCrawl’dan alır. ChatGPT, Meta LLM’ler ve Stable Difusion, Common Crawl’ı kullandı.
Her ay kazıyorlar ve “sonsuza kadar” kaydediyorlar, ancak onları engelleyebilirsiniz:https://t.co/NIByP2Jiju
— Benjamin BLM (@stealcase) 7 Ağustos 2023

Google’ın Colossal Clean Crawled Corpus (C4) veri seti ve kâr amacı gütmeyen kuruluş Ortak Tarama iyi bilinirler eğitim verisi koleksiyonları ve verileriniz veya içeriğiniz bu kazıma çabalarında ele geçirildiyse, uzmanlar bunun muhtemelen OpenAI’nin ChatGPT, Google’ın Bard veya Meta’nın LLaMA platformlarını etkinleştirmek için kullanılan eğitim bilgilerinin kalıcı bir parçası olduğunu söylüyor. CommonCrawl gibi hizmetler benzer robots.txt bloklarına izin verir, ancak web sitesi sahiplerinin herhangi bir veri toplanmadan önce bu değişiklikleri uygulaması gerekirdi.

C4 eğitim verilerinde bulunan ve Common Crawl veri kümelerinde de bulunan bilgileriyle VentureBeat bir istisna değildi.

Web kazıma adaletiyle ilgili sorular mahkemelerde kalıyor

Geçen yıl, ABD Dokuzuncu Temyiz Dairesi, web’in herkesin erişebileceği verileri kazıdığı fikrini yeniden ileri sürdü. yasal bir faaliyettir Bilgisayar Dolandırıcılığı ve Kötüye Kullanım Yasası’na (CFAA) aykırı olmayan.

Buna rağmen, AI eğitimi adına veri kazıma uygulamaları geçen yıl birkaç cephede saldırıya uğradı. Temmuz ayında, OpenAI iki ile vuruldu davalar. San Francisco’daki federal mahkemede açılan bir dava, OpenAI’nin telif hakkı sahiplerinden izin almayarak veya onlara kredi ve tazminat teklif ederek kitap metnini yasa dışı bir şekilde kopyaladığını iddia ediyor. Diğer iddialar, ChatGPT ve DALL·E’nin gizlilik yasalarını ihlal ederek İnternet üzerinden insanların kişisel verilerini topladığını iddia ediyor.

Diğer davalar tarafından dosyalanmış Sarah Silverman ve romancılar Christopher Golden ve Richard Kadrey, şirketlerin büyük dil modellerini (LLM) yazarların yayınlanmış eserleri üzerinde izinsiz olarak eğittiklerini iddia ediyorlar.X ve Reddit de veri kazıma hakkında haberler yaptılar ve her ikisi de kendi veri kümelerini erişimi sınırlandırmak onlara. AI veri kazımanın etkilerini azaltmak amacıyla, X geçici olarak engellendi sosyal medya platformunda tweetleri görüntülemekten giriş yapmamış kişiler ve ayrıca kaç tweet’in görüntülenebileceği konusunda hız limitleri belirleyen kişiler. Reddit, bunu savuşturmak amacıyla API erişimi için daha yüksek fiyatlar talep etmeye başladığında çapraz ateşe yakalanan moderatörlerine ve üçüncü taraf uygulama geliştiricilerine karşı bir halkla ilişkiler kampanyası yürüttü. ağ kazıma içeriğinden.

VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji ve işlemler hakkında bilgi edinmeleri için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.

kim kimdir ne zaman nasıl nelerdir nedir ne işe yarar tüm bilgiler
dünyadan ilginç ve değişik haberler en garip haberler burada

bunlara da bakın