Hugging Face ve ServiceNow ücretsiz bir kod üreten model yayınlıyor









AI başlangıcı Hugging Face ve ServiceNow’un Ar-Ge bölümü ServiceNow Research, GitHub’ın çizgileri boyunca kod üreten AI sistemlerine ücretsiz bir alternatif olan StarCoder’ı piyasaya sürdü. yardımcı pilot.

DeepMind’in AlphaCode’u gibi kod üreten sistemler; Amazon’un CodeWhisperer’ı; ve OpenAI’nin Copilot’a güç veren Codex’i, bilgisayar programlama alanında yapay zeka ile nelerin mümkün olduğuna dair cezbedici bir bakış sunuyor. Etik, teknik ve yasal sorunların bir gün çözüleceğini varsayarsak (ve yapay zeka destekli kodlama araçları çözdüklerinden daha fazla hataya ve güvenlik açıklarına neden olur), kodlayıcıların daha yaratıcı görevlere odaklanmasına izin verirken geliştirme maliyetlerini önemli ölçüde azaltabilirler.

göre bir çalışmak Cambridge Üniversitesi’nden geliştiricilerin çabalarının en az yarısı hata ayıklamaya harcanıyor ve aktif olarak programlamaya harcanmıyor, bu da yazılım endüstrisine yılda tahmini 312 milyar dolara mal oluyor. Ama şimdiye kadar sadece bir avuç kod üreten yapay zeka sistemleri, bunları oluşturan kuruluşların ticari teşviklerini yansıtacak şekilde halka ücretsiz olarak sunuldu (bkz: tekrarla).

Şirketler de dahil olmak üzere herkesin telifsiz kullanımına izin verecek şekilde lisanslanmış olan StarCoder, 80’den fazla programlama dilinin yanı sıra dokümantasyon ve programlama defterleri. StarCoder, Microsoft’un Visual Studio Code kod düzenleyicisi ve OpenAI’ler gibi entegre olur ChatGPTtemel talimatları (ör. “uygulama kullanıcı arayüzü oluşturma”) izleyebilir ve kodla ilgili soruları yanıtlayabilir.

Hugging Face’te makine öğrenimi mühendisi ve StarCoder’da eş lider olan Leandro von Werra, StarCoder’ın OpenAI’nin Copilot’un ilk sürümlerine güç sağlamak için kullanılan yapay zeka modeliyle eşleştiğini veya ondan daha iyi performans gösterdiğini iddia ediyor.

TechCrunch’a bir e-posta röportajında ​​von Werra, “Geçen yıl Stable Diffusion gibi sürümlerden öğrendiğimiz bir şey, açık kaynak topluluğunun yaratıcılığı ve yeteneğidir” dedi. “Yayınlanmasından sonraki haftalar içinde topluluk, özel uygulamaların yanı sıra modelin düzinelerce çeşidini oluşturdu. Güçlü bir kod oluşturma modelinin piyasaya sürülmesi, herkesin ince ayar yapmasına ve kendi kullanım durumlarına göre uyarlamasına olanak tanır ve sayısız alt akış uygulamasını etkinleştirir.”

model oluşturma

StarCoder, Hugging Face’in ve ServiceNow’un 600’den fazla kişinin bir parçasıdır Büyük Kod kod için “en son teknoloji” AI sistemlerini “açık ve sorumlu” bir şekilde geliştirmeyi amaçlayan, geçen yılın sonlarında başlatılan proje. ServiceNow, StarCoder modelini eğitmek için 512 Nvidia V100 GPU’dan oluşan şirket içi bir bilgi işlem kümesi sağladı.

Çeşitli BigCode çalışma grupları, veri kümeleri toplama, eğitim kodu modelleri için yöntemler uygulama, bir değerlendirme paketi geliştirme ve etik en iyi uygulamaları tartışma gibi alt konulara odaklanır. Örneğin, Hukuk, Etik ve Yönetişim çalışma grubu, veri lisanslama, üretilen kodun orijinal koda atfedilmesi, kişisel olarak tanımlanabilir bilgilerin (PII) düzenlenmesi ve kötü amaçlı kod çıktısının riskleri hakkındaki soruları araştırdı.

Hugging Face’den ilham aldı öncesi çabalar BigCode, açık kaynaklı gelişmiş metin oluşturma sistemlerine yönelik olarak, yapay zeka destekli kod oluşturma pratiği etrafında ortaya çıkan bazı tartışmaları ele almaya çalışıyor. Diğerleri arasında kar amacı gütmeyen Software Freedom Conservancy, eleştirildi GitHub ve OpenAI, Codex’i eğitmek ve para kazanmak için tamamı izin verilen bir lisans kapsamında olmayan genel kaynak kodunu kullanmak için. Codex, OpenAI ve Microsoft’un ücretli API’leri aracılığıyla edinilebilirken, GitHub yakın zamanda Copilot’a erişim için ücret almaya başladı.

GitHub ve OpenAI, Codex ve Copilot’un – doktrini tarafından korunduğunu iddia ediyor. adil kullanımen azından ABD’de – herhangi bir lisans sözleşmesiyle ters düşmeyin.

Von Werra, “Yetenekli bir kod oluşturma sistemi yayınlamak, konuyla ilgilenen ancak bu tür modelleri eğitmek için gerekli kaynaklara veya bilgi birikimine sahip olmayan kurumlar için bir araştırma platformu görevi görebilir” dedi. “Uzun vadede bunun, kod üreten sistemlerin güvenliği, yetenekleri ve sınırları hakkında verimli araştırmalara yol açacağına inanıyoruz.”

Copilot’tan farklı olarak, 15 milyar parametreli StarCoder, 19 milyondan fazla küratörlüğünde, izin verilen şekilde lisanslanmış depolara ve 350’den fazla programlama dilinde altı terabayttan fazla koda sahip The Stack adlı açık kaynaklı bir veri kümesi üzerinde birkaç gün boyunca eğitildi. Makine öğreniminde parametreler, geçmiş eğitim verilerinden öğrenilen bir AI sisteminin parçalarıdır ve temel olarak sistemin kod oluşturma gibi bir problem üzerindeki becerisini tanımlar.



rent a car 34

Yığın

The Stack veri kümesinin içeriğini parçalayan bir grafik. Görsel Kaynakları: Büyük Kod

Müsaadele lisanslandığı için The Stack kodu kopyalanabilir, değiştirilebilir ve yeniden dağıtılabilir. Ancak BigCode projesi aynı zamanda bir yol sağlar geliştiricilerin The Stack’i “devre dışı bırakması” için benzer başka yerlerdeki çabalar sanatçıların çalışmalarını metinden resme yapay zeka eğitim veri kümelerinden kaldırmasına izin vermek için.

BigCode ekibi adlar, kullanıcı adları, e-posta ve IP adresleri, anahtarlar ve parolalar gibi PII’leri The Stack’ten kaldırmak için de çalıştı. Araştırmacılara “geçitli erişim” yoluyla yayınlamayı planladıkları, PII içeren 12.000 dosyadan oluşan ayrı bir veri kümesi oluşturdular.

Bunun ötesinde, BigCode ekibi, bilinen açıklara sahip olanlar gibi “güvenli olmayan” olarak değerlendirilebilecek dosyaları The Stack’ten kaldırmak için Hugging Face’in kötü amaçlı kod algılama aracını kullandı.

Çoğunlukla web’den nispeten filtrelenmemiş veriler üzerinde eğitilen üretken AI sistemleriyle ilgili gizlilik ve güvenlik sorunları iyi bir şekilde oluşturulmuştur. Bir kez ChatGPT gönüllü bir gazetecinin telefon numarası Ve GitHub, Copilot’un yeni dizilerdeki eğitim verilerinde görülen anahtarlar, kimlik bilgileri ve parolalar üretebileceğini kabul etti.

Von Werra, “Kod, çoğu şirket için en hassas fikri mülkiyetlerden bazılarını teşkil ediyor” dedi. “Özellikle, bunu altyapılarının dışında paylaşmak çok büyük zorluklar doğuruyor.”

Bu noktaya kadar, bazı hukuk uzmanları, kod üreten yapay zeka sistemlerinin, araçlardaki telif hakkıyla korunan veya hassas metinleri farkında olmadan üretim yazılımlarına dahil etmeleri durumunda şirketleri riske atabileceğini savundu. Elaine Atwell olarak notlar Kolide’nin kurumsal blogundaki bir parçada, Copilot gibi sistemler lisanslarının kodunu kaldırdığından, hangi kodun konuşlandırılmasına izin verildiğini ve hangilerinin uyumsuz kullanım koşullarına sahip olabileceğini söylemek zordur.

Eleştirilere yanıt olarak GitHub, müşterilerin GitHub’dan gelen genel, potansiyel olarak telif hakkıyla korunan içerikle eşleşen önerilen kodun gösterilmesini engellemesine olanak tanıyan bir geçiş ekledi. Amazon, benzer şekilde CodeWhisperer’a sahiptir ve eğitim verilerinde bulunan snippet’lere benzerlik gösterdiğini öne sürdüğü işlevlerle ilişkili lisansı isteğe bağlı olarak filtreler.

Ticari sürücüler

Peki, çoğunlukla kurumsal otomasyon yazılımıyla ilgilenen bir şirket olan ServiceNow bundan ne kazanıyor? ServiceNow Research’teki Büyük Dil Modeli Laboratuvarı başkanı ve BigCode projesinin eş lideri Harm de Vries, “Ticari kullanıma izin veren güçlü performans gösteren bir model ve sorumlu bir yapay zeka modeli lisansı” dedi.

ServiceNow’un sonunda StarCoder’ı ticari ürünlerine dahil edeceği düşünülebilir. Şirket, bağışlanan bilgi işlem miktarının “önemli” olması dışında, BigCode projesine dolar cinsinden ne kadar yatırım yaptığını açıklamadı.

De Vries, “ServiceNow Research’teki Büyük Dil Modelleri Laboratuvarı, bu güçlü modellerin müşterilerimiz için güvenli ve etik bir şekilde devreye alınmasını sağlamak için üretici yapay zeka modellerinin sorumlu bir şekilde geliştirilmesi konusunda uzmanlık oluşturuyor” dedi. “BigCode’a yönelik açık bilimsel araştırma yaklaşımı, ServiceNow geliştiricilerine ve müşterilerine her şeyin nasıl geliştirildiği konusunda tam şeffaflık sağlıyor ve ServiceNow’un topluluğa sosyal açıdan sorumlu katkılarda bulunma taahhüdünü gösteriyor.”

StarCoder tam anlamıyla açık kaynak değildir. Bunun yerine, modelin türevlerinin ve modeli kullanan uygulamaların uyması gereken “yasal olarak uygulanabilir” kullanım durumu kısıtlamalarını içeren bir lisanslama planı olan OpenRAIL-M kapsamında piyasaya sürülüyor.

Örneğin, StarCoder kullanıcıları, kötü amaçlı kod oluşturmak veya dağıtmak için modelden yararlanmamayı kabul etmelidir. Gerçek dünyadan örnekler çok az ve seyrek olsa da (en azından şimdilik), araştırmacılar gösterdi StarCoder gibi yapay zekanın, temel tespit biçimlerinden kaçınmak için kötü amaçlı yazılımlarda nasıl kullanılabileceği.

Geliştiricilerin lisans koşullarına gerçekten saygı gösterip göstermediği henüz belli değil. Yasal tehditler bir yana, temel teknik düzeyde, kendi çıkarları için şartları göz ardı etmelerini engelleyecek hiçbir şey yoktur.

Ünlülerin resimlerini oluşturmak için üretken AI modelini kullanan geliştiriciler tarafından benzer şekilde kısıtlayıcı lisansı göz ardı edilen, yukarıda bahsedilen Stable Diffusion’da olan buydu. derin sahtekarlıklar.

Ancak bu olasılık, StarCoder’ı çıkarmamanın olumsuz yanlarının olumlu yanlarından daha ağır basmadığını hisseden von Werra’nın cesaretini kırmadı.

“Başlangıçta StarCoder, GitHub Copilot kadar çok özellik sunmayacak, ancak açık kaynak yapısıyla topluluk, özel modelleri entegre etmenin yanı sıra yol boyunca onu geliştirmeye yardımcı olabilir” dedi.

StarCoder kod depoları, model eğitim çerçevesi, veri kümesi filtreleme yöntemleri, kod değerlendirme paketi ve araştırma analiz defterleri bu hafta itibariyle GitHub’da kullanıma sunuldu. BigCode projesi, gruplar topluluktan gelen girdilerle desteklenen daha yetenekli kod üreten modeller geliştirmeye çalışırken, onların ilerlemesini sağlayacak.

Mutlaka yapılacak işler vardır. StarCoder’ın piyasaya sürülmesine eşlik eden teknik belgede Hugging Face ve ServiceNow, modelin yanlış, rahatsız edici ve yanıltıcı içeriğin yanı sıra PII ve veri kümesi filtreleme aşamasını geçmeyi başaran kötü amaçlı kod üretebileceğini söylüyor.

kim kimdir ne zaman nasıl nelerdir nedir ne işe yarar tüm bilgiler
dünyadan ilginç ve değişik haberler en garip haberler burada