Anthropic, ikinci nesil AI sohbet robotu Claude 2’yi piyasaya sürdü

rent a car 34

antropikEski OpenAI yöneticileri tarafından ortaklaşa kurulan AI girişimi, bugün yeni bir metin üreten AI modeli olan Claude 2’nin piyasaya sürüldüğünü duyurdu.

Anthropic’in ilk ticari modelinin halefi Claude 2, bugün ABD ve Birleşik Krallık’ta hem web’de hem de ücretli bir API aracılığıyla (sınırlı erişimde) beta olarak kullanıma sunuldu. API fiyatlandırması değişmedi (1.000 kelime üretmek için ~ 0,0465 ABD doları) ve üretken yapay zeka platformu Jasper ve Sourcegraph dahil olmak üzere birçok işletme Claude 2’yi pilot olarak kullanmaya başladı bile.

Anthropic’in pazara açılma başkanı Sandy Banerjee, TechCrunch’a bir telefon görüşmesinde “Bu sistemleri pazara dağıtmanın ve insanların bunları gerçekte nasıl kullandıklarını anlamanın önemli olduğuna inanıyoruz” dedi. “Nasıl kullanıldıklarını, performansı ve kapasiteyi nasıl iyileştirebileceğimizi – tüm bunları izliyoruz.”

Eski Claude (Claude 1.3) gibi, Claude 2 de belgeler arasında arama yapabilir, özetleyebilir, yazabilir, kodlayabilir ve belirli konularla ilgili soruları yanıtlayabilir. Ancak Anthropic, TechCrunch’a piyasaya sürülmeden önce test etme fırsatı verilmeyen Claude 2’nin birkaç alanda üstün olduğunu iddia ediyor.

Örneğin, Claude 2, baro sınavının çoktan seçmeli bölümünde biraz daha yüksek puan alıyor (%76,5’e karşı Claude 1.3’ün %73’ü). ABD Tıbbi Ruhsatlandırma Sınavının çoktan seçmeli bölümünü geçme yeteneğine sahiptir. Ve Claude 1.3’ün %56’sına kıyasla Codex İnsan Seviyesi Python kodlama testinde %71,2’ye ulaşarak daha güçlü bir programcıdır.

Claude 2 ayrıca daha fazla matematik problemini doğru cevaplayabilir ve GSM8K ilkokul düzeyindeki problemler koleksiyonunda %88 puan alır — Claude 1.3’ten yüzde 2,8 puan daha yüksek.

“Modelin muhakemesini ve bir nevi öz farkındalığını geliştirmek için çalışıyoruz, bu nedenle ‘talimatları böyle izlemeyi seviyorum’, ‘Çok adımlı talimatları işleyebiliyorum’ ve ayrıca daha fazlasının daha fazla farkında. sınırlarının farkında,” dedi Banerjee.

Claude 2, Claude 1.3’ten daha yeni veriler (web siteleri, üçüncü taraflardan lisanslı veri kümeleri ve 2023’ün başlarında gönüllü olarak sağlanan kullanıcı verilerinin bir karışımı) üzerinde eğitildi ve bu veriler, Claude 1.3’e göre muhtemelen iyileştirmelere katkıda bulundu. . (OpenAI’den farklı olarak GPT-4Claude 2 web’de arama yapamaz.) Ancak modeller mimari olarak o kadar farklı değil – Banerjee, Claude 2’yi Claude 1.3’ün “ince ayarlanmış” bir versiyonu olarak nitelendirdi; yeni yaratım.

“Claude 2, son modelden çok fazla değişmedi — model geliştirmeye yönelik sürekli yinelemeli yaklaşımımızın bir ürünü,” dedi. “Modeli sürekli olarak eğitiyoruz… ve performansını izliyor ve değerlendiriyoruz.”

Zeka olarak, Claude 2’de bir bağlam penceresi bu, Claude 1.3 ile aynı boyutta — 100.000 jeton. Bağlam penceresi, modelin ek metin oluşturmadan önce dikkate aldığı metne atıfta bulunurken, belirteçler ham metni temsil eder (örneğin, “fantastik” kelimesi, “fan”, “tas” ve “tic” belirteçlerine bölünür).

Aslında, 100.000 jeton hala oldukça büyük – piyasada bulunan herhangi bir modelin en büyüğü – ve Claude 2’ye bir dizi önemli avantaj sağlıyor. Genel olarak konuşursak, küçük bağlam pencerelerine sahip modeller, en son konuşmaların içeriğini bile “unutma” eğilimindedir. Ayrıca, geniş bağlam pencereleri, modellerin çok daha fazla metin oluşturmasını ve almasını sağlar. Claude 2, “Muhteşem Gatsby” kadar uzun kabaca 75.000 kelimeyi analiz edebilir ve 4.000 jeton veya yaklaşık 3.125 kelime üretebilir.

Claude 2 teorik olarak daha da büyük bir bağlam penceresini (200.000 jeton) destekleyebilir, ancak Anthropic bunu başlangıçta desteklemeyi planlamıyor.

Model, JSON, XML, YAML ve işaretleme biçimlerinde doğru biçimlendirilmiş çıktılar üretmek gibi başka yerlerdeki belirli metin işleme görevlerinde daha iyidir.

Peki ya 2. Claude’un yetersiz kaldığı alanlar? Sonuçta, hiçbir model mükemmel değildir. Başlatıldığında Microsoft’un yapay zeka destekli Bing Sohbeti’ne bakın. duygusal olarak manipülatif yalancı.

Gerçekten de günümüzün en iyi modelleri bile halüsinasyondan mustariptir; bu, sorulara ilgisiz, anlamsız veya olgusal olarak yanlış şekillerde yanıt verecekleri bir olgudur. Ayrıca, onları eğitmek için kullanılan verilerdeki (çoğunlukla web sayfaları ve sosyal medya gönderileri) önyargıların bir yansıması olarak zehirli metinler üretmeye eğilimlidirler.

Kullanıcılar, Claude’un daha eski bir sürümünü var olmayan bir kimyasal için bir isim icat etmek ve şüpheli talimatlar sağlamak silah sınıfı uranyum üretmek için. Onlar ayrıca Claude’un yerleşik güvenlik özelliklerini de aşarak akıllı hızlı mühendisliko ileClaude’a şunu sorabileceklerini gösteren bir kullanıcı yok: evde nasıl meth yapılacağını anlat.

Antropik, bir iç değerlendirmede Claude 1.3’e kıyasla Claude 2’nin “zararsız” yanıtlar vermede “2 kat daha iyi” olduğunu söylüyor. Ancak bu ölçünün ne anlama geldiği net değil. Claude 2’nin cinsiyetçilik veya ırkçılıkla yanıt verme olasılığı iki kat daha mı az? Şiddeti veya kendine zarar vermeyi destekleme olasılığı iki kat daha mı az? Yanlış bilgi veya yanlış bilgi üretme olasılığı iki kat daha mı az? Antropik söylemezdi – en azından doğrudan değil.

Anthropic’in bu sabah yayınladığı teknik inceleme bazı ipuçları veriyor.

Zararlılığı ölçmek için yapılan bir testte Anthropic, çevrimiçi yayınlanan “jailbreak” istemleri de dahil olmak üzere modele 328 farklı istem verdi. En az bir durumda, bir jailbreak, Claude 2’nin zararlı bir yanıt oluşturmasına neden oldu – Claude 1.3’ten daha az, ancak modelin üretimde kaç milyon istemi yanıtlayabileceği düşünüldüğünde yine de önemli.

Teknik inceleme ayrıca, Claude 2’nin en az bir ölçü üzerinde Claude 1.3’e göre yanlı yanıtlar verme olasılığının daha düşük olduğunu gösterir. Ancak Anthropic ortak yazarları, iyileştirmenin bir kısmının Claude 2’nin potansiyel olarak sorunlu veya ayrımcı görünen şekillerde ifade edilen çekişmeli soruları yanıtlamayı reddetmesinden kaynaklandığını kabul ediyor.

Anthropic açık bir şekilde, “fiziksel veya zihinsel sağlık ve esenliğin söz konusu olduğu” veya “yanlış bir cevabın zarara yol açabileceği yüksek riskli durumlarda” Claude 2’nin kullanılmamasını tavsiye ediyor. Bunu nasıl istersen al.

“[Our] Banerjee, ayrıntılar için baskı yapıldığında, “dahili kırmızı takım oluşturma değerlendirmesi, modellerimizi çok büyük bir temsili zararlı rakip bilgi istemlerine göre puanlıyor,” dedi ve “bunu otomatik testler ve manuel kontrollerin bir kombinasyonu ile yapıyoruz.”

Anthropic, kıyaslama amacıyla hangi istemleri, testleri ve kontrolleri kullandığı konusunda da bir açıklama yapmadı. Ve şirket, modellerin ara sıra eğitim verilerinden – bazı durumlarda telif hakkıyla korunan kaynaklardan gelen metinler de dahil olmak üzere – verileri kelimesi kelimesine yapıştırdığı veri yetersizliği konusunda nispeten belirsizdi.

AI modeli yetersizliği, biri dahil olmak üzere bekleyen birkaç yasal davanın odak noktasıdır. son zamanlarda komedyen ve yazar Sarah Silverman tarafından OpenAI ve Meta’ya karşı açıldı. Anlaşılır bir şekilde, bazı markalar bu konuda temkinli davranıyor. yükümlülük.

Silverman, “Eğitim verilerinin yetersizliği, tüm temel modellerde aktif bir araştırma alanıdır ve birçok geliştirici, bir yapay zeka sisteminin ilgili ve faydalı yanıtlar sağlama yeteneğini korurken, bunu ele almanın yollarını araştırıyor.” dedi. “Üreme riskini azalttığı gösterilen eğitim verilerinin tekilleştirilmesi de dahil olmak üzere, alanda genel kabul görmüş bazı teknikler var. Anthropic, veri tarafına ek olarak, model geliştirme boyunca ürün katmanı algılamadan kontrollere kadar çeşitli teknik araçlar kullanır.

Şirketin trompet etmeye devam ettiği her şeyi yakalama tekniği “anayasal AIClaude 2 gibi modellere bir “anayasa” tarafından tanımlanan belirli “değerler” aşılamayı amaçlayan “.

Anthropic’in kendisinin geliştirdiği Anayasal Yapay Zeka, bir modele ürettiği metin hakkında yargılarda bulunması için bir dizi ilke verir. Üst düzeyde, bu ilkeler, modele tanımladıkları davranışı – örneğin “toksik olmayan” ve “yardımcı” – alması için rehberlik eder.

Anthropic, anayasal yapay zeka sayesinde Claude 2’nin davranışının diğer modellere kıyasla hem anlaşılmasının daha kolay hem de gerektiğinde ayarlanmasının daha basit olduğunu iddia ediyor. Ancak şirket, anayasal yapay zekanın eğitim yaklaşımlarının tamamı olmadığını da kabul ediyor. Anthropic, Claude 2’ye rehberlik eden ilkelerin birçoğunu bir “deneme yanılma” sürecinde geliştirdiğini ve modellerinin çok “yargılayıcı” veya “sinir bozucu” olmasını önlemek için tekrar tekrar ayarlamalar yapmak zorunda kaldığını söylüyor.

Teknik incelemede Anthropic, Claude daha sofistike hale geldikçe, modelin tüm senaryolardaki davranışını tahmin etmenin giderek zorlaştığını kabul ediyor.

Teknik incelemede, “Zamanla, Claude’un ‘kişiliğini’ ve yeteneklerini belirleyen veriler ve etkiler oldukça karmaşık hale geldi” diyor. “Bu faktörleri dengelemek, basit, otomatikleştirilebilir bir şekilde takip etmek ve genel olarak Claude eğitiminin karmaşıklığını azaltmak bizim için yeni bir araştırma sorunu haline geldi.”

Sonunda, Anthropic, anayasayı bir noktaya kadar özelleştirilebilir hale getirmenin yollarını keşfetmeyi planlıyor. Ancak ürün geliştirme yol haritasının o aşamasına henüz ulaşmış değil.

Banerjee, “Hala yaklaşımımız üzerinde çalışıyoruz” dedi. “Bunu yaparken, modelin önceki yineleme kadar zararsız ve yararlı olduğundan emin olmalıyız.”

sahip olduğumuz gibi bildirildi Daha önce Anthropic’in tutkusu, yatırımcılara satış konuşmasında açıkladığı şekliyle “yapay zeka kendi kendine öğretme için yeni nesil bir algoritma” yaratmaktı. Böyle bir algoritma, e-postaları yanıtlayabilen, araştırma yapabilen ve sanat eserleri, kitaplar ve daha fazlasını üretebilen sanal asistanlar oluşturmak için kullanılabilir – bunlardan bazılarının beğenilerini zaten aldık. GPT-4 ve diğer büyük dil modelleri.

2. Claude buna doğru bir adım – ama tam olarak orada değil.

Antropik, OpenAI’nin yanı sıra aşağıdakiler gibi girişimlerle rekabet eder: Tutarlı Ve AI21 Laboratuvarları, hepsi kendi metin üreten – ve bazı durumlarda görüntü üreten – AI sistemlerini geliştiriyor ve üretiyor. Anthropic’te %10 hisse için 300 milyon dolar taahhüt eden Google, şirketin yatırımcıları arasında yer alıyor. Diğerleri Spark Capital, Salesforce Ventures, Zoom Ventures, Sound Ventures, Menlo Ventures the Center for Emerging Risk Research ve açıklanmayan VC’ler ve meleklerden oluşan bir topluluktur.

Eski OpenAI araştırma başkan yardımcısı Dario Amodei liderliğinde 2021’de piyasaya sürülen Anthropic, bugüne kadar tek haneli milyarlarca bir değerlemeyle 1,45 milyar dolar topladı. Bu çok gibi görünse de, şirketin öngörülen chatbot’unu oluşturmak için ihtiyaç duyacağını tahmin ettiği miktarın (önümüzdeki iki yıl içinde 5 milyar dolar) çok altında.

Paranın çoğu bilişime gidecek. Antropik, modellerini eğitmek için “on binlerce GPU’lu” kümelere güvendiğini ve yalnızca önümüzdeki 18 ayda altyapıya kabaca bir milyar dolar harcaması gerekeceğini destede ima ediyor.

İlk modellerin beta olarak piyasaya sürülmesi, üretirken daha fazla geliştirmeye yardımcı olma ikili amacını çözer. artımlı gelir. Anthropic, kendi API’sine ek olarak Claude 2’yi ana kayaAmazon’un üretken AI barındırma platformu, önümüzdeki aylarda.

Üretken yapay zeka pazarını her yönden ele almayı amaçlayan Anthropic, Claude Instant adlı Claude’un daha hızlı, daha az maliyetli bir türevini sunmaya devam ediyor. Yine de odak noktası amiral gemisi Claude modelinde görünüyor – Claude Instant, Mart ayından bu yana büyük bir yükseltme almadı.

Anthropic, abonelik tabanlı üretken AI uygulaması aracılığıyla Claude’a erişim sağlayan Quora da dahil olmak üzere şu anda “binlerce” müşteriye ve ortağa sahip olduğunu iddia ediyor Poe. Claude, yakın zamanda piyasaya sürülen DuckDuckGo’ya güç veriyor Ördek Yardımı OpenAI ChatGPT ile birlikte kullanıcılar için basit arama sorgularını doğrudan yanıtlayan araç. Ve Notion’da Claude, Notion çalışma alanıyla entegre bir yapay zeka yazma asistanı olan Notion AI’nın teknik arka ucunun bir parçasıdır.


kim kimdir ne zaman nasıl nelerdir nedir ne işe yarar tüm bilgiler
dünyadan ilginç ve değişik haberler en garip haberler burada

Similar Posts

Bir cevap yazın