Stability AI, ses üretimine metinleri kitlelere ulaştıran Stabil Ses'i piyasaya sürdü

VB Transform 2023 oturumlarını görüntülemek için isteğe bağlı kitaplığımıza gidin. Buradan Kayıt Olun

Görüntü ve kod oluşturmaya yönelik üretken yapay zeka teknolojisi oluşturduktan sonra ne gelir? İçin Kararlılık Yapay Zekasımetinden sese dönüştürme işlemidir.

Stabilite AI bugün ilk halka açık sürümünü duyurdu. Kararlı Ses Herkese kısa ses klipleri oluşturmak için basit metin komutlarını kullanma yeteneği sağlayan teknoloji. Stabilite Yapay Zekası, Stable Diffusion metinden görüntüye oluşturma yapay zeka teknolojisinin arkasındaki kuruluş olarak bilinir.

Temmuz ayında Stable Diffusion yeni sürümüyle güncellendi. SDXL temel modeli Geliştirilmiş görüntü kompozisyonu için. Şirket bu haberi takip ederek kapsamını görselin ötesinde koda kadar genişletti. Kararlı Kod Ağustosda.

StableAudio yeni bir özellik olmasına rağmen Stable Diffusion’ın görüntü oluşturmasını sağlayan aynı temel yapay zeka tekniklerinin çoğuna dayanıyor. Yani Stabil Ses teknolojisi bir difüzyon moduHer ne kadar yeni ses klipleri oluşturmak için görüntülerden ziyade ses konusunda eğitim almış olsam da.

Etkinlik

VB Dönüşümü 2023 İsteğe Bağlı

VB Transform 2023’ten bir oturumu kaçırdınız mı? Tüm öne çıkan oturumlarımıza ilişkin isteğe bağlı kütüphaneye erişmek için kaydolun.

Şimdi üye Ol

Stability AI Ses Başkan Yardımcısı Ed Newton-Rex, VentureBeat’e şunları söyledi: “Stability AI, en çok görüntülerdeki çalışmasıyla tanınıyor, ancak şimdi müzik ve ses üretimine yönelik ilk ürünümüz olan Stable Audio’yu piyasaya sürüyoruz.” “Konsept gerçekten çok basit; duymak istediğiniz müziği veya sesi metin olarak tanımlıyorsunuz ve sistemimiz bunu sizin için üretiyor.”

Stabil Ses, MIDI dosyaları değil, yeni müzik parçaları oluşturmak için nasıl çalışır?

Newton-Rex, bilgisayar tarafından üretilen müzik dünyasına yabancı değil; 2011’de Jukedeck adında kendi girişimini kurdu ve bunu 2019’da TikTok’a sattı.

Ancak Stable Audio’nun arkasındaki teknolojinin kökleri Jukedeck’te değil, Stability AI’nin müzik üretimi için dahili araştırma stüdyosunda bulunuyor. HarmonayZach Evans tarafından yaratıldı.

Evans VentureBeat’e şunları söyledi: “Bu, teknolojik olarak görüntü oluşturma alanından aynı fikirleri alıp ses alanına uygulamak anlamına geliyor.” “Harmonai benim başlattığım araştırma laboratuvarıdır ve tamamıyla Stabilite Yapay Zekasının bir parçasıdır ve temel olarak bu üretken ses araştırmasının açıkta bir topluluk çabası olarak gerçekleştirilmesinin bir yoludur.”

Teknolojiyle temel ses parçaları oluşturma yeteneği yeni bir şey değil. Bireyler geçmişte Evans’ın ‘sembolik üretim’ teknikleri olarak adlandırdığı teknikleri kullanabildiler. Sembolik oluşturmanın genellikle, örneğin davul sesi gibi bir şeyi temsil edebilen MIDI (Müzik Enstrümanı Dijital Arayüzü) dosyalarıyla çalıştığını açıkladı. Stable Audio’nun üretken yapay zeka gücü farklı bir şeydir ve kullanıcıların MIDI ve sembolik nesilde yaygın olan tekrarlanan notaların ötesine geçen yeni müzik oluşturmasına olanak tanır.

Stabil Ses, daha yüksek kaliteli çıktı için doğrudan ham ses örnekleriyle çalışır. Model, ses kütüphanesindeki 800.000’den fazla lisanslı müzik parçasıyla eğitildi AudioSparks.

Evans, “Bu kadar çok veriye sahip olmak çok eksiksiz bir meta veridir” dedi. “Bu metin tabanlı modelleri yaparken yapmanız gereken en zor şeylerden biri, yalnızca yüksek kaliteli ses değil, aynı zamanda karşılık gelen iyi meta verilere sahip ses verilerine sahip olmaktır.”

Yeni bir Beatles melodisi oluşturmak için Sabit Ses’i kullanmayı beklemeyin

Kullanıcıların imaj üretme modelleriyle yaptığı ortak şeylerden biri, belirli bir sanatçının tarzında görseller yaratmaktır. Ancak Stabil Ses için kullanıcılar, AI modelinden, örneğin klasik bir Beatles melodisine benzeyen yeni müzik üretmesini isteyemeyecek.

Newton-Rex, “Beatles’ta eğitim almadık” dedi. “Müzisyenler için ses örnekleri oluşturma, insanların gitmek istediği şey olma eğiliminde değil.”

Newton-Rex, deneyimine göre çoğu müzisyenin yeni bir ses parçasına The Beatles veya başka bir müzik grubunun tarzında bir şey isteyerek başlamak istemediğini, bunun yerine daha yaratıcı olmayı istediklerini kaydetti.

Metinden sese dönüştürme için doğru istemleri öğrenmek

Bir yayılma modeli olarak Evans, Stable Audio modelinin yaklaşık 1,2 milyar parametreye sahip olduğunu ve bunun görüntü üretimi için Stable Diffusion’ın orijinal sürümüyle kabaca eşit olduğunu söyledi.

Ses oluşturmaya yönelik istemler için kullanılan metin modelinin tamamı Stability AI tarafından oluşturulmuş ve eğitilmiştir. Evans, metin modelinin Karşılaştırmalı Dil Ses Ön Eğitimi (CLAP) olarak bilinen bir tekniği kullandığını açıkladı. Stabil Ses lansmanının bir parçası olarak Stability AI, kullanıcıların oluşturmak istediği ses dosyası türlerine yönlendirecek metin istemleri konusunda kullanıcılara yardımcı olacak bir bilgi istemi kılavuzu da yayınlıyor.

Stable Audio hem ücretsiz olarak hem de aylık 12 ABD doları tutarında Pro planıyla satışa sunulacak. Ücretsiz sürüm, ayda 20 nesile kadar 20 saniyelik parçalara izin verirken, Pro sürümü bunu 500 nesile ve 90 saniyelik parçalara çıkarır

Newton-Rex, “Herkese bunu kullanma ve deneme şansı vermek istiyoruz” dedi.

VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji hakkında bilgi edinmeleri ve işlem yapmaları için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.

kim kimdir ne zaman nasıl nelerdir nedir ne işe yarar tüm bilgiler
dünyadan ilginç ve değişik haberler en garip haberler burada

bunlara da bakın