DeepFloyd ile üretken yapay zeka sanatı bir metin yükseltmesine kavuşuyor

Generatif AI, bugünlerde aslına uygunluğu açısından oldukça etkileyici, çünkü viral memler Balenciaga Papa önereceğim En yeni sistemler, şehir silüetlerinden kafelere kadar sahne manzaraları oluşturarak, en azından ilk bakışta şaşırtıcı derecede gerçekçi görünen görüntüler yaratabilir.

Ancak metinden görüntüye yapay zeka modellerinin uzun süredir devam eden zayıflıklarından biri, ironik bir şekilde metindir. En iyi modeller bile okunaklı logolar, çok daha az metin, kaligrafi veya yazı tipleri içeren görüntüler oluşturmakta zorlanıyor.

Ama bu değişebilir.

Geçen hafta, DeepFloyd tarafından desteklenen bir araştırma grubu Kararlılık AI, açıkladı DeepFloyd IF, metni görüntülere “akıllıca” entegre edebilen bir metinden görüntüye modeli. Bir milyardan fazla görüntü ve metinden oluşan bir veri kümesi üzerinde eğitilen DeepFloyd IF, çalışması için en az 16 GB RAM’e sahip bir GPU gerektiren bir görüntü oluşturabilir. ‘” — isteğe bağlı olarak çeşitli stillerde.

DeepFloyd IF, şimdilik ticari kullanımı yasaklayacak şekilde lisanslanmış açık kaynak olarak mevcuttur. Kısıtlama, büyük olasılıkla üretken yapay zeka sanat modellerinin mevcut zayıf yasal durumundan kaynaklanıyordu. Birkaç ticari model satıcısı, satıcıların bu işi izinsiz olarak web’den kazıyarak tazminat ödemeden işlerinden kar elde ettiklerini iddia eden sanatçılar tarafından eleştirildi.

Ancak üretken sanat platformu Nightcafe’e izin verildi Erken erişim DeepFloyd IF’e.

Nightcafe CEO’su Angus Russell, TechCrunch’a DeepFloyd IF’yi diğer metinden görüntüye modellerden farklı kılan ve üretken yapay zeka için neden önemli bir adımı temsil edebileceği hakkında konuştu.

Russell’a göre DeepFloyd IF’nin tasarımı, Google’ın hiçbir zaman halka açıklanmayan Imagen modelinden büyük ölçüde ilham aldı. OpenAI’ler gibi modellerin aksine DALL-E 2 Ve Kararlı DifüzyonDeepFloyd IF, görüntüler oluşturmak için modüler bir mimaride bir araya yığılmış çok sayıda farklı işlem kullanır.

DeepFloyd IF

Görsel Kaynakları: Derin Floyd

Tipik bir difüzyon modeli ile model, neredeyse tamamen gürültüden oluşan bir başlangıç ​​görüntüsünden gürültüyü kademeli olarak çıkarmayı öğrenir ve onu adım adım hedef komut istemine yaklaştırır. DeepFloyd IF, bir kez değil birkaç kez difüzyon gerçekleştirerek 64×64 piksellik bir görüntü oluşturur, ardından görüntüyü 256×256 piksele ve son olarak da 1024×1024 piksele yükseltir.

Neden çoklu difüzyon adımlarına ihtiyaç var? Russell, DeepFloyd IF’in doğrudan piksellerle çalıştığını açıkladı. Difüzyon modelleri çoğunlukla gizli difüzyon modelleridir, bu da esasen çok daha fazla pikseli temsil eden daha düşük boyutlu bir alanda ancak daha az doğru bir şekilde çalıştıkları anlamına gelir.

DeepFloyd IF ile Stable Diffusion ve DALL-E 2 gibi modeller arasındaki diğer önemli fark, birincisinin bilgi istemlerini temel bir veri yapısı olan bir vektör olarak anlamak ve temsil etmek için geniş bir dil modeli kullanmasıdır. Due DeepFloyd IF’nin mimarisine yerleştirilmiş büyük dil modelinin boyutuna kıyasla, model özellikle karmaşık istemleri ve hatta istemlerde açıklanan uzamsal ilişkileri (örneğin, “pembe bir kürenin üzerinde kırmızı bir küp”) anlamada iyidir.

Russell, “Görüntülerde okunaklı ve doğru yazılmış metinler oluşturmada da çok iyi ve hatta birden çok dildeki yönlendirmeleri anlayabiliyor” diye ekledi. “Bu yetenekler arasında, görüntülerde okunaklı metinler oluşturma yeteneği, DeepFloyd IF ile diğer algoritmalardan öne çıkan belki de en büyük buluş.”

DeepFloyd IF oldukça yetenekli bir şekilde resimlerde metin oluşturabildiği için Russell, logo tasarımı, web tasarımı, posterler, reklam panoları ve hatta memler gibi yeni üretken sanat olasılıkları dalgasını ortaya çıkarmasını bekliyor. Model aynı zamanda eller gibi şeyler üretmede çok daha iyi olmalı ve – diğer dillerdeki yönlendirmeleri anlayabildiği için – bu dillerde de metin oluşturabiliyor olabilir, diyor.

NightCafe kullanıcıları, DeepFloyd IF konusunda büyük ölçüde heyecanlanıyor çünkü görüntülerde metin oluşturarak kilidi açılan olasılıklar,” dedi Russell. “Stable Diffusion XL, metin oluşturma konusunda ilerleme kaydeden ilk açık kaynak algoritmasıydı — bir veya iki kelimeyi doğru şekilde üretebilir bazı ama yine de metnin önemli olduğu kullanım durumları için yeterince iyi değil.”

Bu, DeepFloyd IF’in metinden görüntüye modellerin kutsal kâsesi olduğu anlamına gelmez. Russell, temel modelin doldukça uygun görüntüler oluşturmaz. estetik açıdan hoş ince ayarın bunu iyileştireceğini ummasına rağmen, bazı difüzyon modellerinde olduğu gibi.

DeepFloyd IF

Görsel Kaynakları: Derin Floyd

Ama benim için daha büyük soru, DeepFloyd IF’in üretken AI kardeşleriyle aynı kusurlardan ne ölçüde muzdarip olduğu.

Büyüyen bir vücut araştırma görüntü üreten yapay zekada ırk, etnik, cinsiyet ve diğer klişeleştirme biçimlerini ortaya çıkardı, içermek Kararlı Difüzyon. Sadece bu ay, yapay zeka girişimi Hugging Face ve Leipzig Üniversitesi’ndeki araştırmacılar bir alet Stable Diffusion ve OpenAI’leri içeren modellerin gösterilmesi DALL-E 2 özellikle otorite konumunda olan insanları tasvir etmeleri istendiğinde, beyaz ve erkek gibi görünen insan resimleri üretme eğilimindedirler.

DeepFloyd ekibi, kredilerine göre, DeepFloyd IF’ye eşlik eden küçük puntolardaki önyargı potansiyeline dikkat çekiyor:

Diğer dilleri kullanan topluluklardan ve kültürlerden gelen metinler ve resimler muhtemelen yetersiz bir şekilde açıklanacaktır. Beyaz ve batı kültürleri genellikle varsayılan olarak ayarlandığından, bu, modelin genel çıktısını etkiler.

Bunun dışında DeepFloyd IF, diğer açık kaynaklı üretim modelleri gibi pornografik içerik oluşturmak gibi zarar vermek için kullanılabilir. ünlüler ve şiddetin grafik tasvirleri. DeepFloyd IF’in resmi web sayfasında DeepFloyd ekibi, eğitim verilerinden filigranlı, “NSFW” ve “diğer uygunsuz içeriği” kaldırmak için “özel filtreler” kullandıklarını söylüyor.

Ancak tam olarak hangi içeriğin kaldırıldığı ve ne kadarının gözden kaçırılmış olabileceği net değil. En sonunda zaman gösterecek.

kim kimdir ne zaman nasıl nelerdir nedir ne işe yarar tüm bilgiler
dünyadan ilginç ve değişik haberler en garip haberler burada

Yorum yapın