Meta, yeni sanat üreten modelinin sınıfının en iyisi olduğunu iddia ediyor

           Çiçekli Duvar Kağıdı            Yenigün Çay

Son iki yılda, yapay zeka destekli görüntü üreteçleri, teknolojinin yaygın olarak kullanılabilirliği ve etrafındaki teknik engellerin azalması sayesinde aşağı yukarı ticari hale geldi. Google ve Microsoft da dahil olmak üzere hemen hemen her büyük teknoloji oyuncusu ve giderek daha kazançlı olan üretken yapay zeka pastasından bir dilim kapmak isteyen sayısız girişim tarafından konuşlandırıldılar.

Bu, performans açısından henüz tutarlı olduklarını göstermez – bundan çok uzaktır. Görüntü oluşturucuların kalitesi iyileşirken, kademeli ve bazen acı veren bir ilerleme oldu.

Ancak Meta bir ilerleme kaydettiğini iddia ediyor.

Bugün Meta, CM3leon’u (beceriksizce “bukalemun”) duyurdu. konuşalım), şirketin metinden görüntüye oluşturma için son teknoloji performansa ulaştığını iddia ettiği bir AI modeli. Meta, CM3leon’un görüntüler için altyazı oluşturabilen ilk görüntü oluşturuculardan biri olmasıyla da ayırt edildiğini ve ileriye dönük daha yetenekli görüntü anlama modelleri için zemin hazırladığını söylüyor.

Meta, bu haftanın başlarında TechCrunch ile paylaşılan bir blog yazısında, “CM3leon’un yetenekleriyle, görüntü oluşturma araçları, giriş istemlerini daha iyi takip eden daha tutarlı görüntüler üretebilir” diye yazmıştı. “CM3leon’un çeşitli görevlerdeki güçlü performansının, aslına uygun görüntü oluşturma ve anlamaya yönelik bir adım olduğuna inanıyoruz.”

OpenAI’ler dahil çoğu modern görüntü üreteci DALL-E 2Google’ın resim Ve Kararlı Difüzyon, sanat yaratmak için difüzyon adı verilen bir sürece güvenin. Difüzyonda bir model, tamamen gürültüden oluşan bir başlangıç ​​görüntüsünden gürültüyü kademeli olarak nasıl çıkaracağını öğrenir – onu adım adım hedef komut istemine yaklaştırır.

Sonuçlar etkileyici. Ancak difüzyon, hesaplama açısından yoğundur, bu da çalıştırmayı pahalı hale getirir ve gerçek zamanlı uygulamaların çoğu pratik olmayacak kadar yavaştır.

CM3leon, aksine, metin veya resimler gibi girdi verilerinin alaka düzeyini ölçmek için “dikkat” adı verilen bir mekanizmadan yararlanan bir dönüştürücü modeldir. Dikkat ve transformatörlerin diğer mimari tuhaflıkları, model eğitim hızını artırabilir ve modelleri daha kolay paralelleştirilebilir hale getirebilir. Başka bir deyişle, daha büyük ve daha büyük transformatörler, hesaplamada önemli ancak ulaşılamaz olmayan artışlarla eğitilebilir.

Ve CM3leon eşittir Daha Çoğu transformatörden daha verimli, Meta, önceki transformatör tabanlı yöntemlere göre beş kat daha az bilgi işlem ve daha küçük bir eğitim verisi seti gerektirdiğini iddia ediyor.

İlginç bir şekilde, OpenAI, birkaç yıl önce transformatörleri bir görüntü oluşturma aracı olarak adlı bir modelle keşfetti. Görüntü GPT’si. Ama nihayetinde yayılma lehine bu fikri terk etti ve yakında “tutarlılık

CM3leon’u eğitmek için Meta, Shutterstock’tan milyonlarca lisanslı görselden oluşan bir veri seti kullandı. Meta’nın oluşturduğu çeşitli CM3leon sürümleri arasında en yeteneklisi, DALL-E 2’nin iki katından fazla olan 7 milyar parametreye sahiptir. (Parametreler, modelin eğitim verilerinden öğrenilen parçalarıdır ve temel olarak modelin bir problem üzerindeki becerisini tanımlar, metin oluşturmak gibi — veya bu durumda resimler.)

CM3leon’un daha güçlü performansının bir anahtarı, denetimli ince ayar veya kısaca SFT olarak adlandırılan bir tekniktir. SFT, OpenAI’nin ChatGPT’si gibi metin üreten modelleri büyük bir etki yaratacak şekilde eğitmek için kullanıldı, ancak Meta, bunun görüntü alanına uygulandığında da yararlı olabileceğini teorileştirdi. Aslında, komut ayarı CM3leon’un performansını yalnızca görüntü oluşturmada değil, aynı zamanda görüntü alt yazısı yazmada da geliştirerek, görüntülerle ilgili soruları yanıtlamasını ve metin talimatlarını izleyerek görüntüleri düzenlemesini sağladı (örn. “gökyüzünün rengini parlak maviye çevir”).

Çoğu görüntü oluşturucu, “karmaşık” nesnelerle ve çok fazla kısıtlama içeren metin istemleriyle mücadele eder. Ancak CM3Leon bunu yapmıyor – ya da en azından eskisi kadar sık ​​değil. Özenle seçilmiş birkaç örnekte Meta, CM3Leon’a “Sahra çölünde hasır şapka ve neon güneş gözlüğü takan küçük bir kaktüs”, “Bir insan elinin yakın plan fotoğrafı, el modeli”, “Bir rakun ana bir samuray kılıcıyla destansı bir savaşa hazırlanan bir Anime karakteri” ve “’1991′ metniyle Fantezi tarzında bir dur işareti.”

Karşılaştırma amacıyla, aynı istemleri DALL-E 2’de çalıştırdım. Bazı sonuçlar birbirine yakındı. Ancak CM3Leon görüntüleri genel olarak komut istemine daha yakın ve gözlerim için daha ayrıntılıydı, tabela en bariz örnekti. (Yakın zamana kadar, difüzyon modelleri hem metin Ve insan anatomisi nispeten zayıf.)

Meta görüntü üreteci

Meta’nın görüntü üreteci.

DALL-E 2

DALL-E 2 sonuçları.

CM3Leon, mevcut görüntüleri düzenleme talimatlarını da anlayabilir. Örneğin, “İçinde lavabo ve ayna bulunan bir odanın yüksek kaliteli görüntüsünü oluştur (199, 130)” istemi verildiğinde, model görsel olarak tutarlı bir şey üretebilir ve Meta’nın belirttiği gibi, “Bağlamsal olarak uygun” – oda, lavabo, ayna, şişe ve hepsi. DALL-E 2, bazen istemde belirtilen nesneleri tamamen atlayarak, bunun gibi istemlerin nüanslarını algılamakta tamamen başarısız olur.

Ve tabii ki, DALL-E 2’den farklı olarak CM3leon, kısa veya uzun başlıklar oluşturmak ve belirli bir görüntüyle ilgili soruları yanıtlamak için bir dizi istemi takip edebilir. Meta, bu alanlarda, eğitim verilerinde daha az metin görmesine rağmen, modelin özel resim alt yazısı oluşturma modellerinden (örn. Flamingo, OpenFlamingo) bile daha iyi performans gösterdiğini iddia ediyor.

Peki ya önyargı? DALL-E 2 gibi üretken yapay zeka modellerinin, sonuçta, çoğunlukla beyaz adamları tasvir eden – “CEO” veya “yönetmen” gibi – otorite konumlarının görüntülerini oluşturarak toplumsal önyargıları güçlendirdiği bulundu. Meta, yalnızca CM3leon’un “eğitim verilerinde mevcut olan herhangi bir önyargıyı yansıtabileceğini” söyleyerek bu soruyu yanıtsız bırakıyor.

Şirket, “Yapay zeka endüstrisi gelişmeye devam ederken, CM3leon gibi üretken modeller giderek daha karmaşık hale geliyor” diye yazıyor. Sektör, bu zorlukları anlama ve ele alma konusunda henüz ilk aşamalarında olsa da, şeffaflığın ilerlemeyi hızlandırmanın anahtarı olacağına inanıyoruz.”

Meta, CM3leon’u piyasaya sürmeyi planlayıp planlamadığını veya ne zaman planladığını söylemedi. göz önüne alındığında tartışmalar açık kaynaklı sanat üreteçlerinin etrafında dönerken nefesimi tutmazdım.

kim kimdir ne zaman nasıl nelerdir nedir ne işe yarar tüm bilgiler
dünyadan ilginç ve değişik haberler en garip haberler burada

Yorum yapın