DeepMind, Yüksek Lisans’ların kendi istemlerini optimize edebildiğini tespit etti

İnsanlar yeni programlar programladığında derin öğrenme yapay zeka modelleri — verilerin doğru özelliklerine kendi başlarına odaklanabilenler — büyük çoğunluk optimizasyon algoritmalarına güveniyor veya optimize edicilerModellerin yeterince yüksek bir doğruluk oranına sahip olmasını sağlamak için. Ancak en yaygın kullanılan optimize edicilerden biri olan türev tabanlı optimize ediciler, gerçek dünya uygulamalarını yönetmede sorun yaşar.
İçinde yeni kağıtDeepMind araştırmacıları yeni bir yol öneriyor: Optimize edici olarak AI büyük dil modellerini (LLM) kullanan bir yöntem olan PROmpting (OPRO) ile optimizasyon. Bu yaklaşımın benzersiz yönü, optimizasyon görevinin resmi matematiksel tanımlardan ziyade doğal dilde tanımlanmasıdır.
Araştırmacılar şöyle yazıyor: “Optimizasyon problemini resmi olarak tanımlamak ve programlanmış bir çözücüyle güncelleme adımını türetmek yerine, optimizasyon problemini doğal dilde tanımlıyoruz, ardından LLM’ye problem tanımına ve daha önce bulunan çözümlere dayalı olarak yinelemeli olarak yeni çözümler üretmesi talimatını veriyoruz. .”
Teknik son derece uyarlanabilir. Basitçe problem tanımını değiştirerek veya spesifik talimatlar ekleyerek, Yüksek Lisans’a çok çeşitli problemleri çözme konusunda rehberlik edilebilir.
Araştırmacılar, küçük ölçekli optimizasyon problemlerinde LLM’lerin tek başına yönlendirme yoluyla, bazen uzman tarafından tasarlanmış buluşsal algoritmaların performansıyla eşleşerek ve hatta onları aşarak etkili çözümler üretebildiğini buldu. Ancak OPRO’nun gerçek potansiyeli, modellerden maksimum doğruluk elde etmek için LLM istemlerini optimize etme yeteneğinde yatmaktadır.
PROmpting ile Optimizasyon nasıl çalışır?
OPRO süreci girdi olarak bir “meta istem” ile başlar. Bu meta-istem, eldeki görevin doğal dildeki açıklamasını, birkaç sorun örneğini, hızlı talimatlar için yer tutucuları ve ilgili çözümleri içerir.
Optimizasyon süreci ilerledikçe büyük dil modeli (LLM) aday çözümler üretir. Bunlar sorun tanımına ve meta istemde yer alan önceki çözümlere dayanmaktadır.
OPRO daha sonra bu aday çözümleri değerlendirerek her birine bir kalite puanı verir. En iyi çözümler ve bunların puanları meta-isteme eklenir ve bir sonraki çözüm üretme turu için bağlam zenginleştirilir. Bu yinelemeli süreç, model daha iyi çözümler önermeyi bırakana kadar devam eder.
Araştırmacılar, “LLM’lerin optimizasyon açısından temel avantajı, insanların optimizasyon görevlerini resmi spesifikasyonlar olmadan tanımlamalarına olanak tanıyan doğal dili anlama yetenekleridir” diye açıklıyor.
Bu, kullanıcıların “doğruluk” gibi hedef ölçümleri belirleyebilirken aynı zamanda başka talimatlar da sunabileceği anlamına gelir. Örneğin, modelin hem kısa hem de geniş çapta uygulanabilir çözümler üretmesini talep edebilirler.
OPRO ayrıca LLM’lerin bağlam içi kalıpları tespit etme yeteneğinden de yararlanır. Bu, modelin meta istemde yer alan örneklere dayalı olarak bir optimizasyon yörüngesini tanımlamasını sağlar. Araştırmacılar şunu belirtiyor: “Meta-isteme optimizasyon yörüngesinin dahil edilmesi, LLM’nin yüksek puanlara sahip çözümlerin benzerliklerini belirlemesine olanak tanıyor ve LLM’yi, çözümün nasıl olması gerektiğini açıkça tanımlamaya gerek kalmadan potansiyel olarak daha iyi çözümler oluşturmak için mevcut iyi çözümler üzerine inşa etmeye teşvik ediyor güncellenmiş.”
OPRO’nun etkinliğini doğrulamak için araştırmacılar onu iyi bilinen iki matematiksel optimizasyon problemi üzerinde test etti: doğrusal regresyon ve “gezgin satıcı problemi.” OPRO bu sorunları çözmenin en uygun yolu olmasa da sonuçlar ümit vericiydi.
Araştırmacılar, “Her iki görevde de LLM’lerin, yalnızca meta istemde sağlanan geçmiş optimizasyon yörüngesine dayanarak küçük ölçekli problemlerdeki optimizasyon yönlerini düzgün bir şekilde yakaladığını görüyoruz” dedi.
OPRO ile LLM istemlerini optimize etme
Deneyler, hızlı mühendisliğin bir modelin çıktısını önemli ölçüde etkileyebileceğini gösteriyor. Örneğin, bir ipucuna “adım adım düşünelim” ifadesini eklemek, modeli bir tür akıl yürütmeye ikna edebilir ve bir sorunu çözmek için gerekli adımların ana hatlarını çizmesine neden olabilir. Bu genellikle daha doğru sonuçlara yol açabilir.
Ancak bunun LLM’lerin insan benzeri muhakeme yeteneklerine sahip olduğu anlamına gelmediğini hatırlamak çok önemlidir. Yanıtları büyük ölçüde uyarının formatına bağlıdır ve anlamsal olarak benzer istemler çok farklı sonuçlar doğurabilir. DeepMind araştırmacıları şöyle yazıyor: “En uygun bilgi istemi formatları modele özel ve göreve özel olabilir.”
PROmpting ile Optimizasyonun gerçek potansiyeli, LLM’ler için istemleri optimize etme yeteneğinde yatmaktadır. OpenAI’nin ChatGPT’si Ve Google’ın PaLM’si. Görev doğruluğunu en üst düzeye çıkaran en iyi istemi bulmak için bu modellere rehberlik edebilir.
“OPRO, LLM’nin, ilk istemlerin düşük görev doğruluğuna sahip olduğu optimizasyon süreci boyunca görev doğruluğunu artıran yeni istemleri kademeli olarak oluşturmasına olanak tanıyor” diye yazıyorlar.
Bunu göstermek için, sözlü matematik problemlerini çözmek için en uygun ipucunu bulma görevini düşünün. Bir “optimizer LLM”, optimizasyon istemi için yer tutucularla birlikte talimatlar ve örnekler içeren bir meta istemle sağlanır (örneğin, “Adım adım düşünelim”). Model, bir dizi farklı optimizasyon istemi oluşturur ve bunları bir “puanlayıcı LLM’sine” aktarır. Bu puanlayıcı LLM bunları problem örnekleri üzerinde test eder ve sonuçları değerlendirir. En iyi istemler, puanlarıyla birlikte meta istemin başına eklenir ve süreç tekrarlanır.
Araştırmacılar bu tekniği PaLM ve GPT ailelerinden çeşitli LLM’leri kullanarak değerlendirdiler. “Değerlendirmemizdeki tüm LLM’lerin, yakınsamaya kadar yinelemeli optimizasyon yoluyla oluşturulan istemlerin performansını tutarlı bir şekilde artıran optimize ediciler olarak hizmet edebildiğini” buldular.
Örneğin, OPRO’yu PaLM-2 ile ilkokul matematik sözlü problemlerinin bir ölçütü olan GSM8K üzerinde test ederken, model ilgi çekici sonuçlar üretti. “Sorunu çözelim” cümlesiyle başladı ve “Problemi dikkatlice düşünelim ve birlikte çözelim”, “Hadi parçalara ayıralım”, “Çözüme giden yolu hesaplayalım” ve son olarak en yüksek doğruluğu sağlayan “Matematiği yapalım”.
Başka bir deneyde en doğru sonuç, Yüksek Lisans’ın cevabının önüne “Derin bir nefes alın ve bu problem üzerinde adım adım çalışın” dizesi eklendiğinde elde edildi.
Bu sonuçlar hem büyüleyici hem de biraz endişe verici. Bir insan için tüm bu talimatlar aynı anlamı taşırdı ancak yüksek lisansta çok farklı davranışları tetiklediler. Bu, LLM’leri antropomorfize etmeye karşı bir uyarı görevi görüyor ve onların iç işleyişi hakkında hala ne kadar çok şey öğrenmemiz gerektiğinin altını çiziyor.
Ancak OPRO’nun avantajı açıktır. Olası LLM istemlerinin geniş alanını keşfetmek ve belirli bir sorun türü için en iyi sonucu vereni bulmak için sistematik bir yol sağlar. Gerçek dünyadaki uygulamalarda nasıl bir performans sergileyeceği henüz belli değil ancak bu araştırma, Yüksek Lisans’ın nasıl çalıştığını anlamamıza yönelik ileri bir adım olabilir.
VentureBeat’in misyonu teknik karar vericilerin dönüştürücü kurumsal teknoloji hakkında bilgi edinmeleri ve işlem yapmaları için dijital bir şehir meydanı olmaktır. Brifinglerimizi keşfedin.
kim kimdir ne zaman nasıl nelerdir nedir ne işe yarar tüm bilgiler
dünyadan ilginç ve değişik haberler en garip haberler burada