Tanışmak Gladia, şirketlerin ses verileriyle etkileşim kurma şeklini değiştirmek isteyen bir Fransız yapay zeka girişimi. Şirket, diğer ürünlerle entegre edebileceğiniz ve orada mevcut olandan çok daha iyi çalışması beklenen bir sesli transkripsiyon uygulama programlama arabirimi (API) geliştirir. Ve bu teknoloji temeli, sesle ilgili yeni kullanım alanlarının kilidini açar.
Ses dökümü API’lerine aşina iseniz, büyük bulut sağlayıcılarının zaten kendi API’lerine sahip olduğunu bilirsiniz. Google var konuşmadan metne API, Amazon Yazı MetniMicrosoft’un Konuşmadan yazıyavb. İyi çalışırlar, ancak pahalıdırlar, yavaştırlar ve tonlarca özelliği yoktur.
Gladia’nın kurucu ortağı ve CEO’su Jean-Louis Quéguiner, OVHcloud’un yapay zekanın eski başkanı ve Jonathan Soto ile şirketin kurucu ortağı, bana mevcut API’lerle ilgili bazı sınırlamalardan bahsetti. Ona göre, mevcut ürünlerde üç sorunlu nokta var. İlk olarak, fiyatlar söz konusu olduğunda, bir saatlik sesin yazıya dökülmesi genellikle saatte 1,50 ila 2 ABD Doları arasındadır.
İkincisi, bazı diller iyi çalışırken diğerleri zar zor desteklendiğinden çıktı her zaman çok güvenilir değildir. Gelişmiş özellikler söz konusu olduğunda, insanlar birden çok dilde konuşursa, API’nin dil değişikliğini fark edememesi ve sesi birden fazla dilde yazıya dökmesi olasıdır.
Üçüncüsü, transkripsiyon API’leri yavaştır. Bir saatlik sesin yazıya dökülmesi 15 dakikadan fazla sürebilir. Hemen transkripsiyonlara ihtiyacınız yoksa sorun değil, ancak bu, bazı sektörlerde bu API’leri kullanamayacağınız anlamına gelir.
Fısıldayan fısıltı
Gladia dayanmaktadır Fısıltı, OpenAI’nin açık kaynaklı transkripsiyon modeli. “Whisper’dan başladık. Tekerleği yeniden icat etmedik ama müşterilerimizi dinledik ve bize ‘Benim istediğim Whisper kadar iyi çalışan bir şey’ dediler” dedi Jean-Louis Quéguiner.
Ama Whisper mükemmel değil. Vanilya versiyonu hala oldukça yavaş, bu yüzden Gladia, Whisper’ı hızlı ve duyarlı bir transkripsiyon modeline dönüştürmek için çok zaman harcadı. Tek sorun bu değil.
“Fısıltı’nın yarısı GPT-2’dir. LLM’leri ve ChatGPT’yi gördünüz, halüsinasyon eğilimi gösteriyor. Halüsinasyon problemlerini de önlemek için çok çalıştık,” dedi Quéguiner.
Özellikle, Whisper’ın YouTube gibi internette bulabileceğiniz altyazılar konusunda eğitildiğini söyledi. OpenAI’nin modeli, “bu videoyu beğendiyseniz, lütfen beğenin ve abone olun” gibi çevrimiçi videolarda duyabileceğiniz yaygın ifadeleri duyma eğilimindedir. Bunun gibi bazı cümlelerin matematiksel olarak aşırı temsili vardır ve Gladia bu eksiklikleri gidermeye çalışır.
Whisper ve uygulamasındaki bu değişikliklere ek olarak Gladia, nihai sonuçları iyileştiren bazı ön işleme ve işleme sonrası algoritmalara da sahiptir.
Gladia, bir saatlik sesi 0,61 dolara yazıya dökebileceğini vaat ediyor. Ve transkripsiyon işlemi yaklaşık 60 saniye sürer. API’si, birden çok konuşmacı olduğunu algılayabilir, zaman damgaları ekleyebilir, dilleri algılayabilir ve gerekirse bir dilden diğerine geçiş yapabilir. Gladia ayrıca otomatik olarak noktalama işaretleri ve büyük/küçük harf ekler.
Çoğu API gibi, nihai sonuç da JSON biçimindedir. Ancak Gladia, altyazı oluşturmak isteyen şirketler için SRT ve VTT dosyalarını da destekler.
Gladia’nın nasıl çalıştığını görmek için bir hesap oluşturdum ve bir röportajın ses kaydını yükledim. Beklenenden biraz daha uzun sürdü, ancak kesinlikle Google’ın veya Azure’un konuşmayı metne dönüştürme API’lerinden çok daha hızlıydı.
Sonuç kusursuz değildi ama son derece iyiydi – kısaltmaları ve teknik terimleri anlıyordu. Aynı ses dosyasını açtım. Aiko, Sindre Sorhus tarafından geliştirilen ve Whisper kullanarak ses dosyasını yerel olarak yazıya dökmenizi sağlayan bir Mac uygulaması. Beklendiği gibi, çıktı Gladia’nın çıktısına yakındı — ancak Gladia, MacBook Pro’mda Aiko’yu çalıştırmaktan çok daha hızlıydı.
Genel olarak, Gladia şimdiye kadar kullandığım en iyi transkripsiyon API’sıydı.
Ses zekası API’si olma
Şirket şu anda çağrı merkezi şirketleri, sanal toplantı hizmetleri ve video yayıncıları ile çalışmaktadır. alkış, canlı fırtına Ve Seçici.
Gladia, liderliğindeki bir finansman turunda 4 milyon dolarlık bir başlangıç turu topladı. Yeni dalga. Diğer yatırımcılar arasında Sequoia, Cocoa ve Solomon Hykes, Pierre Betouin, Miroslaw Klaba ve Alexandre Berriche gibi iş melekleri yer alıyor.
Sağlam bir transkripsiyon API’sine sahip olmak, Gladia için sadece bir adımdır. Şirket, daha sonra bu güçlü teknik temel üzerine özellikler inşa edebileceğini umuyor.
Örneğin, bir ses dosyası yazıya döküldükten sonra, Gladia metni başka bir dile çevirebilir. Kelime düzeyinde zaman damgalarıyla birleştiğinde, bu, bir şirketin bir ses dosyasını karşıya yükleyebileceği ve düzinelerce dilde sadece birkaç dakika içinde altyazı alabileceği anlamına gelir.
Gelecekte şirket, bir ses dosyasının içeriğini özetleyebileceğini, içeriği birden fazla konu kategorisine ayırabileceğini, otomatik olarak bölümler oluşturabileceğini, duygu analizi gerçekleştirebileceğini ve daha fazlasını yapabileceğini umuyor.
“Uzun vadeli vizyonumuz, 2B verilerden 3B verilere geçmek. Ses oldukça düz ve buradaki fikir, onu zeka ile artırmak,” dedi Quéguiner. “Transkripsiyonun bir meta haline geleceğini düşünüyoruz. Ancak daha önemli olanın ekleyeceğimiz seçenekler olduğunu düşünüyoruz.”
kim kimdir ne zaman nasıl nelerdir nedir ne işe yarar tüm bilgiler
dünyadan ilginç ve değişik haberler en garip haberler burada