Kurumsal verileri LLM’ler için hazırlamak için araçlar sunan yapılandırılmamış, 25 milyon dolar artırdı

rent a car 34

OpenAI’ler gibi büyük dil modelleri (LLM’ler) GPT-4 artan sayıda AI uygulamasının yapı taşlarıdır. Ancak bazı işletmeler, birinci taraf ve özel verilere erişememeleri nedeniyle bunları benimseme konusunda isteksiz davrandılar.

Zorunlu olarak çözülmesi kolay bir sorun değil – bu tür verilerin güvenlik duvarlarının arkasında oturma eğiliminde olduğu ve LLM’ler tarafından dokunulamayan biçimlerde geldiği düşünüldüğünde. Ancak nispeten yeni bir girişim, yapılandırılmamış.iokurumsal verileri LLM’lerin anlayabileceği ve yararlanabileceği bir şekilde çıkaran ve düzenleyen bir platformla engelleri kaldırmaya çalışıyor.

Brian Raymond, Matt Robinson ve Crag Wolfe, ticari müşteriler için doğal dil işleme (NLP) çözümleri oluşturmaya ve dağıtmaya odaklanan Primer AI’da birlikte çalıştıktan sonra 2022’de Unstructured’ı kurdu.

“Primer’deyken, NLP verilerini (ör. PDF’ler, e-postalar, PPTX, XML, vb.) içeren ham müşteri dosyalarını alma ve ön işleme koyma ve bunları kullanıma hazır, temiz, derlenmiş bir dosyaya dönüştürme konusunda defalarca bir darboğazla karşılaştık. Unstructured’ın CEO’su olarak görev yapan Raymond, bir e-posta röportajında ​​​​TechCrunch’a verdiği demeçte, bir makine öğrenimi modeli veya boru hattı” dedi. “Veri entegrasyonu veya akıllı belge işleme şirketlerinin hiçbiri bu sorunun çözülmesine yardımcı olmadı, bu nedenle bir şirket kurup bu sorunu doğrudan çözmeye karar verdik.”

Gerçekten de, veri işleme ve hazırlık, herhangi bir yapay zeka geliştirme iş akışının zaman alıcı bir adımı olma eğilimindedir. birine göre anket, veri bilimcileri zamanlarının yaklaşık %80’ini analiz için verileri hazırlamak ve yönetmekle harcıyor. Sonuç olarak, çoğu veri şirketi üretmek – yaklaşık üçte ikisi – kullanılmadan gidiyor anket.

“Kuruluşlar, günlük olarak çok miktarda yapılandırılmamış veri üretir ve bunlar LLM’lerle birleştirildiğinde üretkenliği artırabilir. Sorun şu ki, bu veriler dağınık,” diye devam etti Raymond. “NLP topluluğundaki kirli sır, bugün veri bilimcilerinin hâlâ zanaatkâr, tek seferlik veri bağlayıcıları ve ön işleme boru hatlarını tamamen manuel olarak oluşturmaları gerektiğidir. yapılandırılmamış [delivers] LLM’ler için doğal dil verilerini bağlamak, dönüştürmek ve hazırlamak için kapsamlı bir çözüm.”

Yapılandırılmamış, web sayfalarından reklamları ve diğer istenmeyen nesneleri kaldıran, metni birleştiren, taranan sayfalarda optik karakter tanıma gerçekleştiren ve daha fazlasını yapan araçlar dahil olmak üzere, LLM alımı için kurumsal verileri temizlemeye ve dönüştürmeye yardımcı olacak bir dizi araç sağlar. Şirket, belirli PDF türleri için işleme boru hatları geliştirir; SEC dosyaları dahil olmak üzere HTML ve Word belgeleri; ve – her şeyden önce – ABD Ordusu Subayı değerlendirme raporları.

Belgeleri işlemek için Unstructured, kendi “dosya dönüştürme” NLP modelini sıfırdan eğitti ve ham dosyalardan metin ve yaklaşık 20 ayrı öğe (örn. başlıklar, üst bilgiler ve alt bilgiler) çıkarmak için başka modellerden oluşan bir koleksiyon oluşturdu. Toplamda yaklaşık 15 olmak üzere çeşitli bağlayıcılar, müşteri ilişkileri yönetimi yazılımı gibi mevcut veri kaynaklarından belgeler çeker.

Raymond, “Perde arkasında, karmaşıklığı soyutlamak için çeşitli farklı teknolojiler kullanıyoruz” dedi. “Örneğin, eski PDF’ler ve görüntüler için bilgisayarla görme modellerini kullanıyoruz. Diğer dosya türleri için ise NLP modellerinin, Python betiklerinin ve normal ifadelerin akıllı kombinasyonlarını kullanıyoruz.”

Downstream, Unstructured, LLM uygulamaları oluşturmak için bir çerçeve olan LangChain gibi sağlayıcılarla entegre olur. ve Weaviate ve MongoDB’nin Atlas Vector Search gibi vektör veritabanları.

Önceden, Unstructured’ın tek ürünü, bu veri işleme araçlarından oluşan bir açık kaynak paketiydi. Raymond, yaklaşık 700.000 kez indirildiğini ve 100’den fazla şirket tarafından kullanıldığını iddia ediyor. Ancak geliştirme maliyetlerini karşılamak ve şüphesiz yatırımcılarını yatıştırmak için şirket, PowerPoint’ler ve JPG’ler de dahil olmak üzere 25 farklı dosya biçimindeki verileri dönüştürecek ticari bir API başlatıyor.

“Devlet kurumlarıyla çalışıyoruz ve çok kısa bir süre içinde birkaç milyon gelir elde ettik. . . . Odak noktamız AI olduğu için, piyasanın daha geniş ekonomik yavaşlamadan etkilenmeyen bir sektörüne odaklanıyoruz” dedi.

Yapılandırılmamış, belki de Raymond’ın geçmişinin bir ürünü olan savunma teşkilatlarıyla alışılmadık derecede yakın bağlara sahiptir. Primer’den önce, ABD istihbarat topluluğunun aktif bir üyesiydi, Orta Doğu’da ve ardından CIA’de bir görevden önce Obama yönetimi sırasında Beyaz Saray’da görev yaptı.

Yapılandırılmamış, ABD Hava Kuvvetleri ve ABD Uzay Kuvvetleri tarafından küçük işletme sözleşmeleri ile ödüllendirildi ve “görevle ilgili verilerle birlikte” bir LLM dağıtmak için ABD Özel Harekat Komutanlığı (SOCOM) ile ortaklık kurdu. Ayrıca, Unstructured’ın yönetim kurulunda Pentagon’un Ortak Yapay Zeka Merkezi’nin eski genel müdürü ve direktörü Michael Groen ve daha önce Savunma Bakanlığı Savunma İnovasyon Birimi’ni yöneten Ryan Lewis yer alıyor.

Güvenilir bir erken gelir kaynağı olan savunma açısı, Yapılandırılmamış’ın son finansmanında belirleyici faktör olabilirdi. Bugün şirket, A Serisi ve daha önce açıklanmayan tohum finansman turunda 25 milyon dolar topladığını duyurdu. Madrona, tohumu yöneten Bain Capital Ventures ve M12 Ventures, Mango Capital, MongoDB Ventures ve Shield Capital’in yanı sıra birkaç melek yatırımcının katılımıyla A Serisi’ne liderlik etti.

kim kimdir ne zaman nasıl nelerdir nedir ne işe yarar tüm bilgiler
dünyadan ilginç ve değişik haberler en garip haberler burada

Similar Posts

Bir cevap yazın