OpenAI açık kaynaklı Whisper, çok dilli bir konuşma tanıma sistemi

OpenAI açık kaynaklı Whisper, çok dilli bir konuşma tanıma sistemi


Konuşma tanıma, yapay zeka ve makine öğreniminde zorlu bir sorun olmaya devam ediyor. Bunu çözmeye yönelik bir adımda, OpenAI bugün açık kaynaklı Whisper, şirketin iddia ettiği otomatik bir konuşma tanıma sistemi, birden fazla dilde “sağlam” transkripsiyonun yanı sıra bu dillerden İngilizce’ye çeviri sağlar.

Sayısız kuruluş, Google, Amazon ve Meta gibi teknoloji devlerinin yazılım ve hizmetlerinin merkezinde yer alan son derece yetenekli konuşma tanıma sistemleri geliştirdi. Ancak OpenAI’ye göre Whisper’ı farklı kılan şey, 680.000 saatlik çok dilli ve web’den toplanan “çok görevli” verilerle eğitilmiş olması ve bu da benzersiz vurguların, arka plan gürültüsünün ve teknik jargonun daha iyi tanınmasını sağlıyor.

“Birincil hedef kullanıcılar [the Whisper] modeller, mevcut modelin sağlamlığını, genelleştirilmesini, yeteneklerini, önyargılarını ve kısıtlamalarını inceleyen AI araştırmacılarıdır. Bununla birlikte, Whisper, geliştiriciler için, özellikle İngilizce konuşma tanıma için otomatik bir konuşma tanıma çözümü olarak potansiyel olarak oldukça faydalıdır, ”diye yazdı OpenAI GitHub’da depo Whisper için, sistemin çeşitli sürümlerinin indirilebileceği yer. “[The models] ~ 10 dilde güçlü ASR sonuçları göster. Ses etkinliği algılama, konuşmacı sınıflandırması veya konuşmacı günlükleştirme gibi belirli görevlerde ince ayar yapılırsa, ancak bu alanlarda sağlam bir şekilde değerlendirilmemişlerse, ek yetenekler sergileyebilirler.”

Fısıltı, özellikle metin tahmini alanında sınırlamalara sahiptir. Sistem büyük miktarda “gürültülü” veri üzerinde eğitildiğinden, OpenAI, Whisper’ın çeviri yazılarında gerçekte konuşulmayan sözcükler içerebileceği konusunda uyarıyor – muhtemelen hem sesteki bir sonraki kelimeyi tahmin etmeye hem de sesin kendisini kopyalamaya çalıştığı için . Ayrıca, Whisper diller arasında eşit derecede iyi performans göstermez ve eğitim verilerinde iyi temsil edilmeyen dilleri konuşanlar söz konusu olduğunda daha yüksek bir hata oranından muzdariptir.

Bu son kısım, ne yazık ki konuşma tanıma dünyasında yeni bir şey değil. Amazon, Apple, Google, IBM ve Microsoft’tan sistemleri bulan 2020 Stanford araştırması, beyaz kullanıcılarda Siyah kullanıcılara göre çok daha az hata (yaklaşık %35) yaptı.

Buna rağmen OpenAI, Whisper’ın transkripsiyon yeteneklerinin mevcut erişilebilirlik araçlarını geliştirmek için kullanıldığını görüyor.

Şirket, “Whisper modelleri, kutudan çıktığı anda gerçek zamanlı transkripsiyon için kullanılamasa da, hızları ve boyutları, diğerlerinin, neredeyse gerçek zamanlı konuşma tanıma ve çeviriye izin veren uygulamaları bunların üzerine inşa edebileceğini gösteriyor” dedi. GitHub’da devam ediyor. Fısıltı modellerinin üzerine inşa edilen faydalı uygulamaların gerçek değeri, bu modellerin farklı performansının gerçek ekonomik etkileri olabileceğini gösteriyor… [W]Teknolojinin öncelikle yararlı amaçlar için kullanılacağını umuyoruz, otomatik konuşma tanıma teknolojisini daha erişilebilir hale getirmek, daha fazla aktörün yetenekli gözetim teknolojileri oluşturmasını veya mevcut gözetim çabalarını büyütmesini sağlayabilir, çünkü hız ve doğruluk, büyük hacimli otomatik transkripsiyona ve çeviriye izin verir. sesli iletişim.”

Whisper’ın piyasaya sürülmesi, mutlaka OpenAI’nin gelecek planlarının bir göstergesi değildir. DALL-E 2 ve GPT-3 gibi ticari çabalara giderek daha fazla odaklanırken, şirket, yapay zeka sistemleri de dahil olmak üzere tamamen teorik birkaç araştırma dizisi yürütüyor. videoları izleyerek öğrenin.



genel-24