Yapay zeka tabanlı ses üretimi alanında önemli bir oyuncu olan ElevenLabs, şimdi de konuşmadan metne dönüşüm teknolojisine adım atarak büyük bir yeniliğe imza attı. “Scribe” adını verdiği yeni modeliyle şirket, Gladia, Speechmatics, AssemblyAI, Deepgram ve OpenAI’nin Whisper gibi devleriyle rekabet etmeye hazırlanıyor.
Scribe, yalnızca bir konuşma tanıma aracı olmanın ötesine geçerek yüksek doğruluk oranı, geniş dil desteği ve gelişmiş ses analizi yetenekleriyle dikkat çekiyor. FLEURS ve Common Voice benchmark testlerinde Google Gemini 2.0 Flash ve Whisper Large V3’ü geride bıraktığı belirtilen model, piyasaya güçlü bir giriş yaptı.
Scribe: Yapay Zekanın Sesleri Anlama Konusunda Geldiği Son Nokta
ElevenLabs, bugüne kadar daha çok metinden sese teknolojileriyle tanınıyordu. Ancak Scribe ile şirket, yapay zekanın konuşmayı anlama yeteneğini ileriye taşıyor. Model, lansman aşamasında 99’dan fazla dili destekliyor ve bunlardan 25’i “mükemmel doğruluk” kategorisinde yer alıyor.
Öne çıkan diller arasında İngilizce, Fransızca, Almanca, Hintçe, Endonezce, Japonca, Kannada, Malayalam, Lehçe, Portekizce, İspanyolca ve Vietnamca bulunuyor. İngilizce için %97 doğruluk oranı sunan modelin, diğer dillerde de yüksek başarı gösterdiği vurgulanıyor.
Scribe yalnızca kelimeleri yazıya dökmekle kalmıyor; aynı zamanda konuşmacıyı tanımlayan akıllı hoparlör günlüğü, kelime bazlı zaman damgası ve izleyicilerin tepkileri gibi ses olaylarını etiketleme gibi gelişmiş özellikler sunuyor. Bu özellikler, özellikle medya, içerik üretimi ve eğitim sektörleri için büyük bir avantaj sağlıyor.
“Konuşma Algılamayı Bir Üst Seviyeye Taşıyoruz”
ElevenLabs CEO’su Mati Staniszewski, kısa bir süre önce yaptığı açıklamada, konuşma algılama teknolojisinin hâlâ geliştirilmesi gereken birçok alanı olduğunu belirtti. Staniszewski, birçok kişinin konuşmadan metne dönüşümün “çözülmüş bir problem” olduğunu düşündüğünü, ancak gerçekte hâlâ birçok dilde tatmin edici sonuçlar alınamadığını ifade etti.
“Bizim amacımız yalnızca konuşmayı metne dökmek değil, aynı zamanda konuşmaların daha iyi anlaşılmasını sağlamak” diyen Staniszewski, şirket içi ekiplerinin veri analizi ve geri bildirim mekanizmaları sayesinde konuşma algılama modellerini sürekli olarak geliştirdiğini vurguladı.
Henüz Gerçek Zamanlı Değil, Ancak Gelecek Vaat Ediyor
Şu an için Scribe yalnızca önceden kaydedilmiş sesleri işleyebiliyor. Yani gerçek zamanlı toplantı transkripsiyonları veya sesli not alma gibi anlık çözümler için henüz yeterli değil. Ancak ElevenLabs, düşük gecikmeli bir sürüm üzerinde çalıştıklarını ve yakın gelecekte bu eksikliğin giderileceğini duyurdu.
Bu durum, özellikle iş dünyasında toplantı kayıtlarını anlık olarak metne dökmek isteyen profesyoneller için henüz tam anlamıyla ideal bir çözüm sunmadığını gösteriyor. Ancak gelecekteki güncellemelerle birlikte Scribe’ın bu alanda da güçlü bir rakip hâline gelmesi bekleniyor.
Fiyatlandırma ve Rekabet
Scribe’ın fiyatlandırması, rakipleriyle karşılaştırıldığında rekabetçi bir seviyede konumlandırılmış durumda. Şirket, bir saatlik transkripsiyon için 0,40 dolarlık bir ücret belirledi. Ancak bazı rakiplerin daha düşük fiyatlarla benzer hizmetler sunduğu göz önünde bulundurulduğunda, ElevenLabs’in uzun vadede rekabet avantajını koruyabilmek için farklılaşan özelliklerine daha fazla yatırım yapması gerekebilir.
ElevenLabs, Ses Teknolojisinde Çıtayı Yükseltiyor
Scribe, yalnızca bir konuşma tanıma modeli olmanın ötesine geçerek, konuşulan içeriği anlamlandırma ve analiz etme konusunda yeni bir standart belirliyor. Modelin sunduğu yüksek doğruluk oranları, geniş dil desteği ve gelişmiş özellikler, özellikle medya, içerik üreticileri ve eğitim sektörü için büyük bir değer taşıyor.
Ancak gerçek zamanlı desteğin henüz sunulmaması ve fiyatlandırmanın bazı rakiplere kıyasla biraz yüksek kalması, ElevenLabs’in pazardaki yerini sağlamlaştırmak için önümüzdeki süreçte daha fazla yenilik yapmasını gerektirebilir.
Önümüzdeki dönemde şirketin bu alanda nasıl bir yol izleyeceği ve yeni güncellemelerle Scribe’ın nasıl gelişeceği büyük bir merak konusu. Yapay zeka destekli konuşma tanıma teknolojileri hızla gelişirken, ElevenLabs’in bu yarışta ne kadar ileri gideceğini zaman gösterecek.