Sitemize üye olarak beğendiğiniz içerikleri favorilerinize ekleyebilir, kendi ürettiğiniz ya da internet üzerinde beğendiğiniz içerikleri sitemizin ziyaretçilerine içerik gönder seçeneği ile sunabilirsiniz.
Sitemize üye olarak beğendiğiniz içerikleri favorilerinize ekleyebilir, kendi ürettiğiniz ya da internet üzerinde beğendiğiniz içerikleri sitemizin ziyaretçilerine içerik gönder seçeneği ile sunabilirsiniz.
Üyelerimize Özel Tüm Opsiyonlardan Kayıt Olarak Faydalanabilirsiniz
Insta360 Flow Pro: Akıllı Telefon Gimbal’ı
Microsoft’un araştırmacıları, insan seslerini sadece birkaç saniyelik bir ses kaydı kullanarak ikna edici bir şekilde yeniden yaratabilen yeni bir yapay zeka konuşma üreticisi geliştirdi. VALL-E 2 adı verilen bu metin-konuşma dönüştürücüsü, insan performansına eşdeğer doğal ve gerçekçi konuşmalar üretebiliyor.
İçindekiler
ToggleMicrosoft araştırmacıları, VALL-E 2’nin yüksek kaliteli konuşma sentezlemesini sağlayan iki önemli özelliği olduğunu belirtiyor: “Repetition Aware Sampling” (Tekrar Farkındalıklı Örnekleme) ve “Grouped Code Modeling” (Gruplanmış Kod Modelleme). Bu özellikler, VALL-E 2’nin daha akıcı ve doğal konuşmasını sağlarken, konuşma üretim sürecini de hızlandırıyor.
Araştırmacılar, VALL-E 2’nin sıfırdan metin-konuşma sentezinde bir dönüm noktası olduğunu ve ilk kez insan paritesine ulaştığını vurguluyor. LibriSpeech ve VCTK veri setleri üzerinde yapılan deneylerde, VALL-E 2’nin konuşma sağlamlığı, doğallığı ve konuşmacı benzerliği açısından önceki sistemleri aştığı gösterilmiş.
Microsoft araştırmacıları, VALL-E 2’nin eğitim, eğlence, gazetecilik, kendi kendine yazarlık, erişilebilirlik özellikleri, etkileşimli sesli yanıt sistemleri, çeviri, sohbet robotları gibi alanlarda kullanılabileceğini öne sürüyor. Ancak, VALL-E 2’nin kötüye kullanım risklerinden dolayı halka açık bir ürüne dönüştürülmesi şu an için planlanmıyor.
VALL-E 2’nin yeteneklerine rağmen, Microsoft bu teknolojinin kötüye kullanılma potansiyeli nedeniyle halka açık bir şekilde yayınlamayacak. Araştırmacılar, VALL-E 2’nin ses kimliğini taklit etmek veya belirli bir konuşmacıyı taklit etmek gibi amaçlarla kullanılabileceğini belirtiyor. Bu durum, deepfake teknolojisi ve ses klonlama konusundaki endişeleri artırıyor.
Yorum Yaz