ElevenLabs, Yeni AI Araçlarını Tanıttı

New York merkezli yapay zeka şirketi ElevenLabs, geçtiğimiz hafta Voice Design adlı yeni bir özelliği için API duyurusu yaptı. Ayrıca şirket, X to Voice adını verdiği açık kaynaklı bir projeyi de tanıttı. Bu özellik, bir X (eski adıyla Twitter) profilini analiz ederek kullanıcının gönderilerine göre benzersiz bir ses oluşturabiliyor. Ayrıca, profilin analizine dayalı otomatik bir metin girişi de oluşturuluyor.

ElevenLabs’ın Yeni AI Araçları

ElevenLabs, blog gönderisinde iki yeni AI aracını detaylandırdı. İlk araç, kısa bir süre önce tanıtılan Voice Design aracının API sürümü. Voice Design, kullanıcı tarafından verilen metin girdilerine dayalı olarak özel yapay zeka sesleri oluşturabilen bir özellik. Bu sesler, kullanıcı tarafından belirlenen perde, tını, konuşma hızı ve vurgulama gibi ayarlara göre özelleştirilebiliyor. Artık bu özellik şirketin API’si aracılığıyla kullanılabilir durumda, bu da geliştiricilerin bu yeteneği uygulamalarda ve yazılımlarda kullanabileceği anlamına geliyor.

Voice Design API’si, geliştiricilerin ya yapay zeka karakterleri için özel sesler oluşturmasına ya da kullanıcılara yeni sesler üretme imkanı sağlamasına olanak tanıyor. Şirket, iki uç nokta (endpoint) sunuyor. İlk uç nokta, bir metin girdisine dayalı olarak üç benzersiz ses önizlemesi oluşturmaya imkan veriyor. İkinci uç nokta ise, bu ses önizlemelerinin yerel kullanım için bir kütüphaneye kaydedilmesine izin veriyor. ElevenLabs, API’nin fiyatlandırması veya her bir istek için maliyet hakkında bilgi paylaşmadı.

X to Voice: Profillere Dayalı Benzersiz Sesler

ElevenLabs’ın tanıttığı ikinci araç, X to Voice adlı açık kaynaklı bir proje. Bu araç, kullanıcıların X profillerini analiz ederek onların gönderilerine göre benzersiz bir ses oluşturabiliyor. Web tabanlı istemci üzerinde test edilebilen bu özellik, kullanıcıların X kullanıcı adlarını eklemesiyle profil analizini otomatik olarak gerçekleştiriyor ve profilin biyografisi ile gönderilerini inceliyor.

Analiz tamamlandıktan sonra, bu bilgiler temel alınarak bir metin girişi oluşturuluyor ve ardından Voice Design’a aktarılıyor. Böylece profil için benzersiz bir ses oluşturuluyor. Gadgets 360, bu özelliği test etti ve bir profil için ses önizlemelerinin oluşturulmasının yaklaşık 30 saniye ile bir dakika sürdüğünü belirtti. Toplamda üç ses önizlemesi oluşturuluyor ve bu yapay zeka sesleri, profil analizine dayalı bir metin satırını seslendiriyor.

Bu üç ses önizlemesine ek olarak, sayfada ses oluşturmak için kullanılan metin girişi de gösteriliyor. Özellik ayrıca, kullanıcının profil fotoğrafını animasyonlu hale getirerek yüz ifadeleri ve ağız hareketlerini senkronize ediyor, böylece konuşulan kelimelerle uyumlu hale getiriyor.

selin.taneli

Next Samsung S Pen İncelemesi: Dijital Dünyada Eşsiz Bir Kalem Deneyimi »

Previous « Samsung Galaxy S22 Ultra İncelemesi: Üst Düzey Performans ve Çığır Açan Özellikler