Geçen yıl, bir metin istemiyle görüntüler, sanat eserleri ve hatta görüntü oluşturabilen yapay zeka araçlarının (AI) ortaya çıkışına tanık olduk.
OpenAI’nin ChatGPT’sinin yazmanın geleceği hakkında yaygın bir heyecana – ve korkuya – neden olmasıyla yapay zeka yazımında da önemli adımlar atıldı.
Şimdi 2023’e sadece birkaç gün kala, AI için başka bir güçlü kullanım durumu ilgi odağı haline geldi – bir kişinin sesini kusursuz bir şekilde taklit edebilen bir metinden sese aracı.
Microsoft tarafından geliştirilen VALL-E, birinin sesinin üç saniyelik kaydını alabilir ve metnin bağlamına bağlı olarak gerçekçi tonlama ve duygu ile yazılı kelimeleri konuşmaya dönüştürerek bu sesi çoğaltabilir.
60.000 saatlik İngilizce konuşma kaydıyla eğitilen bu sistem, “sıfır atış durumunda”, yani önceden herhangi bir örnek veya belirli bir bağlam veya durumda eğitim olmadan bir konuşma yapabilir.
VALL-E ile tanışın Cornell Üniversitesi tarafından yayınlanan bir makalegeliştiriciler, kayıt verisinin 7.000’den fazla benzersiz konuşmacıdan oluştuğunu açıkladı.
Ekip, Text To Speech sistemlerinin (TTS) mevcut TTS sistemlerinden yüzlerce kat daha fazla veri kullandığını ve sıfır atış sorununun üstesinden gelmelerine yardımcı olduğunu söylüyor.
Araç şu anda genel kullanıma açık değil – ancak herhangi birinin sesinden gelen herhangi bir metni oluşturmak için kullanılabileceği göz önüne alındığında, güvenlikle ilgili sorular ortaya çıkarıyor.
Microsoft yapay zekaya büyük yatırım yapıyor
VALL-E’nin nasıl çalıştığını gösteren tablo
Bununla birlikte, yaratıcıları, bir demo sağladı, bir dizi üç saniyelik konuşmacı istemlerini ve sesin doğru şekilde taklit edildiği metinden konuşmaya eylem halinde bir gösterimi sergiliyor.
Konuşmacı istemi ve VALL-E’nin çıktısının yanı sıra, sonuçları “temel gerçek” – komut istemi metnini okuyan gerçek konuşmacı – ve mevcut TTS teknolojisinin “temel” sonucuyla karşılaştırabilirsiniz.
Microsoft, yapay zekaya büyük yatırımlar yapmıştır ve ChatGPT ile metinden görüntüye veya arka plan aracı olan DALL-E’nin arkasındaki şirket olan OpenAI’nin destekçilerinden biridir.
Yazılım devi, 2019’da OpenAI’ye 1 milyar $ (930 milyon €) yatırım yaptı ve bu hafta semafor.com’da yayınlanan bir rapor, şirkete 10 milyar $ (9.3 milyar €) daha yatırım yapmayı düşündüğünü belirtti.
OpenAI’nin ChatGPT’sinin yazmanın geleceği hakkında yaygın bir heyecana – ve korkuya – neden olmasıyla yapay zeka yazımında da önemli adımlar atıldı.
Şimdi 2023’e sadece birkaç gün kala, AI için başka bir güçlü kullanım durumu ilgi odağı haline geldi – bir kişinin sesini kusursuz bir şekilde taklit edebilen bir metinden sese aracı.
Microsoft tarafından geliştirilen VALL-E, birinin sesinin üç saniyelik kaydını alabilir ve metnin bağlamına bağlı olarak gerçekçi tonlama ve duygu ile yazılı kelimeleri konuşmaya dönüştürerek bu sesi çoğaltabilir.
60.000 saatlik İngilizce konuşma kaydıyla eğitilen bu sistem, “sıfır atış durumunda”, yani önceden herhangi bir örnek veya belirli bir bağlam veya durumda eğitim olmadan bir konuşma yapabilir.
VALL-E ile tanışın Cornell Üniversitesi tarafından yayınlanan bir makalegeliştiriciler, kayıt verisinin 7.000’den fazla benzersiz konuşmacıdan oluştuğunu açıkladı.
Ekip, Text To Speech sistemlerinin (TTS) mevcut TTS sistemlerinden yüzlerce kat daha fazla veri kullandığını ve sıfır atış sorununun üstesinden gelmelerine yardımcı olduğunu söylüyor.
Araç şu anda genel kullanıma açık değil – ancak herhangi birinin sesinden gelen herhangi bir metni oluşturmak için kullanılabileceği göz önüne alındığında, güvenlikle ilgili sorular ortaya çıkarıyor.
Microsoft yapay zekaya büyük yatırım yapıyor
VALL-E’nin nasıl çalıştığını gösteren tablo
Bununla birlikte, yaratıcıları, bir demo sağladı, bir dizi üç saniyelik konuşmacı istemlerini ve sesin doğru şekilde taklit edildiği metinden konuşmaya eylem halinde bir gösterimi sergiliyor.
Konuşmacı istemi ve VALL-E’nin çıktısının yanı sıra, sonuçları “temel gerçek” – komut istemi metnini okuyan gerçek konuşmacı – ve mevcut TTS teknolojisinin “temel” sonucuyla karşılaştırabilirsiniz.
Microsoft, yapay zekaya büyük yatırımlar yapmıştır ve ChatGPT ile metinden görüntüye veya arka plan aracı olan DALL-E’nin arkasındaki şirket olan OpenAI’nin destekçilerinden biridir.
Yazılım devi, 2019’da OpenAI’ye 1 milyar $ (930 milyon €) yatırım yaptı ve bu hafta semafor.com’da yayınlanan bir rapor, şirkete 10 milyar $ (9.3 milyar €) daha yatırım yapmayı düşündüğünü belirtti.