Günlük gelişmeleri takip edebilmek için habertürk uygulamasını indirin
HABERTURK.COM

Tacotron 2 adlı sistem, insanların ses iletişimindeki ağ kalitesini ölçtüğü Mean Opinion Score testinden 4,53 puan almayı başardı. Testte profesyonel kayıt kalitesi değerinin 4,58 kabul ediliyor.

Örnek ses kayıtlarına bakıldığında insan sesinden ayırt edilemeyen sonuçlar veren sistem, aslında Google'ın bu konudaki çalışmalarının ikinci neslini temsil ediyor. Tacotron 2'de iki adet derin sinirsel ağ kullanılıyor.

Birinci ağ, metni, ses frekanslarının zaman çizelgesinde temsil edildiği bir spektograma dönüştürüyor. Bu spektogram, WaveNet adlı sisteme gönderiliyor. Google'ın çatı şirketi Alphabet'in yapay zeka araştırma laboratuvarı DeepMind'ın hazırladığı bir sistem olan WaveNet, tablodan verileri okuyor ve gereken sesli ögeleri buna uygun şekilde oluşturuyor.

Geçen yıl tanıtılan WaveNet, şu anda Google Assistant'ta kullanılıyor. Tacotron 2 kullanıma hazır hâle geldiğinde, Google ses kalitesi açısından çok ciddi bir sıçrama yapabilir.

Sistem şimdilik tek bir kadın sesini kullanabiliyor. Bunu çeşitlendirmek ve sayıyı artırmak için Google'ın yeniden örnekleme yapması gerekebilir.

,

,