Google'ın yapay zekasının konuşması insandan ayırt edilemiyor
Yayımladığı araştırma sonuçları ile Tacotron 2 adlı metinden sese çevrim sisteminin geldiği noktayı gözler önüne seren Google, hemen kullanıma girebilir
Tacotron 2 adlı sistem, insanların ses iletişimindeki ağ kalitesini ölçtüğü Mean Opinion Score testinden 4,53 puan almayı başardı. Testte profesyonel kayıt kalitesi değerinin 4,58 kabul ediliyor.
Örnek ses kayıtlarına bakıldığında insan sesinden ayırt edilemeyen sonuçlar veren sistem, aslında Google'ın bu konudaki çalışmalarının ikinci neslini temsil ediyor. Tacotron 2'de iki adet derin sinirsel ağ kullanılıyor.
Birinci ağ, metni, ses frekanslarının zaman çizelgesinde temsil edildiği bir spektograma dönüştürüyor. Bu spektogram, WaveNet adlı sisteme gönderiliyor. Google'ın çatı şirketi Alphabet'in yapay zeka araştırma laboratuvarı DeepMind'ın hazırladığı bir sistem olan WaveNet, tablodan verileri okuyor ve gereken sesli ögeleri buna uygun şekilde oluşturuyor.
Geçen yıl tanıtılan WaveNet, şu anda Google Assistant'ta kullanılıyor. Tacotron 2 kullanıma hazır hâle geldiğinde, Google ses kalitesi açısından çok ciddi bir sıçrama yapabilir.
Sistem şimdilik tek bir kadın sesini kullanabiliyor. Bunu çeşitlendirmek ve sayıyı artırmak için Google'ın yeniden örnekleme yapması gerekebilir.