Google DeepMind Gerçekçi Konuşma Sunuyor

Yapay zeka alanınki gelişmeler ile makineler daha da akıllanmaya başladı. Google tarafından geliştirilen yapay zeka uygulaması ‘Google DeepMind’ ile artık makineler de konuşmaya başlıyor.

A- A+

21.09.2016 tarihli yazı 11175 kez okunmuştur.

Google DeepMind Yapay Zeka Akıllı Makineler

Google DeepMind, yapay zeka uygulaması ile derin öğrenme teknikleri kullanılarak gerçekçi sesler oluşturuldu. Makine-insan etkileşimi artarken makinelerin konuşması daha gerçekçi hale geldi. WaveNet olarak adlandırılan bu sistemde, gerçek insan konuşmasını örnekleme ve doğrudan ses dalga formlarını modelleyerek sesler oluşturulur. WaveNet ile insan sesi taklit edilerek makine konuşması olarak adlandırılan bir seslendirme platformu oluşturulmuştur. WaveNet tarafından oluşturulan İngilizce ve Mandarin Çincesi seslendirmeleri klasik metin seslendirme programlarına göre daha gerçekçi sonuçlar ve doğal sesler sunuyor. İnsan sesine yaklaşık olarak %50 oranında yakın sesler üretmektedir. Ayrıca sistemde melodi ve çalgı aletleri sesleri de oluşturmak mümkün.

►İlginizi Çekebilir: Yapay Zeka ve Çin Odası Deneyi

Metin seslendirme programları özellikle akıllı cihazlarda giderek önem kazanmaktadır. Yapay zekâ kişisel asistanları içinde en çok bilinenleri kuşkusuz Apple Siri, Microsoft Cortana, Amazon Alexa ve Google Asistandır. Siri veya Cortana’ya soru sorulduğu zaman insan sesleri kaydedilerek oluşturulan veri tabanından istenilen parçalar düzenlenerek seslendirilir. Sonuçlar her ne kadar gerçekçi olsa da ses tonu üretmek için gerçek bir kişinin seslendirmesi gereklidir. Tamamen bilgisayar tarafından oluşturulan sesler ağız yapısı ve gramer bilgileri kodlanarak oluşturulur. Parametrik sesler üretmek için bir kaynağa ihtiyaç yoktur.

Vocoder olarak bilinen sinyal işleme metodu ile gerçek ses oluşturulur. Yapay zekâ ile harmanlandığı zaman bağımsız sesleri kendi kendine oluşur. WaveNet sadece dilin ses yapısını bilir. İnsan ağız yapısına yönelik konuşma taklit edilmeye çalışılır. Nefes alıp verme zamanları, dudaklar arası mesafe gibi durumlar göz önüne alınır. Google, dilsel kurallar ve öneriler ile anlamlı konuşma veya sesler oluşturur.

►İlginizi Çekebilir: Sonsuz Maymun Teoremi

Sistem sadece konuşmalardan ibaret değildir. Yapay zeka ile bir piyano sesi bile oluşturulmuştur. Melodi oluşturmak anlamlı bir konuşma oluşturmaktan daha kolaydır. Görme engelli 500 kişiye farklı sesler dinletilerek 1 (gerçekçi değil) ila 5 (gerçekçi) arasında puanlama yapılması istendi. WaveNet, puanlamaya göre İngilizce de 4,21 puan ve Çince de 4,08 puan aldı.

Görsel: puan tablosu

16 kHz sesler üreten WaveNet, geliştirilmeye devam ediliyor. Matematiksel modeller ve algoritmaları gerçekleştirmek için işlem gücü yüksek bilgisayarlar ile kullanılmaktadır.

Kaynak:

►The Verge
►Deepmind.com