DeepMind ประสบความสำเร็จในการสร้าง AI ที่พูดได้อย่างมนุษย์

DeepMind ประสบความสำเร็จในการสร้าง AI ที่พูดได้อย่างมนุษย์

บริษัท DeepMind ของ Google พึ่งประสบความสำเร็จในการสร้าง WaveNet ระบบ AI ที่พูดได้อย่างมนุษย์ โดยมีความสามารถที่เหนือกว่าเทคโนโลยีที่ใช้ในปัจจุบันถึง 50 เปอร์เซ็นต์

ระบบปัญญาประดิษฐ์ (Artificial Intelligence: AI) นี้มีชื่อเรียกว่า WaveNet มันมีความสามารถเลียนแบบการพูดของมนุษย์ โดยการเรียนรู้การสร้างคลื่นเสียงที่เกิดขึ้นในแต่ละคำจากน้ำเสียงของมนุษย์โดยตรง นอกจากนั้นยังมีจากการการทดสอบแบบ Blind test ในการให้ WaveNet พูดภาษาอังกฤษและภาษาจีนเมนดาริน ผู้เข้าทดสอบพบว่า WaveNet นั้นมีน้ำเสียงที่เป็นธรรมชาติมากกว่า โปรแกรม text-to-speech ทุกโปรแกรมที่ Google เคยทำมา แต่อย่างไรก็ตามมันยังอยู่ในระหว่างการพัฒนาให้มีน้ำเสียงเหมือนมนุษย์มากที่สุด

WaveNet ระบบ AI พูดได้เหมือนมนุษย์

DeepMind กล่าวว่า WaveNet นั้นใช้หนึ่งในระบบปัญญาประดิษฐ์ที่เรียกว่าโครงข่ายประสาทเทียม (Neural Network) ซึ่งออกแบบมาเพื่อเลียนแบบฟังก์ชั่นภายในสมองในแต่ละส่วนของมนุษย์โดยเฉพาะ ดังนั้นการใช้โครงข่ายแบบนี้ต้องอาศัยฐานข้อมูล (Data sets) ขนาดใหญ่เพื่อให้โปรแกรมเรียนรู้

how a WaveNet is structured
วิธีการสร้าง WaveNet

หลายๆ โปรแกรมในอดีตนั้นใช้ฐานข้อมูลที่ใหญ่มากในการบันทึกเสียงพูดของคนหนึ่งคน จากนั้นรวบรวมน้ำเสียงจากในแต่ละคำเพื่อสร้างเป็นคำใหม่ขึ้นมา ข้อเสียของระบบนี้คือ เสียงที่เกิดขึ้นนั้นยากที่จะปรับแต่งแก้ไข หรือระบบที่สร้างเสียงพูดจากการสังเคราะห์ (Electronical) ทั้งหมดนั้นอาจจะง่ายต่อการแก้ไข แต่น้ำเสียงที่เกิดขึ้นนั้นไม่เป็นธรรมชาติมากที่สุดในทุกระบบ

เสียงสังเคราะห์
WaveNet

ถึงแม้ว่า WaveNet จะมีน้ำเสียงคล้ายมนุษย์มากที่สุดแต่ก็ยังไม่เหมาะกับการใช้งานในเชิงพาณิชย์ เนื่องจากต้องอาศัยการประมวลผลเพื่อให้ออกเสียงคำแต่ละคำอย่างมาก โดย WaveNet จะเรียนรู้ตัวอย่างคลื่นเสียงอย่างน้อย 16,000 ครั้งต่อวินาที จากนั้นจะทำนายจากตัวอย่างแต่ละตัวว่าคลื่นเสียงของคำแต่ละคำนั้นมีลักษณะเป็นอย่างไร แม้แต่นักวิจัยที่ DeepMind เองยังบอกเลยว่า “เห็นได้ชัดเลยว่านี่เป็นงานที่ท้าทายมาก”

wavenet training wave
แต่ละจุดเป็นการแยกคำนวณแต่ละตัวอย่าง, ภาพใหญ่คือเสียงสัญญาณดิจิตอล

แต่อย่างไรก็ตาม WaveNet นั้นมีข้อดีตรงที่ หากเราให้โปรแกรมเรียนรู้ด้วยสำเนียงของมนุษย์ที่ต่างกัน ผลลัพธ์ของโปรแกรมที่ได้ก็จะเป็นไปตามสำเนียงนั้นๆ เช่น

หากให้โปรแกรมเรียนจากสำเนียงภาษาอังกฤษของคนไทย WaveNet ก็จะสามารถพูดได้โดยเป็นสำเนียงภาษาอังกฤษของคนไทยเลย

ดังนั้นหากเราให้มันเรียนรู้เป็นเสียงเปียร์โน มันก็จะสามารถสร้างเสียงเปียร์โนขึ้นมาได้เองนั่นเอง

ผลลัพธ์เมื่อฝึกให้โปรแกรมเรียนรู้ด้วยสำเนียงที่แตกต่างกัน

ถึงแม้ปัจจุบันจะมีความก้าวหน้าอย่างมากในการสร้างโปรแกรมเพื่อทำความเข้าใจภาษาพูดของมนุษย์ แต่ดูเหมือนว่าโปรแกรมที่จะใช้พูดโต้ตอบให้เหมือนกับมนุษย์นั้นยังคงล้าหลังไปมากเลยทีเดียว

เรื่องบางเรื่องเราเข้าใจ แต่ก็พูดไม่ได้… อะไรแบบนี้

อ้างอิง: WaveNet, Bloomberg, Tech Crunch

เขียนโดย

Nattakorn Leardthanapaichit

นิสิตภาควิชาเทคโนโลยีทางภาพและการพิมพ์ กำลังสนุกกับการพบปะผู้คน ชื่นชอบการถ่ายรูปเป็นพิเศษ
   
Tags: , , , , , , , ,