| ชื่อเรื่อง | : | ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย |
| นักวิจัย | : | ณัฐกิจ อังศุภากร |
| คำค้น | : | TEXT-TO-SPEECH , SPEECH SYNTHESIS , TD-PSOLA |
| หน่วยงาน | : | ฐานข้อมูลวิทยานิพนธ์ไทย |
| ผู้ร่วมงาน | : | - |
| ปีพิมพ์ | : | 2544 |
| อ้างอิง | : | http://www.thaithesis.org/detail.php?id=45604 |
| ที่มา | : | - |
| ความเชี่ยวชาญ | : | - |
| ความสัมพันธ์ | : | - |
| ขอบเขตของเนื้อหา | : | - |
| บทคัดย่อ/คำอธิบาย | : | การวิจัยเรื่องการสังเคราะห์เสียงพูดในภาษาไทย คือการแปลงข้อความภาษาไทยเป็น เสียงพูดในภาษาไทยแบบอัตโนมัติ โดยในการแปลงคำนั้นยังสามารถแปลงคำต่างๆ เช่น คำที่มี ความซับซ้อน, คำยกเว้น, คำย่อ, ตัวเลขและสัญลักษณ์ต่างๆ ได้ นอกจากนั้นการสังเคราะห์ เสียงพูดยังสามารถใช้ในกรณีที่การมองเห็นเป็นปัญหา ไม่ว่าจะเป็นการไม่สามารถมองเห็น หรือไม่สามารถใช้สายตาในการรับรู้ข้อมูลได้ อีกทั้งยังสามารถใช้ในกรณีที่ต้องการรับฟัง ข้อมูลจากระยะไกล เช่น ผ่านระบบโทรศัพท์ เป็นต้น ต้นแบบของการสังเคราะห์เสียงพูดในภาษาไทย ได้พัฒนาโดยใช้วิธีการ Time Domain Pitch-Synchronous Overlap and Add (TD-PSOLA) ระบบนี้จะประกอบไปด้วย 2 ส่วน หลักๆ ได้แก่ ส่วน text analysis และส่วน speech signal processing โดยส่วน text analysis จะทำการแปลงข้อความภาษาไทยให้เป็นสัญลักษณ์แทนเสียงพูด (Phonetic Unit Dexcription) ซึ่งประกอบไปด้วยหน่วยเสียง (Phonetic Unit) และรูปแบบการออกเสียง (Prosody Information) จากนั้นหน่วยเสียงเหล่านี้จะถูกนำมาประมวลผลโดยใช้หลักการของ TD-PSOLA สัญญาณเสียงจะถูกแยกเป็นหน่วยสัญญาณเสียงย่อยๆ ที่ซ้อนทับกัน โดยการนำสัญญาณ มาคูณกับ window function ซึ่งโดยทั่วไปจะใช้แบบ Hanning หรือ Hamming ซึ่งโดยทั่วไป แล้ว window function เหล่านี้จะถูกกำหนดจุดศูนย์กลางอยู่ที่ pitch-mark ของแต่ละหน่วย สัญญาณเสียงที่ซ้อนทับกันอยู่ โดยการหา pitch-mark นี้สามารถทำได้โดยการใช้วิธีการ pitch determination ทั่วไปได้ เช่น Autocorrelation, AMDF และ Cepstrum Analysis ใน การที่จะเพิ่มความถี่ของเสียงทำได้โดยการปรับระยะห่างระหว่าง pitch-mark ให้สั้นลง ใน ทางกลับกัน การลดความถี่เสียงก็สามารถทำได้โดยการเพิ่มหรือลดหน่วยของสัญญาณเสียงที่ซ้อน ทับกันอยู่ ซึ่งทำให้ความยาวของสัญญาณเสียงเปลี่ยนไป จากการเปลี่ยนแปลงความถี่ดังกล่าว ทำให้สามารถเปลี่ยนเสียงตามแนวแกนเวลาซึ่งมีผลให้สามารถผันเสียงเป็นวรรณยุกต์ต่างๆ ได้ โดยต้นแบบการสังเคราะห์เสียงพูดสามารถผันเสียงวรรณยุกต์ต่างๆ ในภาษาไทยครบทุกเสียง ได้แก่เสียงเอก, เสียงโท, เสียงตรีและเสียงจัตวา การทดลองการสังเคราะห์เสียงพูดในภาษาไทย โดยการสังเคราะห์เสียงพูดจากประโยค ตัวอย่าง ได้ทำการประเมินคุณภาพของเสียงที่ได้โดยวิธีการให้คะแนนตามความคิดเห็น (Mean Opinion Score) โดยมีปัจจัยในการประเมินผลได้แก่ การออกเสียงและสำเนียง (Pronunciation), การแยกแยะคำที่แตกต่าง (Distinctness), ความเป็นธรรมชาติ (Naturalness), รวมถึง ความสามารถในการรับฟังเป็นคำพูดของภาษานั้นๆ (Intelligibility) โดยการประเมินจะใช้ ผู้ฟังจำนวน 15 คน ซึ่งฟังในห้องฟังที่มีการควบคุมสภาวะแวดล้อม จากผลการทดลองแสดงให้เห็น ว่าเสียงพูดที่ได้จากระบบสามารถรับฟังว่าเป็นการออกเสียงในภาษาไทย โดยระบบสามารถออก เสียงคำส่วนใหญ่ที่อยู่ในรูปแบบ "พยัญชนะ-สระ-ตัวสะกด" ได้ |
| บรรณานุกรม | : |
ณัฐกิจ อังศุภากร . (2544). ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย.
กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย. ณัฐกิจ อังศุภากร . 2544. "ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย".
กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย. ณัฐกิจ อังศุภากร . "ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย."
กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย, 2544. Print. ณัฐกิจ อังศุภากร . ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย. กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย; 2544.
|
