ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย

ridm@nrct.go.th ระบบคลังข้อมูลงานวิจัยไทย รายการโปรดที่คุณเลือกไว้

ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย

หน่วยงาน ฐานข้อมูลวิทยานิพนธ์ไทย

รายละเอียด

ชื่อเรื่อง	:	ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย
นักวิจัย	:	ณัฐกิจ อังศุภากร
คำค้น	:	TEXT-TO-SPEECH , SPEECH SYNTHESIS , TD-PSOLA
หน่วยงาน	:	ฐานข้อมูลวิทยานิพนธ์ไทย
ผู้ร่วมงาน	:	-
ปีพิมพ์	:	2544
อ้างอิง	:	http://www.thaithesis.org/detail.php?id=45604
ที่มา	:	-
ความเชี่ยวชาญ	:	-
ความสัมพันธ์	:	-
ขอบเขตของเนื้อหา	:	-
บทคัดย่อ/คำอธิบาย	:	การวิจัยเรื่องการสังเคราะห์เสียงพูดในภาษาไทย คือการแปลงข้อความภาษาไทยเป็น เสียงพูดในภาษาไทยแบบอัตโนมัติ โดยในการแปลงคำนั้นยังสามารถแปลงคำต่างๆ เช่น คำที่มี ความซับซ้อน, คำยกเว้น, คำย่อ, ตัวเลขและสัญลักษณ์ต่างๆ ได้ นอกจากนั้นการสังเคราะห์ เสียงพูดยังสามารถใช้ในกรณีที่การมองเห็นเป็นปัญหา ไม่ว่าจะเป็นการไม่สามารถมองเห็น หรือไม่สามารถใช้สายตาในการรับรู้ข้อมูลได้ อีกทั้งยังสามารถใช้ในกรณีที่ต้องการรับฟัง ข้อมูลจากระยะไกล เช่น ผ่านระบบโทรศัพท์ เป็นต้น ต้นแบบของการสังเคราะห์เสียงพูดในภาษาไทย ได้พัฒนาโดยใช้วิธีการ Time Domain Pitch-Synchronous Overlap and Add (TD-PSOLA) ระบบนี้จะประกอบไปด้วย 2 ส่วน หลักๆ ได้แก่ ส่วน text analysis และส่วน speech signal processing โดยส่วน text analysis จะทำการแปลงข้อความภาษาไทยให้เป็นสัญลักษณ์แทนเสียงพูด (Phonetic Unit Dexcription) ซึ่งประกอบไปด้วยหน่วยเสียง (Phonetic Unit) และรูปแบบการออกเสียง (Prosody Information) จากนั้นหน่วยเสียงเหล่านี้จะถูกนำมาประมวลผลโดยใช้หลักการของ TD-PSOLA สัญญาณเสียงจะถูกแยกเป็นหน่วยสัญญาณเสียงย่อยๆ ที่ซ้อนทับกัน โดยการนำสัญญาณ มาคูณกับ window function ซึ่งโดยทั่วไปจะใช้แบบ Hanning หรือ Hamming ซึ่งโดยทั่วไป แล้ว window function เหล่านี้จะถูกกำหนดจุดศูนย์กลางอยู่ที่ pitch-mark ของแต่ละหน่วย สัญญาณเสียงที่ซ้อนทับกันอยู่ โดยการหา pitch-mark นี้สามารถทำได้โดยการใช้วิธีการ pitch determination ทั่วไปได้ เช่น Autocorrelation, AMDF และ Cepstrum Analysis ใน การที่จะเพิ่มความถี่ของเสียงทำได้โดยการปรับระยะห่างระหว่าง pitch-mark ให้สั้นลง ใน ทางกลับกัน การลดความถี่เสียงก็สามารถทำได้โดยการเพิ่มหรือลดหน่วยของสัญญาณเสียงที่ซ้อน ทับกันอยู่ ซึ่งทำให้ความยาวของสัญญาณเสียงเปลี่ยนไป จากการเปลี่ยนแปลงความถี่ดังกล่าว ทำให้สามารถเปลี่ยนเสียงตามแนวแกนเวลาซึ่งมีผลให้สามารถผันเสียงเป็นวรรณยุกต์ต่างๆ ได้ โดยต้นแบบการสังเคราะห์เสียงพูดสามารถผันเสียงวรรณยุกต์ต่างๆ ในภาษาไทยครบทุกเสียง ได้แก่เสียงเอก, เสียงโท, เสียงตรีและเสียงจัตวา การทดลองการสังเคราะห์เสียงพูดในภาษาไทย โดยการสังเคราะห์เสียงพูดจากประโยค ตัวอย่าง ได้ทำการประเมินคุณภาพของเสียงที่ได้โดยวิธีการให้คะแนนตามความคิดเห็น (Mean Opinion Score) โดยมีปัจจัยในการประเมินผลได้แก่ การออกเสียงและสำเนียง (Pronunciation), การแยกแยะคำที่แตกต่าง (Distinctness), ความเป็นธรรมชาติ (Naturalness), รวมถึง ความสามารถในการรับฟังเป็นคำพูดของภาษานั้นๆ (Intelligibility) โดยการประเมินจะใช้ ผู้ฟังจำนวน 15 คน ซึ่งฟังในห้องฟังที่มีการควบคุมสภาวะแวดล้อม จากผลการทดลองแสดงให้เห็น ว่าเสียงพูดที่ได้จากระบบสามารถรับฟังว่าเป็นการออกเสียงในภาษาไทย โดยระบบสามารถออก เสียงคำส่วนใหญ่ที่อยู่ในรูปแบบ "พยัญชนะ-สระ-ตัวสะกด" ได้
บรรณานุกรม	:	APA Chicago MLA Vancouver ณัฐกิจ อังศุภากร . (2544). ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย. กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย. ณัฐกิจ อังศุภากร . 2544. "ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย". กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย. ณัฐกิจ อังศุภากร . "ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย." กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย, 2544. Print. ณัฐกิจ อังศุภากร . ต้นแบบการสังเคราะห์เสียงพูดในภาษาไทย. กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย; 2544.