การจำแนกเสียงวรรณยุกต์และผลกระทบที่มีต่อการออกแบบระบบรู้จำเสียงพูดอัตโนมัติชนิดไม่จำกัดผู้พูดสำหรับภาษาไทยแบบต่อเนื่อง

ridm@nrct.go.th ระบบคลังข้อมูลงานวิจัยไทย รายการโปรดที่คุณเลือกไว้

การจำแนกเสียงวรรณยุกต์และผลกระทบที่มีต่อการออกแบบระบบรู้จำเสียงพูดอัตโนมัติชนิดไม่จำกัดผู้พูดสำหรับภาษาไทยแบบต่อเนื่อง

หน่วยงาน สำนักงานกองทุนสนับสนุนการวิจัย

รายละเอียด

ชื่อเรื่อง	:	การจำแนกเสียงวรรณยุกต์และผลกระทบที่มีต่อการออกแบบระบบรู้จำเสียงพูดอัตโนมัติชนิดไม่จำกัดผู้พูดสำหรับภาษาไทยแบบต่อเนื่อง
นักวิจัย	:	ศิริพงษ์ โพธิสุข
คำค้น	:	Prosody , Thai speech recognition , Thai speech synthesis , Tone classification , การจำแนกเสียงพูดภาษาอัติโนมัติ , การจำแนกเสียงวรรณยุกต์ , การสังเคราะห์เสียงพูด
หน่วยงาน	:	สำนักงานกองทุนสนับสนุนการวิจัย
ผู้ร่วมงาน	:	-
ปีพิมพ์	:	2545
อ้างอิง	:	http://elibrary.trf.or.th/project_content.asp?PJID=RSA4180003 , http://research.trf.or.th/node/1583
ที่มา	:	-
ความเชี่ยวชาญ	:	-
ความสัมพันธ์	:	-
ขอบเขตของเนื้อหา	:	-
บทคัดย่อ/คำอธิบาย	:	งานวิจัยฉบับนี้มุ่งเน้นที่จะศึกษาขบวนการจำแนกเสียงวรรณยุกต์ในภาษาไทยแบบต่อเนื่องและผลกระทบที่มีต่อการออกแบบระบบรู้จำเสียงพูดอัตโนมัติ การจำแนกเสียงวรรณยุกต์นั้นถือว่าเป็นขั้นตอนหนึ่งที่มีความสำคัญต่อการออกแบบระบบดังกล่าว ทั้งนี้เนื่องจากภาษาไทยเป็นภาษาวรรณยุกต์ ความแตกต่างของความหมายของพยางค์ในภาษาไทยขึ้นอยู่กับเสียงวรรณยุกต์เป็นส่วนใหญ่ งานวิจัยฉบับนี้แบ่งออกเป็นสามส่วนใหญ่ๆ ดังนี้ งานวิจัยในส่วนที่หนึ่งเป็นการดำเนินการทดลองทางสัทศาสตร์สองการทดลอง การทดลองที่หนึ่งมีความมุ่งหมายที่จะศึกษาการเปลี่ยนแปลงรูปแบบเส้นโค้งความถี่พื้นฐานของพยางค์ภายใต้อิทธิพลของการเน้นเสียงหนักเบาในประโยค ส่วนการทดลองที่สองเป็นการศึกษาผลกระทบของปฎิสัมพันธ์ระหว่างการเน้นเสียงหนักเบาและการผสมผสานกันของเส้นโค้งความถี่พื้นฐานของวรรณยุกต์ติดกันในประโยค ผลการทดลองที่ได้จากการทดลองทั้งสองจะเป็นประโยชน์ต่อการออดแบบตัวจำแนกเสียงวรรณยุกต์อัติโนมัติซึ่งเป็นงานในส่วนที่สองต่อไป ในส่วนที่สอง ผู้วิจัยได้ทำการพัฒนาและปรับปรุงตัวจำแนกเสียงวรรณยุกต์ซึ่งอาศัยหลักการการวิเคราะห์จากการสังเคราะห์ โดยผู้วิจัยสามารถสร้างกฏเกณฑ์ทางภาษาศาสตร์ที่เกี่ยวข้องกับการแปรเปลี่ยนเส้นโค้งความถี่พื้นฐานของแต่ละเสียงวรรณยุกต์ อาทิเช่น ความต่อเนื่องของเส้นโค้ง ความถี่อันเนื่องมาจากเสียงโฆษะ การเน้นเสียงหนักเบา การผสมผสานของเส้นโค้งความถี่ และการถดถอย ตัวจำแนกเสียงวรรณยุกต์ที่มีความถูกต้องแม่นยำ 81.7% นอกจากนี้ผู้วิจัยยังไดพัฒนาในส่วนของการสังเคราะห์ท่วงทำนองเสียงของระบบสังเคราะห์เสียงอัติโนมัติอีกด้วย โดยอาศัยแบบจำลองทางคณิตศาสตร์ของเส้นโค้งความถี่พื้นฐานที่ปรับปรุงจากแบบจำลองของฟูจิซากิ ส่วนสุดท้ายของงานวิจัยฉบับนี้มุ่งเน้นที่จะตอบคำถามเกี่ยวกับวิธีที่ดีที่สุดในการออกแบบระบบพูดจำเสียงพูดภาษาไทยอัติโนมัติ โดยเฉพาะอย่างยิ่งบทบาทและหน้าที่ของตัวจำแนกเสียงวรรณยุกต์ที่มีต่อระบบโดยรวม ผู้วิจัยนำเสนอคำตอบในรูปของตัวถอดรหัสคำ ซึ่งมีส่วนประกอบหลัก ๆสามส่วน เนื่องจากเวลาและทรัพยากรการวิจัยที่จำกัด ทำให้ผู้วิจัยไม่สามารถทำการจำลองระบบแบบเต็มรูปแบบได้ ส่งผลให้ไม่สามารถประเมินประสิทธิภาพของระบบโดยรวมได้ This research is aimed at studying the process of classifying Thai tones in connected speech and how the process affects the design of a Thai automatic speech recognition (ASR) system. Tone classification is considered one of the crucial components of the system because tone is a distinctive feature of Thai, which helps signal differences in lexical meaning. Every Thai syllable carries a lexically- contrastive tone. This research is divided into the following three major parts: First, two acoustic experiments were designed to empirically study the acoustic characteristics of stressed and unstressed syllables in terms of their F0 realization and the effects the interactions between stress and tonal coarticulation have on the height and shape of F0 contours. Findings were used to guide the implementation of a tone classifier. In the second part, and analysis-by-synthesis approach to tone classification have been modified to account for all of the linguistic factors affecting Fj0 contours of Thai tones in continuous speech. They are: continuity effect due to syllable structure, stress, tonal coarticulation, and declination. Our tone classifier achieved 81.7% accuracy. We also addressed the prosody generation aspect of a Thai text-to-speech system using our mathematical model for F0 contours, which is based on an extension to Fujisaki’s model. The final portion of this research deals with the question of how to best integrate the tone classification process into a design of a Thai ASR system. The integration process collectively results in a component called a lexical decoder. We propose a novel three-stage lexical decoder utilizing successive hidden Markov models. Due to limited time and resources at our disposal, we were unable to implement a full-scale design, and thus, were unable to assess the performance of the system.
บรรณานุกรม	:	APA Chicago MLA Vancouver ศิริพงษ์ โพธิสุข . (2545). การจำแนกเสียงวรรณยุกต์และผลกระทบที่มีต่อการออกแบบระบบรู้จำเสียงพูดอัตโนมัติชนิดไม่จำกัดผู้พูดสำหรับภาษาไทยแบบต่อเนื่อง. กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย. ศิริพงษ์ โพธิสุข . 2545. "การจำแนกเสียงวรรณยุกต์และผลกระทบที่มีต่อการออกแบบระบบรู้จำเสียงพูดอัตโนมัติชนิดไม่จำกัดผู้พูดสำหรับภาษาไทยแบบต่อเนื่อง". กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย. ศิริพงษ์ โพธิสุข . "การจำแนกเสียงวรรณยุกต์และผลกระทบที่มีต่อการออกแบบระบบรู้จำเสียงพูดอัตโนมัติชนิดไม่จำกัดผู้พูดสำหรับภาษาไทยแบบต่อเนื่อง." กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย, 2545. Print. ศิริพงษ์ โพธิสุข . การจำแนกเสียงวรรณยุกต์และผลกระทบที่มีต่อการออกแบบระบบรู้จำเสียงพูดอัตโนมัติชนิดไม่จำกัดผู้พูดสำหรับภาษาไทยแบบต่อเนื่อง. กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย; 2545.