ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส

หน่วยงาน จุฬาลงกรณ์มหาวิทยาลัย

รายละเอียด

ชื่อเรื่อง : การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส
นักวิจัย : นัชชา ถิระสาโรช
คำค้น : การรู้จำอักขระ (คอมพิวเตอร์) , ภาษาไทย -- หน่วยคำ -- แบบจำลองทางคอมพิวเตอร์ , แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส
หน่วยงาน : จุฬาลงกรณ์มหาวิทยาลัย
ผู้ร่วมงาน : วิโรจน์ อรุณมานะกุล , จุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์
ปีพิมพ์ : 2553
อ้างอิง : http://cuir.car.chula.ac.th/handle/123456789/20802
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

วิทยานิพนธ์(อ.ม.)---จุฬาลงกรณ์มหาวิทยาลัย, 2553

วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์เพื่อพัฒนาระบบการรู้จำชื่อเฉพาะภาษาไทยโดยใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์สโมเดล (CRFs) และศึกษาเปรียบเทียบประสิทธิภาพของระบบการรู้จำชื่อเฉพาะภาษาไทยระหว่างแบบจำลองที่รับข้อมูลเข้าเป็นพยางค์กับที่รับข้อมูลเข้าเป็นคำ งานวิจัยนี้ใช้คลังข้อมูลข่าวขนาด 367,673 คำ ประกอบด้วยชื่อเฉพาะทั้งหมด 16,179 ชื่อ แบบจำลองที่ใช้คือ CRF++ เวอร์ชัน 0.53 ทั้งระบบที่รับข้อมูลเข้าเป็นคำและพยางค์ใช้คุณสมบัติแบบเดียวกัน ได้แก่ คุณสมบัติรายการชื่อเฉพาะ คุณสมบัติคำย่อ คุณสมบัติคำบริบท คุณสมบัติคำทั่วไป คุณสมบัติค่าทางสถิติ และคุณสมบัติ unigram และ bigram การเรียนรู้ของระบบเป็นแบบ supervised learning คือมีการให้คำตอบในคลังข้อมูลสำหรับฝึกฝน คำตอบที่ใช้มีทั้งหมด 5 แบบ โดยแบบที่ 1 มีข้อมูลขอบเขตของชื่อเฉพาะน้อยที่สุดและแบบที่ 5 มีข้อมูลขอบเขตของชื่อเฉพาะมากที่สุด พบว่าแบบคำตอบที่ให้ข้อมูลมากช่วยให้ประสิทธิภาพของทั้งสองระบบดีกว่าแบบคำตอบที่ให้ข้อมูลน้อย จากผลการทดสอบระบบ พบว่า ประสิทธิภาพของระบบที่ใช้ข้อมูลตัดคำและตัดพยางค์ไม่ต่างกัน โดยมีค่าความถูกต้อง (F-measure) เท่ากัน คือ 81.30% จากคุณสมบัติทั้งหมด พบว่า คุณสมบัติ unigram และ bigram สนับสนุนระบบที่ใช้ข้อมูลตัดพยางค์มากที่สุด และคุณสมบัติรายการชื่อเฉพาะสนับสนุนระบบที่ใช้ข้อมูลตัดคำมากที่สุด เมื่อนำข้อมูลมาผ่านกระบวนการประมวลผลภายหลังแล้ว ช่วยให้ค่าความครบถ้วนของทั้งสองระบบมากขึ้นจากเดิม 77.64% เป็น 80.15% และ 80.06% ในข้อมูลตัดคำและตัดพยางค์ตามลำดับ

บรรณานุกรม :
นัชชา ถิระสาโรช . (2553). การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส.
    กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย.
นัชชา ถิระสาโรช . 2553. "การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส".
    กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย.
นัชชา ถิระสาโรช . "การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส."
    กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย, 2553. Print.
นัชชา ถิระสาโรช . การรู้จำชื่อเฉพาะภาษาไทย: การใช้แบบจำลองคอนดิชันนอลแรนดอมฟิลด์ส. กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย; 2553.