| ชื่อเรื่อง | : | การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้ |
| นักวิจัย | : | หัชทัย ชาญเลขา |
| คำค้น | : | - |
| หน่วยงาน | : | ฐานข้อมูลวิทยานิพนธ์ไทย |
| ผู้ร่วมงาน | : | - |
| ปีพิมพ์ | : | 2546 |
| อ้างอิง | : | http://www.thaithesis.org/detail.php?id=1162546000691 |
| ที่มา | : | - |
| ความเชี่ยวชาญ | : | - |
| ความสัมพันธ์ | : | - |
| ขอบเขตของเนื้อหา | : | - |
| บทคัดย่อ/คำอธิบาย | : | การสกัดนิพจน์ระบุนาม (Named Entity) หรือ NE คือ กระบวนการในการระบุตำแหน่งรวมทั้งประเภทของนิพจน์ที่ทำหน้าที่ระบุชี้เฉพาะถึงสิ่งใด ๆ เช่น ชื่อบุคคลชื่อองค์กร ชื่อสถานที่ รวมไปถึงข้อความแสดงวันเวลา ปริมาณเงินและเปอร์เซ็นต์ เป็นต้นการสกัด NE เป็นขั้นตอนที่สำคัญสำหรับการพัฒนาระบบประมวลผลเอกสารขั้นสูง เช่นระบบสกัดข้อสนเทศ เป็นต้น อย่างไรก็ดี NE มักก่อให้เกิดปัญหาต่อการประมวลผลเอกสารเนื่องจาก NE เกิดขึ้นใหม่ได้ไม่จำกัด และมักไม่ปรากฏในพจนานุกรม ดังนั้นระบบประมวลผลเอกสารจึงถือว่า NE เป็นคำไม่รู้จัก ด้วยเหตุนี้ระบบสกัด NE จึงถูกพัฒนาขึ้นเพื่อทำหน้าที่วิเคราะห์นิพจน์เหล่านี้ ในการสกัด NE นั้น ประกอบไปด้วยการแก้ปัญหาใน2 ส่วน ได้แก่ ปัญหาการระบุตำแหน่งและขอบเขตของ NE และปัญหาการแบ่งประเภทของ NEสำหรับภาษาไทย ปัญหาทั้ง 2 ประการนี้ ไม่สามารถแก้ไขได้โดยง่าย ทั้งนี้เนื่องมาจากคุณลักษณะของภาษา ได้แก่ภาษาไทยไม่มีลักษณะตัวอักษร ที่ช่วยบ่งชี้ตำแหน่งของ NEในเอกสารเช่นการใช้ตัวอักษรพิมพ์ใหญ่ในภาษาอังกฤษ นอกจากนี้ ภาษาไทยยังไม่มีเครื่องหมายใด ๆ เพื่อแบ่งขอบเขตระหว่างคำ วิทยานิพนธ์นี้ มีวัตถุประสงค์เพื่อพัฒนาแนวทางการสกัด NE แบบผสม ที่สามารถสกัด NE ภาษาไทยได้อย่างมีประสิทธิภาพ โดยใช้การคำนวณเชิงสถิติจากการฝึกฝนระบบด้วยเทคนิคแบบจำลองแมกซิมั่ม เอนโทรปี รวมกับการใช้ฐานความรู้ ได้แก่กฎ และคลังคำศัพท์ ขั้นตอนการสกัด NE จะแบ่งออกเป็น 3 ขั้นตอน โดยขั้นตอนแรกทำหน้าที่สกัด NEแบบหลายคำทั้งหมดที่เป็นไปได้ โดยใช้ฮิวริสติก ร่วมกับฐานความรู้และข้อมูลเชิงสถิติขั้นตอนที่สอง ทำหน้าที่สกัด NE แบบคำเดี่ยว รวมทั้งตรวจสอบหรือเลือกคำตอบที่ดีที่สุดในกรณีที่คำตอบที่ได้จากขั้นตอนแรกมีความคลุมเครือด้วยเทคนิคแบบจำลองแมกซิมั่มเอนโทรปี สำหรับขั้นตอนสุดท้าย เป็นการเพิ่มประสิทธิภาพของระบบด้วยการเปรียบเทียบระหว่างคำในเอกสารกับ NE ที่สกัดได้แล้ว เพื่อสกัด NE ที่ยังคงเหลืออยู่ ในการทดลองวัดประสิทธิภาพของระบบโดยใช้คลังเอกสารในโดเมนข่าวการเมืองสำหรับการเรียนรู้และทดสอบ พบว่า ประสิทธิภาพของระบบในการสกัด NE ประเภทชื่อบุคคลชื่อองค์กร และชื่อสถานที่ ให้ค่า F เป็น 91.61% 88.53% และ 83.17% ตามลำดับ |
| บรรณานุกรม | : |
หัชทัย ชาญเลขา . (2546). การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้.
กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย. หัชทัย ชาญเลขา . 2546. "การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้".
กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย. หัชทัย ชาญเลขา . "การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้."
กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย, 2546. Print. หัชทัย ชาญเลขา . การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้. กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย; 2546.
|
