ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้

หน่วยงาน ฐานข้อมูลวิทยานิพนธ์ไทย

รายละเอียด

ชื่อเรื่อง : การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้
นักวิจัย : หัชทัย ชาญเลขา
คำค้น : -
หน่วยงาน : ฐานข้อมูลวิทยานิพนธ์ไทย
ผู้ร่วมงาน : -
ปีพิมพ์ : 2546
อ้างอิง : http://www.thaithesis.org/detail.php?id=1162546000691
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

การสกัดนิพจน์ระบุนาม (Named Entity) หรือ NE คือ กระบวนการในการระบุตำแหน่งรวมทั้งประเภทของนิพจน์ที่ทำหน้าที่ระบุชี้เฉพาะถึงสิ่งใด ๆ เช่น ชื่อบุคคลชื่อองค์กร ชื่อสถานที่ รวมไปถึงข้อความแสดงวันเวลา ปริมาณเงินและเปอร์เซ็นต์ เป็นต้นการสกัด NE เป็นขั้นตอนที่สำคัญสำหรับการพัฒนาระบบประมวลผลเอกสารขั้นสูง เช่นระบบสกัดข้อสนเทศ เป็นต้น อย่างไรก็ดี NE มักก่อให้เกิดปัญหาต่อการประมวลผลเอกสารเนื่องจาก NE เกิดขึ้นใหม่ได้ไม่จำกัด และมักไม่ปรากฏในพจนานุกรม ดังนั้นระบบประมวลผลเอกสารจึงถือว่า NE เป็นคำไม่รู้จัก ด้วยเหตุนี้ระบบสกัด NE จึงถูกพัฒนาขึ้นเพื่อทำหน้าที่วิเคราะห์นิพจน์เหล่านี้ ในการสกัด NE นั้น ประกอบไปด้วยการแก้ปัญหาใน2 ส่วน ได้แก่ ปัญหาการระบุตำแหน่งและขอบเขตของ NE และปัญหาการแบ่งประเภทของ NEสำหรับภาษาไทย ปัญหาทั้ง 2 ประการนี้ ไม่สามารถแก้ไขได้โดยง่าย ทั้งนี้เนื่องมาจากคุณลักษณะของภาษา ได้แก่ภาษาไทยไม่มีลักษณะตัวอักษร ที่ช่วยบ่งชี้ตำแหน่งของ NEในเอกสารเช่นการใช้ตัวอักษรพิมพ์ใหญ่ในภาษาอังกฤษ นอกจากนี้ ภาษาไทยยังไม่มีเครื่องหมายใด ๆ เพื่อแบ่งขอบเขตระหว่างคำ วิทยานิพนธ์นี้ มีวัตถุประสงค์เพื่อพัฒนาแนวทางการสกัด NE แบบผสม ที่สามารถสกัด NE ภาษาไทยได้อย่างมีประสิทธิภาพ โดยใช้การคำนวณเชิงสถิติจากการฝึกฝนระบบด้วยเทคนิคแบบจำลองแมกซิมั่ม เอนโทรปี รวมกับการใช้ฐานความรู้ ได้แก่กฎ และคลังคำศัพท์ ขั้นตอนการสกัด NE จะแบ่งออกเป็น 3 ขั้นตอน โดยขั้นตอนแรกทำหน้าที่สกัด NEแบบหลายคำทั้งหมดที่เป็นไปได้ โดยใช้ฮิวริสติก ร่วมกับฐานความรู้และข้อมูลเชิงสถิติขั้นตอนที่สอง ทำหน้าที่สกัด NE แบบคำเดี่ยว รวมทั้งตรวจสอบหรือเลือกคำตอบที่ดีที่สุดในกรณีที่คำตอบที่ได้จากขั้นตอนแรกมีความคลุมเครือด้วยเทคนิคแบบจำลองแมกซิมั่มเอนโทรปี สำหรับขั้นตอนสุดท้าย เป็นการเพิ่มประสิทธิภาพของระบบด้วยการเปรียบเทียบระหว่างคำในเอกสารกับ NE ที่สกัดได้แล้ว เพื่อสกัด NE ที่ยังคงเหลืออยู่ ในการทดลองวัดประสิทธิภาพของระบบโดยใช้คลังเอกสารในโดเมนข่าวการเมืองสำหรับการเรียนรู้และทดสอบ พบว่า ประสิทธิภาพของระบบในการสกัด NE ประเภทชื่อบุคคลชื่อองค์กร และชื่อสถานที่ ให้ค่า F เป็น 91.61% 88.53% และ 83.17% ตามลำดับ

บรรณานุกรม :
หัชทัย ชาญเลขา . (2546). การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้.
    กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย.
หัชทัย ชาญเลขา . 2546. "การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้".
    กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย.
หัชทัย ชาญเลขา . "การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้."
    กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย, 2546. Print.
หัชทัย ชาญเลขา . การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้. กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย; 2546.