การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้

ridm@nrct.go.th ระบบคลังข้อมูลงานวิจัยไทย รายการโปรดที่คุณเลือกไว้

การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้

หน่วยงาน ฐานข้อมูลวิทยานิพนธ์ไทย

รายละเอียด

ชื่อเรื่อง	:	การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้
นักวิจัย	:	หัชทัย ชาญเลขา
คำค้น	:	-
หน่วยงาน	:	ฐานข้อมูลวิทยานิพนธ์ไทย
ผู้ร่วมงาน	:	-
ปีพิมพ์	:	2546
อ้างอิง	:	http://www.thaithesis.org/detail.php?id=1162546000691
ที่มา	:	-
ความเชี่ยวชาญ	:	-
ความสัมพันธ์	:	-
ขอบเขตของเนื้อหา	:	-
บทคัดย่อ/คำอธิบาย	:	การสกัดนิพจน์ระบุนาม (Named Entity) หรือ NE คือ กระบวนการในการระบุตำแหน่งรวมทั้งประเภทของนิพจน์ที่ทำหน้าที่ระบุชี้เฉพาะถึงสิ่งใด ๆ เช่น ชื่อบุคคลชื่อองค์กร ชื่อสถานที่ รวมไปถึงข้อความแสดงวันเวลา ปริมาณเงินและเปอร์เซ็นต์ เป็นต้นการสกัด NE เป็นขั้นตอนที่สำคัญสำหรับการพัฒนาระบบประมวลผลเอกสารขั้นสูง เช่นระบบสกัดข้อสนเทศ เป็นต้น อย่างไรก็ดี NE มักก่อให้เกิดปัญหาต่อการประมวลผลเอกสารเนื่องจาก NE เกิดขึ้นใหม่ได้ไม่จำกัด และมักไม่ปรากฏในพจนานุกรม ดังนั้นระบบประมวลผลเอกสารจึงถือว่า NE เป็นคำไม่รู้จัก ด้วยเหตุนี้ระบบสกัด NE จึงถูกพัฒนาขึ้นเพื่อทำหน้าที่วิเคราะห์นิพจน์เหล่านี้ ในการสกัด NE นั้น ประกอบไปด้วยการแก้ปัญหาใน2 ส่วน ได้แก่ ปัญหาการระบุตำแหน่งและขอบเขตของ NE และปัญหาการแบ่งประเภทของ NEสำหรับภาษาไทย ปัญหาทั้ง 2 ประการนี้ ไม่สามารถแก้ไขได้โดยง่าย ทั้งนี้เนื่องมาจากคุณลักษณะของภาษา ได้แก่ภาษาไทยไม่มีลักษณะตัวอักษร ที่ช่วยบ่งชี้ตำแหน่งของ NEในเอกสารเช่นการใช้ตัวอักษรพิมพ์ใหญ่ในภาษาอังกฤษ นอกจากนี้ ภาษาไทยยังไม่มีเครื่องหมายใด ๆ เพื่อแบ่งขอบเขตระหว่างคำ วิทยานิพนธ์นี้ มีวัตถุประสงค์เพื่อพัฒนาแนวทางการสกัด NE แบบผสม ที่สามารถสกัด NE ภาษาไทยได้อย่างมีประสิทธิภาพ โดยใช้การคำนวณเชิงสถิติจากการฝึกฝนระบบด้วยเทคนิคแบบจำลองแมกซิมั่ม เอนโทรปี รวมกับการใช้ฐานความรู้ ได้แก่กฎ และคลังคำศัพท์ ขั้นตอนการสกัด NE จะแบ่งออกเป็น 3 ขั้นตอน โดยขั้นตอนแรกทำหน้าที่สกัด NEแบบหลายคำทั้งหมดที่เป็นไปได้ โดยใช้ฮิวริสติก ร่วมกับฐานความรู้และข้อมูลเชิงสถิติขั้นตอนที่สอง ทำหน้าที่สกัด NE แบบคำเดี่ยว รวมทั้งตรวจสอบหรือเลือกคำตอบที่ดีที่สุดในกรณีที่คำตอบที่ได้จากขั้นตอนแรกมีความคลุมเครือด้วยเทคนิคแบบจำลองแมกซิมั่มเอนโทรปี สำหรับขั้นตอนสุดท้าย เป็นการเพิ่มประสิทธิภาพของระบบด้วยการเปรียบเทียบระหว่างคำในเอกสารกับ NE ที่สกัดได้แล้ว เพื่อสกัด NE ที่ยังคงเหลืออยู่ ในการทดลองวัดประสิทธิภาพของระบบโดยใช้คลังเอกสารในโดเมนข่าวการเมืองสำหรับการเรียนรู้และทดสอบ พบว่า ประสิทธิภาพของระบบในการสกัด NE ประเภทชื่อบุคคลชื่อองค์กร และชื่อสถานที่ ให้ค่า F เป็น 91.61% 88.53% และ 83.17% ตามลำดับ
บรรณานุกรม	:	APA Chicago MLA Vancouver หัชทัย ชาญเลขา . (2546). การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้. กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย. หัชทัย ชาญเลขา . 2546. "การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้". กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย. หัชทัย ชาญเลขา . "การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้." กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย, 2546. Print. หัชทัย ชาญเลขา . การสกัดนิพจน์ระบุนามในภาษาไทย โดยใช้แบบจำลองทางสถิติร่วมกับฐานความรู้. กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย; 2546.