การพัฒนาและปรับปรุงวิธีการสืบค้นข้อมูลจากฐานข้อมูลการแพทย์ไทย

ridm@nrct.go.th ระบบคลังข้อมูลงานวิจัยไทย รายการโปรดที่คุณเลือกไว้

การพัฒนาและปรับปรุงวิธีการสืบค้นข้อมูลจากฐานข้อมูลการแพทย์ไทย

หน่วยงาน สำนักงานกองทุนสนับสนุนการวิจัย

รายละเอียด

ชื่อเรื่อง	:	การพัฒนาและปรับปรุงวิธีการสืบค้นข้อมูลจากฐานข้อมูลการแพทย์ไทย
นักวิจัย	:	ภคินี เอมมณี
คำค้น	:	information retrieval , k gram , Multimodel similarity aggregation , Sn
หน่วยงาน	:	สำนักงานกองทุนสนับสนุนการวิจัย
ผู้ร่วมงาน	:	-
ปีพิมพ์	:	2554
อ้างอิง	:	http://elibrary.trf.or.th/project_content.asp?PJID=MRG5080273 , http://research.trf.or.th/node/6331
ที่มา	:	-
ความเชี่ยวชาญ	:	-
ความสัมพันธ์	:	-
ขอบเขตของเนื้อหา	:	-
บทคัดย่อ/คำอธิบาย	:	$s$-gram หรือ $s_{n,k}$-gram เป็นการโมเดล $n$-gram ให้อยู่ในรูปแบบทั่วไปโดย $n$- gram นี้ยอมให้มีคำไม่ปรากฎใน$n$-gramตั้งต้น วารสารนี้เสนอโครงงานในการรวมหลายๆ ค่าความเหมือนของเอกสารกับสิ่งที่ต้องการค้นหาจากหลายๆ$s_{n,k}$-gramโดยเปลี่ยนค่า n และ k ให้เกิดความหลากหลาย การเพิ่มนาหนักของค่าความเหมือนจาก s_{n,k}$-gramจากแต ละโมเดลของ$s_{n,k}$-gramช่วยให้เกิดการหาค่าความเหมือนระหว่างเอกสารกับสิ่งที่ต้องการ ค้นหาได้ดียิ่งขึ้นถึงแม้ว่าเอกสารกับสิ่งที่ต้องการค้นหาจะไม่เหมือนกันตรงๆเนื่องจากมีคำอื่นๆ แทรกเข้ามาเยอะในเอกสารหรือสิ่งที่ต้องการค้นหา ในการทดลอง เราใช้3วิธีที่ต่างกันในการให้ น้าหนักในการหาค่าความเหมือนของเอกสารกับสิ่งที่ต้องการค้นหาจากหลายๆ $s_{n,k}$-gram กลุ่มของเอกสารทางด้านการแพทย์จานวน2กลุ่มซึ่งแตกต่างกันทางด้านภาษาที่ใช้ โดยกลุ่ม หนึ่งเป็นเอกสารที่เป็นภาษาอังกฤษ และอีกกลุ่มหนึ่งเป็นเอกสารที่เป็นภาษาไทย ผลการ ทดลองแสดงให้เห็นว่าวิธีที่เราเสนอนี้ดีขึ้นอย่างชัดเจนจากวิธีดั้งเดิมที่ใช้โมเดล 1-gram และ 2- gram The $s$-gram or $s_{n,k}$-gram is a generalization of $n$-gram term modeling obtained by allowing $k$-term skipping in the $n$-gram representation. This paper presents a framework of a multi-modal $s_{n,k}$-gram similarity combination, a combination of similarities between a document and a query encoded with several $s_{n,k}$-grams with various $n$ and $k$. Adjusting weights in the similarity aggregation enables us to create a suitable approximate matching model between a relevant document and a query although such document does not include any exact terms as in the query or vice versa. In the experiments, three different types of weightings are used and compared in the combination of similarities between a document and a query each of which is encoded with a multi-modal $s_{n,k}$-gram. Two collections of medical documents that are alike in context but different in written languages (English and Thai) are the testing domain. The result shows that the proposed approach significantly outperforms the conventional approaches such as the unigram and bigram models.
บรรณานุกรม	:	APA Chicago MLA Vancouver ภคินี เอมมณี . (2554). การพัฒนาและปรับปรุงวิธีการสืบค้นข้อมูลจากฐานข้อมูลการแพทย์ไทย. กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย. ภคินี เอมมณี . 2554. "การพัฒนาและปรับปรุงวิธีการสืบค้นข้อมูลจากฐานข้อมูลการแพทย์ไทย". กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย. ภคินี เอมมณี . "การพัฒนาและปรับปรุงวิธีการสืบค้นข้อมูลจากฐานข้อมูลการแพทย์ไทย." กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย, 2554. Print. ภคินี เอมมณี . การพัฒนาและปรับปรุงวิธีการสืบค้นข้อมูลจากฐานข้อมูลการแพทย์ไทย. กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย; 2554.