ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

การปรับปรุงวิธีการค้นหาสายอักขระโดยใช้คุณสมบัติการกระจายของตัวอักษรในภาษา

หน่วยงาน ฐานข้อมูลวิทยานิพนธ์ไทย

รายละเอียด

ชื่อเรื่อง : การปรับปรุงวิธีการค้นหาสายอักขระโดยใช้คุณสมบัติการกระจายของตัวอักษรในภาษา
นักวิจัย : พรเทพ สุขศรีวิไลกุล
คำค้น : PATTERN MATCHING
หน่วยงาน : ฐานข้อมูลวิทยานิพนธ์ไทย
ผู้ร่วมงาน : -
ปีพิมพ์ : 2545
อ้างอิง : http://www.thaithesis.org/detail.php?id=46687
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

การค้นหาสายอักขระ (Pattern) บนข้อความ (Text) มีบทบาทสำคัญต่อระบบการ สืบค้นข้อมูลสารสนเทศ ตัวอย่างเช่นเป็นตัวช่วยค้นหาคำสำคัญอย่างละเอียด ในข้อมูลหรือ เอกสารที่สืบค้นมาได้ เป็นการกลั่นกรองข้อมูลที่เราต้องการอีกชั้นหนึ่ง ซึ่งในปัจจุบัน มีข้อมูลสารสนเทศอยู่ในระบบเป็นจำนวนมาก การมีวิธีการค้นหาสายอักขระที่มีประสิทธิภาพ จึงเป็นสิ่งสำคัญ ในการปรับปรุงวิธีการค้นหาสายอักขระที่เราพบในปัจจุบันจะกระทำกันอยู่สองลักษณะ คือ หาวิธีลดจำนวนการเปรียบเทียบตัวอักษร (Number of Characters Comparisons) และหาวิธีการเคลื่อนย้ายตัวแบบสายอักขระไปที่ตำแหน่งของการเปรียบเทียบถัดไปให้ได้ ระยะไกลที่สุด หรือเรียกอีกอย่างหนึ่งว่าการกระโดด (Jumping) อย่างไรก็ตามงานวิจัย ส่วนใหญ่ที่พบ ต่างก็มุ่งที่จะปรับปรุงในเรื่องของวิธีการเคลื่อนย้ายตัวแบบสายอักขระ ดังกล่าว มีการใช้การจัดวางตัวอักษรบนสายอักขระ มาช่วยในการคำนวณระยะกระโดด เช่น ที่เรารู้จักกันดีในชื่อของ Boyer Moores Jumping Mechanism ในขณะที่วิธีการจัด ลำดับในการเปรียบเทียบตัวอักษรที่ใช้อยู่ในปัจจุบันซึ่งเป็นลักษณะเรียงไปตามลำดับ ตำแหน่งของตัวอักษร (Sequential Ordering) มีปัญหาเกิดขึ้นคือ มีการเปรียบเทียบ ตัวอักษรที่เข้าคู่กัน (Match) ก่อน ทั้งๆ ที่มีตัวอักษรที่ไม่เข้าคู่กัน (Mismatch) ปรากฏอยู่ในสายอักขระที่เรากำลังทดสอบอยู่ ทำให้สูญเสียเวลาในการเปรียบเทียบตัว อักษรเหล่านั้นโดยไม่จำเป็น ในงานวิจัยฉบับนี้จึงทำการศึกษาการปรับปรุงวิธีการค้นหาสายอักขระดังกล่าว โดยมุ่งเน้นที่การลดจำนวนการเปรียบเทียบตัวอักษรบนสายอักขระกับข้อความให้น้อยลง จากแนวคิดที่เราสนใจคือการนำเอาคุณสมบัติการกระจายของตัวอักษรในภาษามาใช้ เราเรียก วิธีนี้ว่า การเปรียบเทียบโดยอาศัยการกระจายความถี่ของตัวอักษร (Characters Frequency Distribution Based Comparison - CFDC) ซึ่งจะใช้ปรับปรุงวิธีการค้นหาสายอักขระ ที่มีอยู่เดิม โดยการนำเอาวิธีนี้มาใช้ร่วมกับกลไกการกระโดด (Jumping Mechanism) ของวิธีการค้นหาเดิม ซึ่งเรียกวิธีที่ถูกปรับปรุงแล้วว่าวิธีการค้นหาสายอักขระด้วย การจัดลำดับการเปรียบเทียบแบบอาศัยการกระจายความถี่ของตัวอักษร (Pattern Matching Algorithms with CFDC) จากการทดลองพบว่า จำนวนการเปรียบเทียบตัวอักษร ในวิธีที่ถูกปรับปรุงลดน้อยลงโดยเฉลี่ย ร้อยละ 0.1 ถึง 24.9 เมื่อเทียบกับวิธีการ ค้นหาสายอักขระแบบเดิม

บรรณานุกรม :
พรเทพ สุขศรีวิไลกุล . (2545). การปรับปรุงวิธีการค้นหาสายอักขระโดยใช้คุณสมบัติการกระจายของตัวอักษรในภาษา.
    กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย.
พรเทพ สุขศรีวิไลกุล . 2545. "การปรับปรุงวิธีการค้นหาสายอักขระโดยใช้คุณสมบัติการกระจายของตัวอักษรในภาษา".
    กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย.
พรเทพ สุขศรีวิไลกุล . "การปรับปรุงวิธีการค้นหาสายอักขระโดยใช้คุณสมบัติการกระจายของตัวอักษรในภาษา."
    กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย, 2545. Print.
พรเทพ สุขศรีวิไลกุล . การปรับปรุงวิธีการค้นหาสายอักขระโดยใช้คุณสมบัติการกระจายของตัวอักษรในภาษา. กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย; 2545.