| ชื่อเรื่อง | : | การออกแบบแฟ้มผกผันเพื่อการค้นคืนข้อความไทย |
| นักวิจัย | : | สมชาย ประสิทธิ์จูตระกูล |
| คำค้น | : | แฟ้มดัชนี , ระบบการจัดเก็บและค้นข้อสนเทศ |
| หน่วยงาน | : | จุฬาลงกรณ์มหาวิทยาลัย |
| ผู้ร่วมงาน | : | จุฬาลงกรณ์มหาวิทยาลัย. ภาควิชาวิศวกรรมคอมพิวเตอร์ |
| ปีพิมพ์ | : | 2541 |
| อ้างอิง | : | http://cuir.car.chula.ac.th/handle/123456789/5608 |
| ที่มา | : | - |
| ความเชี่ยวชาญ | : | - |
| ความสัมพันธ์ | : | - |
| ขอบเขตของเนื้อหา | : | - |
| บทคัดย่อ/คำอธิบาย | : | งานวิจัยนี้นำเสนอขั้นตอนวิธีการหาคำเพื่อจัดทำดัชนีสำหรับระบบการค้นคืนข้อความไทยที่ใช้โครงสร้างแฟ้มผกผัน โดยอาศัยพจนานุกรมช่วยในการแยกคำ และยังสามารถจัดการกับกรณีที่ข้อความที่ได้รับมีคำที่ไม่ปรากฏพจนานุกรม อาทิเช่นคำทับศัพท์ หรือคำที่สะกดผิดเป็นต้น โดยอาศัยกฎการแบ่งพยางค์ข้อความไทย ขั้นตอนวิธีนี้จำลองปัญหาด้วยกราฟการต่อและซ้อนกันของคำ ซึ่งมีโหนดแทนคำและเส้นเชื่อมแทนการต่อหรือซ้อนกันของคำ โดยมีเส้นทางสั้นสุดจากซ้ายไปขวาในกราฟนี้ แทนรายการคำพื้นฐานที่ควรถูกจัดทำดัชนีสำหรับแฟ้มผกผันเวลาการทำงานของการหาคำนี้เป็น O(n[superscript 2] ) โดยที่ n คือความยาวข้อความ ขั้นตอนวิธีนี้จะถูกใช้ทั้งในขั้นตอนการเตรียมเอกสารก่อนการทำดัชนี และการประมวลข้อคำถามก่อนการสืบค้น ผลการทดลองพบว่าจำนวนคำที่หาได้เพื่อทำดัชนีนั้นมีจำนวนประมาณ 30-50% ของจำนวนคำที่เป็นไปได้ทั้งหมดที่ปรากฏในข้อความทดสอบ นอกจากนี้งานวิจัยนี้ยังได้นำเสนอขั้นตอนวิธีในการเข้ารหัสคำทับศัพท์ เพื่อรองรับการค้นคืนคำทับศัพท์ข้ามภาษาจากอังกฤษมาไทย นั่นคือระบบสามารถค้นคืนเอกสารที่มีคำสำคัญภาษาอังกฤษ หรือคำทับศัพท์เป็นภาษาไทยของคำอังกฤษนั้น การเข้ารหัสนี้ปรับปรุงวิธีการเข้ารหัสเสียงและตารางการเข้ารหัสในระบบซาวน์เดกซ์ วิธีนี้ใช้เวลาการเข้ารหัสแปรเชิงเส้นตามความยาว จากผลที่ได้จากการทดลองพบว่าได้ค่าเรียกคืนและความแม่นยำมากกว่า 80% เมื่อจำกัดการพิจารณาเฉพาะคำที่รหัสเสียงมีความยาวเกิน 4 |
| บรรณานุกรม | : |
สมชาย ประสิทธิ์จูตระกูล . (2541). การออกแบบแฟ้มผกผันเพื่อการค้นคืนข้อความไทย.
กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย. สมชาย ประสิทธิ์จูตระกูล . 2541. "การออกแบบแฟ้มผกผันเพื่อการค้นคืนข้อความไทย".
กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย. สมชาย ประสิทธิ์จูตระกูล . "การออกแบบแฟ้มผกผันเพื่อการค้นคืนข้อความไทย."
กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย, 2541. Print. สมชาย ประสิทธิ์จูตระกูล . การออกแบบแฟ้มผกผันเพื่อการค้นคืนข้อความไทย. กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย; 2541.
|
