| ชื่อเรื่อง | : | การจำแนกประเภทเว็บเพจโดยใช้เทคนิคการเรียนรู้ของเครื่อง |
| นักวิจัย | : | นวลวรรณ สุนทรภิษัช |
| คำค้น | : | Machine Learning Technique , Web Page Categorization , การจำแนกประเภท , เทคนิคการเรียนรู้ของเครื่อง , เว็บเพจ |
| หน่วยงาน | : | สำนักงานกองทุนสนับสนุนการวิจัย |
| ผู้ร่วมงาน | : | - |
| ปีพิมพ์ | : | 2549 |
| อ้างอิง | : | http://elibrary.trf.or.th/project_content.asp?PJID=MRG4680156 , http://research.trf.or.th/node/2719 |
| ที่มา | : | - |
| ความเชี่ยวชาญ | : | - |
| ความสัมพันธ์ | : | - |
| ขอบเขตของเนื้อหา | : | - |
| บทคัดย่อ/คำอธิบาย | : | เครือข่ายใยแมงมุมมีบทบาทสำคัญในการสืบค้นข้อมูลสารสนเทศสำหรับผู้ใช้งาน ซึ่งผู้ใช้งานเหล่านี้จะค้นหาเวบเพจที่ตองการจากเสริจเอ็นจิน แต่เนื่องจากในปัจจุบันเว็บเพจมีจำนวนเพิ่มขึ้นอย่างมหาศาลและรวดเร็ว ดังนั้นจึงจำเป็นที่จะต้องมีระบบการจำแนกประเภทเว็บเพจที่สามารถแยกแยะหมวดหมู่ของเว็บเพจเตรียมไว้ล่วงหน้า เป็นที่ทราบกันดีว่าตัวแยกแยะแบบเบย์สอย่างง่ายเป็นขั้นตอนวิธีที่มีประสิทธิภาพที่ใช้ในการจำแนกประเภท แต่เมื่อปัญหายากขึ้นเช่น เนื้อหาของเว็บเพจในแต่ละหมวดหมู่มีความคล้ายคลึงกันย่อมทำให้ประสิทธิภาพการจำแนกเว็บเพจลดลง งานวิจัยนี้จึงมีวัตถุประสงค์ในการศึกษาค้นคว้าเพื่อหาขั้นตอนวิธีที่เหมาะสมเพื่อเพิ่มประสิทธิภาพการจำแนกประเภทเว็บเพจ ซึ่งในการวิจัยนี้ได้นำเสนอการใช้ตัวแยกแยะที่มีจำนวนมากกว่าหนึ่งได้แก่ อัลกอริทึ่มการสอนไขว้แบบวนซ้ำ และตัวแยกแยะที่ทำงานร่วมกันหรือเอ็นเซมเบิล กลยุทธ์ที่เป็นหัวใจสำคัญที่ทำให้หารใช้ตัวแยกแยะมากกว่าหนึ่งตัวทำงานได้ดีกว่าตัวจำแนกเดี่ยวคือการใช้ประโยชน์จากลักษณะเด่นที่แตกต่างกันของเว็บเพจซึ่งถูกกำกับคุณสมบัติด้วย แท็กแอชทีเอ็มแอล ซึ่งแท็กแหล่านี้มีลักษณะเด่นที่ต่างกัน เช่น เมต้า กัวเรื่อง และลิงค์ ลักษณะเด่นที่ต่างกันนั้นนำมาใช้สร้างแต่ละตัวจำแนก ของตัวจำแนกที่ทำงานร่วมกันได้ เหตุผลที่ตัวจำแนกที่ทำงานร่วมกันให้ความสูงต้องสูงกว่าตัวจำแนกเดี่ยว เนื่องจากแต่ละตัวจำแนกเหล่านั้นเรียนรู้แตกต่างกัน และให้ผลการทำนายแตกต่างกัน จึงสามารถนำผลการทำนายที่แตกต่างกันมาชดเชยซึ่งกันและกันได้ในขั้นสุดท้าย โดยผ่านการลงคะแนน แต่อย่างไรก็ตามตัวจำแนกที่ทำงานร่วมกันใช้เวลาในการประมวลผลนานกว่าตัวจำแนกเดี่ยว การวิจัยนี้ได้ทำการทดลองบนชุดข้อมูลมาตรฐาน WevKB และ WebPage ซึ่งผู้วิจัยได้ทำการทดสอบประสิทธิภาพของอัลกอริทึมการสอนไขว้แบบวนซ้ำและเอ็นเซ็มเบิล โดยแบ่งชุดข้อูลด้วยวิธี 5-โฟลดครอส แฝลอิเดฌัน และสร้างตัวจำแยกที่แตกต่างกันจาก 4 ลักษณะเด่นคือ เนื้อหาทั้งหมด ชื่อเรื่อง+เมต้า หัวเรื่อง และคำบรรยายลิงค์ ผลการทดลองเปรียบเทียบตัวจำแนกที่ทำงานร่วมกัน กับตัวจำแนกเดี่ยว พบว่าตัวจำแนกที่ทำงานร่วมกันให้ประสิทธิภาพดีกว่าตัวจำแนกเดี่ยว ในทั้งสองชุดข้อมูล World Wide Web plays an important role as an information retrieval resource. User search through the search engine web site in order to find the most related Web page. Nevertheless, the amount of Web pages are exponentially increased which is a difficult problem for the search engine to categorize these Web pages beforehand. Therefore we need an algorithm that is capable to classify Web pages into categories. A naive Bayes approach is a well-know algorithm that can effectively classify the documents. However the algorithm performance is dropped when the class of Web pages are closelt related. Hence, we propose to use a set of classifiers that can combine their results to make the final prediction. Our strategy is to utilize the different feature sets of a Web page which are taged by html code. Thses features are title, heading, hyperlink and meta tag. The reason that the combination of classifiers outputform the single naive Bayes comes from the fact that each classifier learns from different input space and make their error on different parts of input space. Then the combination process has an ability to combine those result and output the class of each test document that has the highest probablity. We study two algorithm which are Iterative Cross-Traning and Ensemble classifier on WebKb and Webpage datasets using 5-fold cross-validation technique to validate the result and found that using more than one classifier can enhance the performance of the system on both datasets. |
| บรรณานุกรม | : |
นวลวรรณ สุนทรภิษัช . (2549). การจำแนกประเภทเว็บเพจโดยใช้เทคนิคการเรียนรู้ของเครื่อง.
กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย. นวลวรรณ สุนทรภิษัช . 2549. "การจำแนกประเภทเว็บเพจโดยใช้เทคนิคการเรียนรู้ของเครื่อง".
กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย. นวลวรรณ สุนทรภิษัช . "การจำแนกประเภทเว็บเพจโดยใช้เทคนิคการเรียนรู้ของเครื่อง."
กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย, 2549. Print. นวลวรรณ สุนทรภิษัช . การจำแนกประเภทเว็บเพจโดยใช้เทคนิคการเรียนรู้ของเครื่อง. กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย; 2549.
|
