| ชื่อเรื่อง | : | Effect of term distributions on centroid-based text categorization |
| นักวิจัย | : | Verayuth Lertnattee , Thanaruk Theeramunkong |
| คำค้น | : | Centroid-based classifier , Term distribution , Text categorization |
| หน่วยงาน | : | สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ |
| ผู้ร่วมงาน | : | - |
| ปีพิมพ์ | : | 2547 |
| อ้างอิง | : | Information Sciences. 158,1-4 (2004) pp. 89-115 , http://dspace.library.tu.ac.th/handle/3517/547 |
| ที่มา | : | - |
| ความเชี่ยวชาญ | : | - |
| ความสัมพันธ์ | : | - |
| ขอบเขตของเนื้อหา | : | - |
| บทคัดย่อ/คำอธิบาย | : | Most of traditional text categorization approaches utilize term frequency (tf) and inverse document frequency (idf) for representing importance of words and/or terms in classifying a text document. This paper describes an approach to apply term distributions, in addition to tf and idf, to improve performance of centroid-based text categorization. Three types of term distributions, called inter-class, intra-class and in-collection distributions, are introduced. These distributions are useful to increase classification accuracy by exploiting information of (1) term distribution among classes, (2) term distribution within a class and (3) term distribution in the whole collection of training data. In addition, this paper investigates how these term distributions contribute to weight each term in documents, e.g., a high term distribution of a word promotes or demotes importance or classification power of that word. To this end, several centroid-based classifiers are constructed with different term weightings. Using various data sets, their performances are investigated and compared to a standard centroid-based classifier (TDIDF) and a centroid-based classifier modified with information gain. Moreover, we also compare them to two well-known methods: k-NN and naïve Bayes. In addition to a unigram model of document representation, a bigram model is also explored. Finally, the effectiveness of term distributions to improve classification accuracy is explored with regard to the training set size and the number of classes. |
| บรรณานุกรม | : |
Verayuth Lertnattee , Thanaruk Theeramunkong . (2547). Effect of term distributions on centroid-based text categorization.
กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ . Verayuth Lertnattee , Thanaruk Theeramunkong . 2547. "Effect of term distributions on centroid-based text categorization".
กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ . Verayuth Lertnattee , Thanaruk Theeramunkong . "Effect of term distributions on centroid-based text categorization."
กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ , 2547. Print. Verayuth Lertnattee , Thanaruk Theeramunkong . Effect of term distributions on centroid-based text categorization. กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ ; 2547.
|
