ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

Term-length normalization for centroid-based text categorization

หน่วยงาน สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์

รายละเอียด

ชื่อเรื่อง : Term-length normalization for centroid-based text categorization
นักวิจัย : Verayuth Lertnattee , Thanaruk Theeramunkong
คำค้น : Term-length normalization , Text classification , Centroid-based text , Class-length normalization
หน่วยงาน : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์
ผู้ร่วมงาน : -
ปีพิมพ์ : 2546
อ้างอิง : Knowledge-based intelligent information and engineering systems. Part 1 : 7th International Conference, Kes 2003, Oxford, UK, September 2003 pp. 850-856 , 3540408037 , 0302-9743 , http://dspace.library.tu.ac.th/handle/3517/3515 , http://dspace.library.tu.ac.th/handle/3517/3515
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : Lecture notes in computer science ; 2773
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

Centroid-based categorization is one of the most popular algorithms in text classification. Normalization is an important factor to improve performance of a centroid-based classifier when documents in text collection have quite different sizes. In the past, normalization involved with only document- or class-length normalization. In this paper, we propose a new type of normalization called term-length normalization which considers term distribution in a class. The performance of this normalization is investigated in three environments of a standard centroid-based classifier (TFIDF): (1) without class-length normalization, (2) with cosine class-length normalization and (3) with summing weight normalization. The results suggest that our term-length normalization is useful for improving classification accuracy in all cases.

บรรณานุกรม :
Verayuth Lertnattee , Thanaruk Theeramunkong . (2546). Term-length normalization for centroid-based text categorization.
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Verayuth Lertnattee , Thanaruk Theeramunkong . 2546. "Term-length normalization for centroid-based text categorization".
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Verayuth Lertnattee , Thanaruk Theeramunkong . "Term-length normalization for centroid-based text categorization."
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ , 2546. Print.
Verayuth Lertnattee , Thanaruk Theeramunkong . Term-length normalization for centroid-based text categorization. กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ ; 2546.