ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

Non-dictionary-based Thai word segmentation using decision trees

หน่วยงาน สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์

รายละเอียด

ชื่อเรื่อง : Non-dictionary-based Thai word segmentation using decision trees
นักวิจัย : Thanaruk Theeramunkong
คำค้น : decision trees , word segmentation without a dictionary , Thai word
หน่วยงาน : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์
ผู้ร่วมงาน : -
ปีพิมพ์ : 2544
อ้างอิง : Human Language Technology Conference : Proceedings of the first international conference on Human language technology research : San Diego ; pp. 1-5 , http://dspace.library.tu.ac.th/handle/3517/4428
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

For languages without word boundary delimiters, dictionaries are needed for segmenting running texts. This figure makes segmentation accuracy depend significantly on the quality of the dictionary used for analysis. If the dictionary is not sufficiently good, it will lead to a great number of unknown or unrecognized words. These unrecognized words certainly reduce segmentation accuracy. To solve such problem, we propose a method based on decision tree models. Without use of a dictionary, specific information, called syntactic attribute, is applied to identify the structure of Thai words. C4.5 is used as a tool for this purpose. Using a Thai corpus, experiment results show that our method outperforms some well-known dictionary-dependent techniques, maximum and longest matching methods, in case of no dictionary.

บรรณานุกรม :
Thanaruk Theeramunkong . (2544). Non-dictionary-based Thai word segmentation using decision trees.
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Thanaruk Theeramunkong . 2544. "Non-dictionary-based Thai word segmentation using decision trees".
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ .
Thanaruk Theeramunkong . "Non-dictionary-based Thai word segmentation using decision trees."
    กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ , 2544. Print.
Thanaruk Theeramunkong . Non-dictionary-based Thai word segmentation using decision trees. กรุงเทพมหานคร : สถาบันวิจัยและให้คำปรึกษาแห่ง มหาวิทยาลัยธรรมศาสตร์ ; 2544.