| ชื่อเรื่อง | : | Automatic Annotation Inconsistency Detection: an N-Gram-Based Approach |
| นักวิจัย | : | Prachya Boonkwan , Taneth Ruangrajitpakorn , Thepchai Supnithi , ปรัชญา บุญขวัญ , ธเนศ เรืองรจิตปกรณ์ , เทพชัย ทรัพย์นิธิ |
| คำค้น | : | Artificial Intelligence and signal and image processing , Automatic inconsustenct detection , Corpus annotation , Information, computing and communication sciences , n-gram , Speech / pattern recognition , คลังข้อความที่กำหนดด้วยชนิดของคำ , ระบบตรวจสอบความไม่สอดคล้องอัตโนมัติ , ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ , สาขาเทคโนโลยีสารสนเทศและนิเทศศาสตร์ , เอ็นแกรม |
| หน่วยงาน | : | สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ |
| ผู้ร่วมงาน | : | - |
| ปีพิมพ์ | : | 2551 |
| อ้างอิง | : | http://www.nstda.or.th/thairesearch/node/23959 |
| ที่มา | : | - |
| ความเชี่ยวชาญ | : | - |
| ความสัมพันธ์ | : | - |
| ขอบเขตของเนื้อหา | : | - |
| บทคัดย่อ/คำอธิบาย | : | This paper presents a method to detech potential annotation inconsistency in monolingual corpora. It aims at assistance for linguists to verify corpus annotation and to incorporate corpora with different versions of part-of-speech tag sets, by automatically providing list of potential inconsistency. An n-gram probabilistic model was utilized to identify words that are surrounded with similar parts of speech but are annotated with different parts of sppech. By trigram0based detectionm Orchid-I, a Thai part-of-speech-tagged corpus, was examined for auto-inconsistency and for cross-inconsistency with referential Orchid-2. In total, 14040 places were marked auto-inconsistey, while 20,144 places were marked cross-inconsistent regarding to Orchid-2. The preliminary results show that it is feasible to integrate Orchid-1 and Orchid-2. บทความชิ้นนี้เสนอวิธีการค้นหาชนิดของคำ (part of speech, POS) ที่ถูกกำหนดให้คำในคลังข้อความภาษาเดี่ยวที่ไม่สอดคล้องกัน ระบบที่ถูกนำเสนอนี้สามารถตรวจสอบความไม่สอดคล้องของชนิดของคำได้ 2 รูปแบบได้โดยอัตโนมัติ คือ 1. ชนิดของคำที่แตกต่างกันจากการเปรียบเทียบคลังข้อความภาษาเดี่ยวที่ถูกกำหนดด้วยชุดของชนิดของคำที่มีจำนวนชนิดของคำที่แตกต่างกันและ 2. ตรวจสอบข้อผิดพลาดของการกำหนดชนิดของคำ ซึ่งผลลัพธ์ของระบบนี้จะช่วยให้นักภาษาศาสตร์สามารถตรวจสอบและแก้ไขชนิดของคำให้สอดคล้องกันได้โดยสะดวก ระบบนี้ถูกออกแบบโดยใช้การคำนวณทางสถิติด้วยหลักการเอ็นแกรม (n-gram) เพื่อที่จะตรวจสอบคำเป้าหมายที่ถูกกำหนดชนิดของคำที่แตกต่างกันโดยคำนวณค่าความน่าจะเป็นของชนิดของคำรอบข้างที่มีรูปแบบการปรากฏเหมือนกัน จากการตรวจสอบด้วยไตรแกรม (tri-gram) พบว่า คลังข้อความออร์คิด (Orchid, คลังข้อความที่กำหนดด้วยชนิดของคำ) รุ่นที่ 1 ซึ่งถูกเปรียบเทียบด้วย คลังข้อความออร์คิดรุ่นที่ 2 มีคำจำนวน 14,040 คำที่ไม่สอดคล้องกันโดยมีชนิดของคำรอบข้างเช่นเดียวกัน และมีคำจำนวน 20,144 คำที่มีการเปลี่ยนแปลงเป็นชนิดของคำแบบใหม่ที่มีในคลังข้อความออร์คิดรุ่นที่ 2 เท่านั้น |
| บรรณานุกรม | : |
Prachya Boonkwan , Taneth Ruangrajitpakorn , Thepchai Supnithi , ปรัชญา บุญขวัญ , ธเนศ เรืองรจิตปกรณ์ , เทพชัย ทรัพย์นิธิ . (2551). Automatic Annotation Inconsistency Detection: an N-Gram-Based Approach.
ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ. Prachya Boonkwan , Taneth Ruangrajitpakorn , Thepchai Supnithi , ปรัชญา บุญขวัญ , ธเนศ เรืองรจิตปกรณ์ , เทพชัย ทรัพย์นิธิ . 2551. "Automatic Annotation Inconsistency Detection: an N-Gram-Based Approach".
ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ. Prachya Boonkwan , Taneth Ruangrajitpakorn , Thepchai Supnithi , ปรัชญา บุญขวัญ , ธเนศ เรืองรจิตปกรณ์ , เทพชัย ทรัพย์นิธิ . "Automatic Annotation Inconsistency Detection: an N-Gram-Based Approach."
ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ, 2551. Print. Prachya Boonkwan , Taneth Ruangrajitpakorn , Thepchai Supnithi , ปรัชญา บุญขวัญ , ธเนศ เรืองรจิตปกรณ์ , เทพชัย ทรัพย์นิธิ . Automatic Annotation Inconsistency Detection: an N-Gram-Based Approach. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ; 2551.
|
