| ชื่อเรื่อง | : | วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram |
| นักวิจัย | : | กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ |
| คำค้น | : | ความสอดคล้องในการกำกับชนิดของคำ , ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ , แบบจำลองทางสถิติแบบ n-gram |
| หน่วยงาน | : | สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ |
| ผู้ร่วมงาน | : | - |
| ปีพิมพ์ | : | 2550 |
| อ้างอิง | : | http://www.nstda.or.th/thairesearch/node/11155 |
| ที่มา | : | - |
| ความเชี่ยวชาญ | : | - |
| ความสัมพันธ์ | : | - |
| ขอบเขตของเนื้อหา | : | - |
| บทคัดย่อ/คำอธิบาย | : | บทความวิจัยฉบับนี้นำเสนอวิธีการตรวจจับความไม่สอดคล้องที่เป็นไปได้ในการกำกับชนิดของคำในคลังข้อมูลทางภาษาแบบภาษาเดี่ยว งานวิจัยนี้มีจุดประสงค์เพื่อตรวจสอบการกำกับชนิดของคำในคลังข้อมูลทางภาษา และเพื่อบูรณาการคลังข้อมูลทางภาษาที่มีเกณฑ์การกำกับชนิดของคำแตกต่างกันเข้าด้วยกัน โดยการแสดงรายการความไม่สอดคล้องกันโดยอัตโนมัติ แบบจำลองทางสถิติแบบ n-gram ถูกนำมาใช้เพื่อระบุตำแหน่งคำที่แวดล้อมด้วยรูปแบบชนิดของคำแบบเดียวกัน แต่กลับกำกับด้วยชนิดของคำที่แตกต่างกัน ในงานวิจัยนี้คลังข้อมูล Orchid 1 ถูกตรวจสอบด้วยแบบจำลอง trigram โดยเทียบกับเกณฑ์ของตัวเองและเกณฑ์ของ Orchid 2 จากการทดลองพบว่า มี 14,040 ตำแหน่งที่ไม่สอดคล้องกับเกณฑ์ของตัวเอง และมี 20,144 ตำแหน่งที่ไม่สอดคล้องกับเกณฑ์ของ Orchid 2 ผลการทดลองเบื้องต้นแสดงให้เห็นว่า มีความเป็นไปได้ที่จะรวม Orchid 1 เข้ากับ Orchid 2 ได้ This paper presents a method to detect potential annotation inconsistency in monolingual corpora. It aims at assistance for linguists to verify corpus annotation and to incorporate corpora with different versions of part-of-speech tag sets, by automatically providing list of potential inconsistency. An n-gram probabilistic model was utilized to identify words that are surrounded with similar parts of speech but are annotated with different parts of speech. By trigram-based detection, Orchid-1, a Thai part-of-speech-tagged corpus, was examined for auto-inconsistency and for cross-inconsistency with referential Orchid-2. In total, 14,040 places were marked auto-inconsistent, while 20,144 places were marked cross-inconsistent regarding to Orchid-2. The preliminary results show that it is feasible to integrate Orchid-1 and Orchid-2. |
| บรรณานุกรม | : |
กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . (2550). วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram.
ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ. กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . 2550. "วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram".
ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ. กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . "วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram."
ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ, 2550. Print. กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ; 2550.
|
