วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram

ridm@nrct.go.th ระบบคลังข้อมูลงานวิจัยไทย รายการโปรดที่คุณเลือกไว้

วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram

หน่วยงาน สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ

รายละเอียด

ชื่อเรื่อง	:	วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram
นักวิจัย	:	กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ
คำค้น	:	ความสอดคล้องในการกำกับชนิดของคำ , ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ , แบบจำลองทางสถิติแบบ n-gram
หน่วยงาน	:	สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
ผู้ร่วมงาน	:	-
ปีพิมพ์	:	2550
อ้างอิง	:	http://www.nstda.or.th/thairesearch/node/11155
ที่มา	:	-
ความเชี่ยวชาญ	:	-
ความสัมพันธ์	:	-
ขอบเขตของเนื้อหา	:	-
บทคัดย่อ/คำอธิบาย	:	บทความวิจัยฉบับนี้นำเสนอวิธีการตรวจจับความไม่สอดคล้องที่เป็นไปได้ในการกำกับชนิดของคำในคลังข้อมูลทางภาษาแบบภาษาเดี่ยว งานวิจัยนี้มีจุดประสงค์เพื่อตรวจสอบการกำกับชนิดของคำในคลังข้อมูลทางภาษา และเพื่อบูรณาการคลังข้อมูลทางภาษาที่มีเกณฑ์การกำกับชนิดของคำแตกต่างกันเข้าด้วยกัน โดยการแสดงรายการความไม่สอดคล้องกันโดยอัตโนมัติ แบบจำลองทางสถิติแบบ n-gram ถูกนำมาใช้เพื่อระบุตำแหน่งคำที่แวดล้อมด้วยรูปแบบชนิดของคำแบบเดียวกัน แต่กลับกำกับด้วยชนิดของคำที่แตกต่างกัน ในงานวิจัยนี้คลังข้อมูล Orchid 1 ถูกตรวจสอบด้วยแบบจำลอง trigram โดยเทียบกับเกณฑ์ของตัวเองและเกณฑ์ของ Orchid 2 จากการทดลองพบว่า มี 14,040 ตำแหน่งที่ไม่สอดคล้องกับเกณฑ์ของตัวเอง และมี 20,144 ตำแหน่งที่ไม่สอดคล้องกับเกณฑ์ของ Orchid 2 ผลการทดลองเบื้องต้นแสดงให้เห็นว่า มีความเป็นไปได้ที่จะรวม Orchid 1 เข้ากับ Orchid 2 ได้ This paper presents a method to detect potential annotation inconsistency in monolingual corpora. It aims at assistance for linguists to verify corpus annotation and to incorporate corpora with different versions of part-of-speech tag sets, by automatically providing list of potential inconsistency. An n-gram probabilistic model was utilized to identify words that are surrounded with similar parts of speech but are annotated with different parts of speech. By trigram-based detection, Orchid-1, a Thai part-of-speech-tagged corpus, was examined for auto-inconsistency and for cross-inconsistency with referential Orchid-2. In total, 14,040 places were marked auto-inconsistent, while 20,144 places were marked cross-inconsistent regarding to Orchid-2. The preliminary results show that it is feasible to integrate Orchid-1 and Orchid-2.
บรรณานุกรม	:	APA Chicago MLA Vancouver กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . (2550). วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ. กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . 2550. "วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram". ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ. กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . "วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram." ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ, 2550. Print. กนกอร ตระกูลทวีคูณ , กฤษณ์ โกสวัสดิ์ , ชัย วุฒิวิวัฒน์ชัย , ณัฐพล กฤษสุทธิกุล , ธเนศ เรืองรจิตปกรณ์ , ปรัชญา บุญขวัญ , มณฑิกา บริบูรณ์ , เทพชัย ทรัพย์นิธิ . วิธีการตรวจจับความไม่สอดคล้องของการกำกับชนิดของคำในคลังข้อมูลทางภาษาโดยอัตโนมัติ โดยใช้แบบจำลองทางสถิติแบบ n-gram. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ; 2550.