ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

การตรวจเทียบภายในหาการลักลอกงานวิชาการภาษาไทยโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีน

หน่วยงาน จุฬาลงกรณ์มหาวิทยาลัย

รายละเอียด

ชื่อเรื่อง : การตรวจเทียบภายในหาการลักลอกงานวิชาการภาษาไทยโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีน
นักวิจัย : ศิวพร ทวนไธสง
คำค้น : -
หน่วยงาน : จุฬาลงกรณ์มหาวิทยาลัย
ผู้ร่วมงาน : วิโรจน์ อรุณมานะกุล , จุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์
ปีพิมพ์ : 2556
อ้างอิง : http://cuir.car.chula.ac.th/handle/123456789/44085
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

วิทยานิพนธ์ (อ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2556

วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์เพื่อพัฒนาระบบการตรวจเทียบภายในหาการลักลอกงานวิชาการในภาษาไทยด้วยแบบจำลองซัพพอร์ตเวกเตอร์แมชชีน (SVM.) โดยเปรียบเทียบประสิทธิภาพของระบบระหว่างแบบจำลองที่ใช้ข้อมูลรับเข้าเป็นคำกับแบบจำลองที่ใช้ข้อมูลรับเข้าเป็นตัวอักษร ประสิทธิภาพของลักษณ์ทางสถิติและลักษณ์ทางภาษาที่มีผลกับแบบจำลอง และความแม่นยำของการหาคำตอบเมื่อพิจารณาจากความยาวของข้อความที่ลักลอก งานวิจัยนี้ใช้คลังข้อมูลที่สร้างจากวิทยานิพนธ์ภาษาไทยระดับบัณฑิตศึกษา จุฬาลงกรณ์มหาวิทยาลัย จำนวน 300 เล่ม จำนวนคำทั้งสิ้น 5,155,589 คำ ใช้แบบจำลองทางสถิติซัพพอร์ตเวกเตอร์แมชชีน ในโปรแกรม weka เวอร์ชัน 3.7.10 ทดลองกับข้อมูลรับเข้าเป็นย่อหน้าแบบคำและแบบตัวอักษร ใช้การเรียนรู้ระบบแบบ supervised learning ให้คำตอบ 2 ประเภท คือ ใช่สำหรับย่อหน้าที่มีการลักลอก และไม่ใช่สำหรับย่อหน้าที่ไม่ได้ลักลอก ผลการทดลองกับลักษณ์ทางสถิติพบว่าชุดลักษณ์ที่ให้ผลดีที่สุดในการตรวจหาย่อหน้าลักลอก คือ ชุดลักษณ์ทางสถิติ จำนวน 7 ลักษณ์ จากข้อมูลรับเข้าแบบคำ สามารถตรวจจับย่อหน้าที่ลักลอกได้ถูกต้อง 318 ย่อหน้า จาก 735 ย่อหน้า มีค่าความครบถ้วนที่ 0.43 สำหรับ สำหรับการทดลองกับลักษณ์ทางภาษา ที่เปรียบเทียบค่าเฉลี่ยคำที่มีความถี่สูงสุด การเลือกใช้คำและชุดคำเขียนผิดพบว่า ลักษณ์ประเภทนี้ไม่สามารถแยกประเภทของย่อหน้าทั้ง 2 ประเภทได้ แม้จะพบการใช้ต่างกันจริงในข้อมูล ปัจจัยที่ทำให้แบบจำลองไม่ได้ผลเนื่องจากลักษณ์นั้นๆพบแบบไม่สม่ำเสมอในคลังข้อมูล สำหรับปัจจัยเรื่องความยาวของย่อหน้าลักลอกต่อการตรวจเทียบภายใน ผลจากการทดลองนี้ยังไม่สามารถระบุถึงความสัมพันธ์ของความยาวย่อหน้าที่มีต่อความแม่นยำในการตรวจจับได้ เพราะย่อหน้าลักลอกที่ตรวจจับได้ถูกต้องมากที่สุดในการทดลอง คือ ย่อหน้าลักลอกขนาดกลางและขนาดยาวซึ่งมีผลตรวจจับผิดพลาด 16.55% และ 36.67% ตามลำดับ ขณะที่ ไม่สามารถตรวจจับย่อหน้าขนาดสั้นได้เลย คือมีผลตรวจจับผิดพลาด 100%

บรรณานุกรม :
ศิวพร ทวนไธสง . (2556). การตรวจเทียบภายในหาการลักลอกงานวิชาการภาษาไทยโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีน.
    กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย.
ศิวพร ทวนไธสง . 2556. "การตรวจเทียบภายในหาการลักลอกงานวิชาการภาษาไทยโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีน".
    กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย.
ศิวพร ทวนไธสง . "การตรวจเทียบภายในหาการลักลอกงานวิชาการภาษาไทยโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีน."
    กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย, 2556. Print.
ศิวพร ทวนไธสง . การตรวจเทียบภายในหาการลักลอกงานวิชาการภาษาไทยโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีน. กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย; 2556.