| ชื่อเรื่อง | : | การตรวจเทียบภายในหาการลักลอกงานวิชาการภาษาไทยโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีน |
| นักวิจัย | : | ศิวพร ทวนไธสง |
| คำค้น | : | - |
| หน่วยงาน | : | จุฬาลงกรณ์มหาวิทยาลัย |
| ผู้ร่วมงาน | : | วิโรจน์ อรุณมานะกุล , จุฬาลงกรณ์มหาวิทยาลัย. คณะอักษรศาสตร์ |
| ปีพิมพ์ | : | 2556 |
| อ้างอิง | : | http://cuir.car.chula.ac.th/handle/123456789/44085 |
| ที่มา | : | - |
| ความเชี่ยวชาญ | : | - |
| ความสัมพันธ์ | : | - |
| ขอบเขตของเนื้อหา | : | - |
| บทคัดย่อ/คำอธิบาย | : | วิทยานิพนธ์ (อ.ม.)--จุฬาลงกรณ์มหาวิทยาลัย, 2556 วิทยานิพนธ์ฉบับนี้มีวัตถุประสงค์เพื่อพัฒนาระบบการตรวจเทียบภายในหาการลักลอกงานวิชาการในภาษาไทยด้วยแบบจำลองซัพพอร์ตเวกเตอร์แมชชีน (SVM.) โดยเปรียบเทียบประสิทธิภาพของระบบระหว่างแบบจำลองที่ใช้ข้อมูลรับเข้าเป็นคำกับแบบจำลองที่ใช้ข้อมูลรับเข้าเป็นตัวอักษร ประสิทธิภาพของลักษณ์ทางสถิติและลักษณ์ทางภาษาที่มีผลกับแบบจำลอง และความแม่นยำของการหาคำตอบเมื่อพิจารณาจากความยาวของข้อความที่ลักลอก งานวิจัยนี้ใช้คลังข้อมูลที่สร้างจากวิทยานิพนธ์ภาษาไทยระดับบัณฑิตศึกษา จุฬาลงกรณ์มหาวิทยาลัย จำนวน 300 เล่ม จำนวนคำทั้งสิ้น 5,155,589 คำ ใช้แบบจำลองทางสถิติซัพพอร์ตเวกเตอร์แมชชีน ในโปรแกรม weka เวอร์ชัน 3.7.10 ทดลองกับข้อมูลรับเข้าเป็นย่อหน้าแบบคำและแบบตัวอักษร ใช้การเรียนรู้ระบบแบบ supervised learning ให้คำตอบ 2 ประเภท คือ ใช่สำหรับย่อหน้าที่มีการลักลอก และไม่ใช่สำหรับย่อหน้าที่ไม่ได้ลักลอก ผลการทดลองกับลักษณ์ทางสถิติพบว่าชุดลักษณ์ที่ให้ผลดีที่สุดในการตรวจหาย่อหน้าลักลอก คือ ชุดลักษณ์ทางสถิติ จำนวน 7 ลักษณ์ จากข้อมูลรับเข้าแบบคำ สามารถตรวจจับย่อหน้าที่ลักลอกได้ถูกต้อง 318 ย่อหน้า จาก 735 ย่อหน้า มีค่าความครบถ้วนที่ 0.43 สำหรับ สำหรับการทดลองกับลักษณ์ทางภาษา ที่เปรียบเทียบค่าเฉลี่ยคำที่มีความถี่สูงสุด การเลือกใช้คำและชุดคำเขียนผิดพบว่า ลักษณ์ประเภทนี้ไม่สามารถแยกประเภทของย่อหน้าทั้ง 2 ประเภทได้ แม้จะพบการใช้ต่างกันจริงในข้อมูล ปัจจัยที่ทำให้แบบจำลองไม่ได้ผลเนื่องจากลักษณ์นั้นๆพบแบบไม่สม่ำเสมอในคลังข้อมูล สำหรับปัจจัยเรื่องความยาวของย่อหน้าลักลอกต่อการตรวจเทียบภายใน ผลจากการทดลองนี้ยังไม่สามารถระบุถึงความสัมพันธ์ของความยาวย่อหน้าที่มีต่อความแม่นยำในการตรวจจับได้ เพราะย่อหน้าลักลอกที่ตรวจจับได้ถูกต้องมากที่สุดในการทดลอง คือ ย่อหน้าลักลอกขนาดกลางและขนาดยาวซึ่งมีผลตรวจจับผิดพลาด 16.55% และ 36.67% ตามลำดับ ขณะที่ ไม่สามารถตรวจจับย่อหน้าขนาดสั้นได้เลย คือมีผลตรวจจับผิดพลาด 100% |
| บรรณานุกรม | : |
ศิวพร ทวนไธสง . (2556). การตรวจเทียบภายในหาการลักลอกงานวิชาการภาษาไทยโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีน.
กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย. ศิวพร ทวนไธสง . 2556. "การตรวจเทียบภายในหาการลักลอกงานวิชาการภาษาไทยโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีน".
กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย. ศิวพร ทวนไธสง . "การตรวจเทียบภายในหาการลักลอกงานวิชาการภาษาไทยโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีน."
กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย, 2556. Print. ศิวพร ทวนไธสง . การตรวจเทียบภายในหาการลักลอกงานวิชาการภาษาไทยโดยใช้แบบจำลองซัพพอร์ตเวกเตอร์แมชชีน. กรุงเทพมหานคร : จุฬาลงกรณ์มหาวิทยาลัย; 2556.
|
