ridm@nrct.go.th   ระบบคลังข้อมูลงานวิจัยไทย   รายการโปรดที่คุณเลือกไว้

การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย

หน่วยงาน ฐานข้อมูลวิทยานิพนธ์ไทย

รายละเอียด

ชื่อเรื่อง : การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย
นักวิจัย : ปิติฉัตร สุทธาโรจน์
คำค้น : LOSSLESS COMPRESSION , TEXT COMPRESSION , ARITHMETIC CODING , LZ77 , LZW , PPM , BWT , LIPT , WORD-BASED COMPRESSION TECHNIQUES
หน่วยงาน : ฐานข้อมูลวิทยานิพนธ์ไทย
ผู้ร่วมงาน : -
ปีพิมพ์ : 2545
อ้างอิง : http://www.thaithesis.org/detail.php?id=1082545000791
ที่มา : -
ความเชี่ยวชาญ : -
ความสัมพันธ์ : -
ขอบเขตของเนื้อหา : -
บทคัดย่อ/คำอธิบาย :

วิทยานิพนธ์ฉบับนี้ได้ศึกษาวิธีปรับปรุงความสามารถในการบีบอัดแฟ้มข้อมูลภาษาไทยสำหรับวิธีบีบอัดแบบไม่มีการสูญเสียทั้ง 3 ตระกูลที่นิยมใช้ ได้แก่ ตระกูลบีบอัดข้อมูลโดยอาศัยพจนานุกรม (LZ77, LZW), ตระกูลบีบอัดข้อมูลโดยอาศัยค่าทางสถิติ(PPM) และ ตระกูลบีบอัดข้อมูลโดยผ่านการแปลงเบอร์โรว์ - วีลเลอร์ (BWT) โดยเพิ่มความรู้จำเพาะทางภาษาไทยเข้าไปในการบีบอัดวิธีต่าง ๆ ด้วยการนำข้อมูลมาผ่านตัวตัดคำภาษาไทย แล้วจึงนำสิ่งที่ได้จากการตัดคำมาใช้ในการเข้ารหัส การนำข้อมูลจากการตัดคำมาใช้แบบแรก คือการนำข้อมูลมาผ่านการแปลง LIPT (Length Index PreservingTransform) ซึ่งเป็นการแปลงคำที่พบให้มีความสัมพันธ์กันตามความยาวของคำ ข้อมูลที่ผ่านการแปลง LIPT จะอยู่ในรูปแบบที่ง่ายต่อการบีบอัดมากยิ่งขึ้น ทำให้วิธีบีบอัดแต่ละวิธีจะสามารถบีบอัดได้ดีกว่าข้อมูลเดิม ส่วนแบบที่สอง คือ การเข้ารหัสโดยประยุกต์วิธีบีบอัดแบบดั้งเดิมมาเข้ารหัสในหน่วยคำ ได้แก่ วิธี word-based LZW, word-basedPPM และ word-based BWT ซึ่งจะเป็นการเข้ารหัสในหน่วยที่ใหญ่ขึ้น วิทยานิพนธ์ฉบับนี้ได้เปรียบเทียบผลการบีบอัดที่ปรับปรุงขึ้นกับโปรแกรมบีบอัดที่นิยมใช้ในแต่ละวิธีได้แก่ GZIP, UNIX Compress, PPMD และ BZIP2 รวมไปถึงแสดงผลความซับซ้อนในการประมวลผลที่เพิ่มขึ้นเมื่อเพิ่มความรู้จำเพาะทางภาษาไทยลงไปทั้งในการเข้ารหัสและถอดรหัส และแสดงแนวโน้มของผลการบีบอัดในแต่ละวิธีเทียบกับขนาดข้อมูล พบว่าการปรับปรุงความสามารถสำหรับตระกูลบีบอัดข้อมูลโดยอาศัยพจนานุกรมจะได้ผลที่ดีกว่าโปรแกรม UNIX Compress และโปรแกรม GZIP ประมาณ 12% และ 4.5%ตามลำดับในทุกๆ ขนาดข้อมูล สำหรับตระกูล BWT จะสามารถปรับปรุงผลจากโปรแกรม BZIP2ได้โดยเฉลี่ยประมาณ 2.5% สำหรับตระกูลบีบอัดข้อมูลโดยอาศัยค่าทางสถิติจะปรับปรุงได้ดีกว่าโปรแกรม PPMD ซึ่งเป็นโปรแกรมที่ให้ผลการบีบอัดดีที่สุดในปัจจุบันอีก 2.5% โดยเฉลี่ย

บรรณานุกรม :
ปิติฉัตร สุทธาโรจน์ . (2545). การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย.
    กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย.
ปิติฉัตร สุทธาโรจน์ . 2545. "การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย".
    กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย.
ปิติฉัตร สุทธาโรจน์ . "การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย."
    กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย, 2545. Print.
ปิติฉัตร สุทธาโรจน์ . การปรับปรุงเทคนิคการบีบอัดสำหรับแฟ้มข้อมูลอักษรภาษาไทย. กรุงเทพมหานคร : ฐานข้อมูลวิทยานิพนธ์ไทย; 2545.