การจัดกลุ่มกระแสข้อมูลอนุกรมเวลาอย่างมีความหมายและแม่นยำ

ridm@nrct.go.th ระบบคลังข้อมูลงานวิจัยไทย รายการโปรดที่คุณเลือกไว้

การจัดกลุ่มกระแสข้อมูลอนุกรมเวลาอย่างมีความหมายและแม่นยำ

หน่วยงาน สำนักงานกองทุนสนับสนุนการวิจัย

รายละเอียด

ชื่อเรื่อง	:	การจัดกลุ่มกระแสข้อมูลอนุกรมเวลาอย่างมีความหมายและแม่นยำ
นักวิจัย	:	โชติรัตน์ รัตนามหัทธนะ
คำค้น	:	data mining , Data stream , Subsequence Clustering , Time Series , การจัดกลุ่มลำดับย่อย , การทำเหมืองข้อมูล , ข้อมูลแบบกระแส , อนุกรมเวลา
หน่วยงาน	:	สำนักงานกองทุนสนับสนุนการวิจัย
ผู้ร่วมงาน	:	-
ปีพิมพ์	:	2557
อ้างอิง	:	http://elibrary.trf.or.th/project_content.asp?PJID=MRG5380130 , http://research.trf.or.th/node/7566
ที่มา	:	-
ความเชี่ยวชาญ	:	-
ความสัมพันธ์	:	-
ขอบเขตของเนื้อหา	:	-
บทคัดย่อ/คำอธิบาย	:	การจัดกลุ่มลำดับย่อยสำหรับข้อมูลอนุกรมเวลาแบบกระแส เป็นหนึ่งในปัญหาที่ท้าทายมากที่สุดของการทำ เหมืองข้อมูลอนุกรมเวลา ตั้งแต่การจัดกลุ่มลำดับย่อยได้ถูกแสดงให้เห็นว่า การจัดกลุ่มจะให้คำตอบที่ไร้ความหมายใน เชิงการทดลอง และทฤษฎี การจัดกลุ่มลำดับย่อยของข้อมูลอนุกรมเวลาที่ถูกใช้ในหลายร้อยงานวิจัยนั้นจะให้คลื่นไซน์ เป็นตัวแทนกลุ่มเสมอ ถ้าให้ข้อมูลอนุกรมเวลาหนึ่ง ๆ การจัดกลุ่มลำดับย่อยของข้อมูลอนุกรมเวลาควรคืนค่าตัวแทน กลุ่มที่เป็นลักษณะของทุกลำดับย่อยในข้อมูลอนุกรมเวลา ส่วนสาเหตุที่ทำให้เกิดความไร้ความหมาย ถูกระบุไว้เป็น สองสาเหตุได้แก่ การใช้ระยะทางยุคลิดเป็นตัววัดระยะทางที่ไม่เหมาะสม และการใช้การเฉลี่ยค่าตามแอมพลิจูดเป็น ฟังก์ชันการเฉลี่ยที่ไม่เหมาะสม เพื่อที่จะได้มาซึ่งคำตอบของการจัดกลุ่มที่มีความหมาย ในงานวิจัยนี้ได้เสนอการจัด กลุ่มลำดับย่อยของข้อมูลอนุกรมเวลาตามรูป โดยใช้ระยะทางไดนามิกไทม์วอร์ปปิงและการเฉลี่ยค่าตามรูปแทน ระยะทางยุคลิด และการเฉลี่ยค่าตามแอมพลิจูดตามลำดับ ดังนั้นการจัดกลุ่มลำดับย่อยของข้อมูลอนุกรมเวลาตามรูป จะคืนผลลัพธ์ที่มีความหมายที่มากกว่าการจัดกลุ่มลำดับย่อยของข้อมูลอนุกรมเวลาแบบเดิม แต่อย่างไรก็ตาม การจัด กลุ่มลำดับย่อยของข้อมูลอนุกรมเวลาตามรูปไม่สามารถประยุกต์ใช้กับข้อมูลแบบกระแสได้โดยตรง เนื่องจากการจัด กลุ่มลำดับย่อยของข้อมูลอนุกรมเวลาตามรูปใช้เวลาในการประมวลผลนาน โดยคำนวณลำดับย่อยที่ผ่านมาทั้งหมดเมื่อ มีจุดข้อมูลใหม่เข้ามา งานวิจัยนี้จึงได้เสนอการจัดกลุ่มลำดับย่อยของข้อมูลอนุกรมเวลาแบบกระแสตามรูป ให้รองรับ กรณีข้อมูลแบบกระแส โดยคำนวณบนชุดข้อมูลขนาดเล็กของลำดับย่อยที่เก็บไว้ แทนที่จะคำนวณจากลำดับย่อย ทั้งหมด ซึ่งชุกข้อมูลของลำดับย่อยที่เก็บไว้ถูกปรับปรุงสำหรับทุก ๆ จุดข้อมูล เพื่อรักษาจำนวนลำดับย่อยในชุดข้อมูล ไม่ให้เกินกว่าจำนวนมากสุดที่อนุญาต ดังนั้นการจัดกลุ่มลำดับย่อยของข้อมูลอนุกรมเวลาแบบกระแสตามรูป จึงเร็ว กว่าการจัดกลุ่มลำดับย่อยของข้อมูลอนุกรมเวลาตามรูปอย่างมาก Subsequence clustering for time series data streams is one of the most challenging issues of time series data mining since subsequence clustering has been proven both theoretically and empirically that it produces meaningless clustering results, where hundreds of research works that utilize STSC as a preprocessing step and a subroutine are all affected. Given a time series sequence, subsequence clustering should return cluster representatives which represent characteristics of all subsequences in time series. Therefore, if cluster representatives are always sine waves regardless of inputs, clustering results are meaningless since they do not reflect characteristics of the subsequences. The causes of meaninglessness are identified in twofold, i.e., inappropriate uses of Euclidean distance as a distance measure and Amplitude Averaging as an averaging function. To achieve meaningful clustering results, in this research, Shape-based Subsequence Time Series Clustering (2STSC) is proposed to use Dynamic Time Warping (DTW) distance measure and Shape-based Averaging function. Therefore, 2STSC returns more meaningful results than those from STSC. However, 2STSC cannot directly apply to data streams since 2STSC consumes large computational complexity by considering all previous subsequences for every new incoming data point. Shape-based Streaming Subsequence Time Series Clustering (3STSC) is then proposed to handle the streaming case by calculating a clustering result on a small set of stored subsequences instead of calculating from all previous subsequences. The small set of stored subsequences is updated for every new incoming data point to maintain the number of stored subsequences not to exceed the maximum allowance number. 3STSC, therefore, is much faster than 2STSC, while 3STSC returns small distortions of clustering results.
บรรณานุกรม	:	APA Chicago MLA Vancouver โชติรัตน์ รัตนามหัทธนะ . (2557). การจัดกลุ่มกระแสข้อมูลอนุกรมเวลาอย่างมีความหมายและแม่นยำ. กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย. โชติรัตน์ รัตนามหัทธนะ . 2557. "การจัดกลุ่มกระแสข้อมูลอนุกรมเวลาอย่างมีความหมายและแม่นยำ". กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย. โชติรัตน์ รัตนามหัทธนะ . "การจัดกลุ่มกระแสข้อมูลอนุกรมเวลาอย่างมีความหมายและแม่นยำ." กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย, 2557. Print. โชติรัตน์ รัตนามหัทธนะ . การจัดกลุ่มกระแสข้อมูลอนุกรมเวลาอย่างมีความหมายและแม่นยำ. กรุงเทพมหานคร : สำนักงานกองทุนสนับสนุนการวิจัย; 2557.