การวิจัยพัฒนาทรัพยากรสำหรับการจัดการข้อมูลขนาดใหญ่บนเครือข่ายอินเตอร์เน็ต-การสืบค้นข้อมูลและการขุดหาข้อมูลปีที่ 2

ridm@nrct.go.th ระบบคลังข้อมูลงานวิจัยไทย รายการโปรดที่คุณเลือกไว้

การวิจัยพัฒนาทรัพยากรสำหรับการจัดการข้อมูลขนาดใหญ่บนเครือข่ายอินเตอร์เน็ต-การสืบค้นข้อมูลและการขุดหาข้อมูลปีที่ 2

หน่วยงาน สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ

รายละเอียด

ชื่อเรื่อง	:	การวิจัยพัฒนาทรัพยากรสำหรับการจัดการข้อมูลขนาดใหญ่บนเครือข่ายอินเตอร์เน็ต-การสืบค้นข้อมูลและการขุดหาข้อมูลปีที่ 2
นักวิจัย	:	ธนารักษ์ ธีระมั่นคง , Thanaruk Theeramunkong
คำค้น	:	กาตจัดการข้อมูลขนาดใหญ่บนอินเตอร์เน็ต , การประมวลผลภาษาธรรมชาติ , ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ
หน่วยงาน	:	สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ
ผู้ร่วมงาน	:	-
ปีพิมพ์	:	2545
อ้างอิง	:	http://www.nstda.or.th/thairesearch/node/20131
ที่มา	:	-
ความเชี่ยวชาญ	:	-
ความสัมพันธ์	:	-
ขอบเขตของเนื้อหา	:	-
บทคัดย่อ/คำอธิบาย	:	"ปัจจุบันอินเตอร์เน็ต (Internet) เป็นที่ใช้กันแพร่หลายทั่วไป โดยเฉพาะการนำมาใช้ในการเผยแพร่ข้อมูล การทำธุรกรรมบนเครือข่าย การค้นหาข้อมูล เป็นต้น ในประเทศไทยก็เช่นเดียวกัน ข้อมูลต่างๆ มีขนาดใหญ่ขึ้น การขยายตัวของปริมาณข้อมูลเป็นอย่างรวดเร็วมาก ซึ่งทำให้เรามีข้อมูลมากมายที่สามารถนำมาใช้ได้ อย่างไรก็ตาม ในอีกด้านหนึ่งการเพิ่มขยายตัวของข้อมูลทำให้เราประสบกับปัญหาการมีข้อมูลมากมายจนไม่สามารถนำมาได้ (Information Overload) การวิจัยพัฒนาทางด้านการจัดการข้อมูลขนาดใหญ่บนเครือข่าย จึงเป็นสิ่งที่จำเป็นมาก นอกจากนี้ข้อมูลที่อยู่บนเครือข่าย ส่วนใหญ่อยู่ในรูปแบบของตัวอักษร ซึ่งไม่มีโครงสร้างที่ชัดเจนแต่มีความหมายและสามารถนำมาใช้ประโยชน์ได้มาก จึงทำให้ต้องมีการศึกษาค้นคว้าและพัฒนาการจัดการข้อมูลตัวอักษรจำนวนมากนี้ เพื่อให้สามารถนำมาใช้ประโยชน์ได้ ซึ่งเทคโนโลยีที่มีความสำคัญมากในงานวิจัยนี้ก็คือ เทคโนโลยีด้านการประมวลผลภาษาธรรมชาติ และเทคโนโลยีปัญญาประดิษฐ์ ปัจจุบัน ในประเทศไทยงานวิจัยและพัฒนาในการประยุกต์นำเทคโนโลยีทางด้านการประมวลผลภาษาธรรมชาติและเทคโนโลยีปัญญาประดิษฐ์มาใช้ในการจัดการข้อมูลขนาดใหญ่บนอินเตอร์เน็ตยังมีน้อยมาก ทั้งๆ ที่ข้อมูลภาษาไทยที่อยู่บนเครือข่าย ก็มีขนาดใหญ่ขึ้นมาก และมีอัตราการขยายตัวสูง ดังนั้นการศึกษาวิธีการจัดการข้อมูลภาษาไทยผสมผสานกับภาษาอื่น เช่น ภาษาอังกฤษซึ่งมีอยู่มากที่สุดในเครือข่ายอินเตอร์เน็ต จึงเป็นสิ่งที่สำคัญ_x000D_ โครงการที่เสนอนี้เป็นโครงการวิจัยพัฒนาฐานข้อมูลและระบบสารสนเทศที่ช่วยให้เราสามารถนำข้อมูลขนาดใหญ่บนเครือข่ายอินเตอร์เน็ต (Internet) มาใช้ให้เกิดประโยชน์อย่างมีประสิทธิผล โดยโครงการนี้ได้เริ่มปฏิบัติการมาได้ 1 ปี แล้วและปีที่เสนอนี้เป็นปีที่ 2 ภายใต้โครงการต่อเนื่อง 3 ปี และในปีแรกได้สร้างฐานข้อมูลพื้นฐาน เครื่องมือพื้นฐาน รวมทั้งได้ ศึกษาพื้นฐานเกี่ยวกับการสืบค้นข้อมูล (Information Retrieval) และการขุดหาข้อมูล (Data Mining) ปีที่ 2 จะเน้นการพัฒนาระบบสืบค้นข้อมูลรวมทั้งการสร้างฐานข้อมูลต่อเนื่องจากปีแรก และในปีที่ 3 จะเน้นการสร้างระบบขุดหาข้อมูลและการสร้างฐานข้อมูลต่อเนื่องจากสองปีแรก โครงการการวิจัยและพพัฒนานี้ประกอบขึ้นจาก 4 ส่วนหลักด้วยกันคือ (1) การพัฒนาและสร้างฐานข้อมูลจากเครือข่ายอินเตอร์เน็ตและซอฟต์แวร์พื้นฐานเพื่อช่วยในการสร้างฐานข้อมูลและนำฐานข้อมูลเหล่านี้ไปใช้ (2) การพัฒนาระบบจัดการข้อมูลซึ่งรวมไปถึงระบบทำดัชนีข้อมูล ระบบสืบค้นข้อมูล และระบบขุดหาข้อมูล (3) การเผยแพร่งานวิจัยในรูปของบทความทางวิชาการและ (4) การพัฒนาบุคลากรทางด้านการประมวลผลภาษาธรรมชาติ ปัญญาประดิษฐ์ การสืบค้นข้อมูลและการขุดหาข้อมูล โครงการนี้จะเน้นการศึกษาทำระบบประยุกต์ต้นแบบที่ใช้งานได้จริง โดยเฉพาะข้อมูลด้านวิทยาศาสตร์การแพทย์ ข้อมูลด้านการท่องเที่ยว และข้อมูลด้านการศึกษาเป็นหลัก โดยจะสร้างฐานข้อมูลพื้นฐานของข้อมูลที่อยู่บนอินเตอร์เน็ต ซอฟร์แวรพื้นฐานที่เกี่ยวกับการจัดการข้อมูลขนาดใหญ่ รวมทั้งถึงระบบทำดัชนีข้อมูล ระบบจัดหมวดหมู่ข้อมูล ระบบสืบค้นข้อมูล ระบบขุดหาข้อมูล ซึ่งจะมีประโยชน์ต่อการศึกษาวิจัยในสาขาอื่นๆ และสามารถนำมาพัฒนาไปในเชิงพาณิชย์ ปัจจุบันโครงการนี้ได้ดำเนินการมาแล้ว 1 ปี จากระยะเวลา 3 ปี ของโครงการต่อเนื่องที่เสนอในปี 2543 โดยมีผลงานต่างๆ ประกอบด้วย ข้อมูลการจัดหมวดหมู่ที่อยู่บนอินเตอร์เน็ต โปรแกรมพื้นฐานเพื่อการจัดการข้อมูลบนเครือข่ายอินเตอร์เน็ต ต้นแบบโปรแกรมเพื่อการสืบค้นข้อมูล (Search engine) Recently the lnternet has grown up and spread over the world, especially World Wide Web (www.) The Internet can be viewed as a large-scaled knowledge base storing a large number of informational documents. These documents are created by various people from various societies with varied experience. They are very useful for many tasks including information exchange, research, development, education, decision-making and so. On the other hand, we face with the problem of information overload. That is, there are too much information to deal with. While the number of linked computers are growing up,the number of documents inside the Internet is also exponenticlly scaling up.As the result, It is not easy to fine information that on needs. One of the most difficulties is that documents are in the form of texts, which are not well structured. To analyze and utilize information in documents, we need multidisciplinary fields including natrual language processing, artificial intelligenceand so on. In Thailand, there is still little research and development to apply techniques in these areas to process documents (or other information) in the Internet. Therefore it is necessary to study and develop technology to deal with a large amount of textual information which is Thai, English or both._x000D_ The aim of this project is to research and develop resources or processing very large-scaled information on the Internet, especially focusing on information retrieval and dato mining. Lasting for three years, the first phase (the first year) , we focus on constructing basic databases. fundmental toolkits andnecessary knowledge for information retrievla nad dato mining. The scope of the second phase (the second year) is to develop an information retrieval (IR) systemt, to study the fundamental of data mining and to extend our constructed the basic databases. The last phase (the third year) aims to design and implement a data mining system,. to enhance our previous databases and to improve our IR system. This project focuseson developing a set of tools and system, which can be used in the real situation. As information in the Internet, the areas of interest are pharmaceutical (drung). tourist and educational information . The output of the project will be very useful for research on natural language processing, artificial intelligence and management science._x000D_ At the present time, the project came to the end of the first-year phase of the three-year project. The output and outcome within the first-year of the project includes web pages manually categorization information, basic tools for managing information on the Web, prototype search engine. In this second year, more database and basic tools witll be developed. Furthermore, a practical information retrueval (IR)system ( a search engine) will be constructed. Finally we will study more in data mining area to build a data mining system."_x000D_
บรรณานุกรม	:	APA Chicago MLA Vancouver ธนารักษ์ ธีระมั่นคง , Thanaruk Theeramunkong . (2545). การวิจัยพัฒนาทรัพยากรสำหรับการจัดการข้อมูลขนาดใหญ่บนเครือข่ายอินเตอร์เน็ต-การสืบค้นข้อมูลและการขุดหาข้อมูลปีที่ 2. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ. ธนารักษ์ ธีระมั่นคง , Thanaruk Theeramunkong . 2545. "การวิจัยพัฒนาทรัพยากรสำหรับการจัดการข้อมูลขนาดใหญ่บนเครือข่ายอินเตอร์เน็ต-การสืบค้นข้อมูลและการขุดหาข้อมูลปีที่ 2". ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ. ธนารักษ์ ธีระมั่นคง , Thanaruk Theeramunkong . "การวิจัยพัฒนาทรัพยากรสำหรับการจัดการข้อมูลขนาดใหญ่บนเครือข่ายอินเตอร์เน็ต-การสืบค้นข้อมูลและการขุดหาข้อมูลปีที่ 2." ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ, 2545. Print. ธนารักษ์ ธีระมั่นคง , Thanaruk Theeramunkong . การวิจัยพัฒนาทรัพยากรสำหรับการจัดการข้อมูลขนาดใหญ่บนเครือข่ายอินเตอร์เน็ต-การสืบค้นข้อมูลและการขุดหาข้อมูลปีที่ 2. ปทุมธานี : สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ; 2545.