| การศึกษา Data
Mining มุ่งเน้นเกี่ยวกับข้อมูลที่มีโครงสร้างชัดเจน (Structured Data)
แต่อย่างไรก็ตามข้อมูลสารสนเทศที่เก็บอยู่บางส่วนจะอยู่ใน Text Database หรือ
Document Database ได้แก่ ิเอกสารบทความ ข่าว เอกสารวิชาการ เป็นต้น
ข้อมูลที่เก็บอยู่ใน Document Database
จะเป็นข้อมูลที่มีลักษณะโครงสร้างไม่ชัดเจน
(Semi-Structured Data) ลักษณะโครงสร้างข้อมูลแบบ
Semi-Structured Data คือโครงสร้างข้อมูลที่ประกอบด้วย Structured data
รวมอยู่กับ Unsturctured Data เช่น Title, Author, Publication_date เป็น
Structured data ส่วน Abstract และ Body หรือ contents จัดเป็น Unstructured
Data ซึ่งปัจจุบันมีข้อมูลที่เป็น Textual Information หรือ Document Data
เพิ่มมากเป็นปริมาณมหาศาล
จึงได้มีการพัฒนาโปรเซสที่จะสามารถวิเคราะห์ข้อมูลเหล่านี้ นั้นคือ Text
Mining ในวิธีการต่างๆของ Text Mining อาจมาจาก
Statistical Methodology หรือ
Machine Learning Algorithms
Text Mining
คือขบวนการทำงานที่เรียกว่า process ที่สกัดข้อมูล (Extract data)
จากฐานข้อมูลขนาดใหญ่ (Large Textual Information) เพื่อให้ได้สารสนเทศ (Usefull
Textual Information) โดยข้อมูลที่ถูกนำมา Mining เป็นข้อมูลที่มีลักษณะเป็น
Text data sets
Text Mining
สามารถเรียกสั้นๆว่า TM โดยมี operation ในการทำ Text Mining หลายแบบ เช่น
Document Clustering, Document Classification
, Summarizing Text เป็นต้น แต่ละ Text Mining Operation
จะมีอัลกอริทึมส์ให้เลือกใช้ เช่น การทำ Document Clustering อาจใช้
Hierarchical Clustering Algorithms หรืออาจใช้ Unsupervised Learning Neural
Networks เช่น โมเดล Kohonen Self-Organizing Map Neural Net ส่วนการทำ
Summarizing Text
เป็นการลดความซับซ้อนและขนาดของข้อมูลเอกสารโดยไม่ทำให้ความหมายหรือสาระสำคัญของข้อมูลเอกสารสูญเสียไป |