Data Classification นั้นเป็นกระบวนการสร้างโมเดลจัดการข้อมูลให้อยู่ในกลุ่มที่กำหนดมาให้ เพื่อแสดงให้เห็นความแตกต่างระหว่าง class หรือ กลุ่มของข้อมูลได้ และเพื่อทำนายว่าข้อมูลนี้ ควรจัดอยู่ใน classใด ซึ่งโมเดลที่ใช้จำแนกข้อมูลออกเป็นกลุ่มตามที่ได้กำหนดไว้ จะขึ้นอยู่กับการวิเคราะห์เซตของข้อมูลทดลอง (Training data) โดยนำ Training data มาสอนให้ระบบเรียนรู้ว่ามีข้อมูลใดอยู่ในclass เดียวกันบ้าง ผลลัพธ์ที่ได้จากการเรียนรู้ คือ โมเดลจัดประเภทข้อมูล ( classifier model ) โมเดลนี้ สามารถแทนได้ในหลายรูปแบบ เช่น Classification (IF-THEN) rules, Decision Tree, Mathematical formulae หรือ Neural networks และจะนำข้อมูลส่วนที่เหลือจาก training data เป็นข้อมูลที่ใช้ทดสอบ ( testing data ) ซึ่งเป็นกลุ่มที่แท้จริงของข้อมูลที่ใช้ทดสอบนี้จะถูกนำมาเปรียบเทียบกับกลุ่มที่หามาได้จากโมเดลเพื่อทดสอบความถูกต้อง โดยเราจะปรับปรุงโมเดลจนกว่าจะได้ค่าความถูกต้องในระดับที่น่าพอใจ หลังจากนั้นเมื่อมีข้อมูลใหม่เข้ามา เราจะนำข้อมูลผ่านโมเดล โดยโมเดลจะสามารถทำนายกลุ่มของข้อมูลนี้ได้
# Data Classification มี 2 ขั้นตอนคือ #
1. Learning : ข้อมูลทดลอง (Trainning Data) จะถูกวิเคราะห์โดย algorithm ของ classification และ Learning model ถูกแทนในรูปของ classification rules ดังรูป
จากรูปอธิบายได้ว่า classification rules ที่ได้จะสามารถ เรียนรู้ว่าลูกค้าคนใดที่มี credit_rating ที่ excellent หรือว่าfair ซึ่งกฎนี้สามารถใช้ในการจัดกลุ่มของข้อมูลที่เข้ามาใหม่ได้
2. Classification เมื่อได้ classification rules จะมีการตรวจสอบว่ากฎที่ได้สามารถทำนายได้ถูกต้องแม่นยำหรือไม่ โดยการนำเอา test data ที่เราทราบแล้วว่ามันอยู่ในกลุ่มใด ไปเปรียบเทียบกับ learning model จากข้อ 1 5ถ้าหากว่าผลที่ได้มีความถูกต้อง ก็จะสามารถนำ model หรือกฎที่ได้ไปทำนาย credit_rating ของข้อมูลลูกค้าที่เข้ามาใหม่ได้
ไม่มีความคิดเห็น:
แสดงความคิดเห็น