เมื่อได้ยินคำว่า เหมืองข้อมูล หลายคนนึกถึง เหมืองแร่ เมื่อนึกถึงเหมืองแร่ก็นึกถึง มหา'ลัย อ้าวยังไงกันครับ ก็ มหาลัยเหมืองแร่ ไง!!ครับ..พาออกนอกเรื่องแล้วครับ เหมืองที่จะกล่าวถึงที่นี้หมายถึง เหมืองข้อมูลครับ....ตามผมมา...
คำว่า เหมืองข้อมูล หรือที่เรียก Data Mining บางคนรู้ดี รู้ซึ้งก็ผ่านไปไม่ต้องอ่าน แต่หลายคนอาจพอได้ยินมาบ้าง หรืออาจจะไม่เคยได้ยินเลย นักวิชาการส่วนใหญ่มักจะคุยกันแต่คำว่า ดาต้าไมน์นิ่ง หรือ เดต้าไมน์นิ่ง ยังไงก็แล้วแต่นะครับ
แล้ว เหมืองข้อมูล(Data Mining) คือไร ? กันแน่ ผมตอบแบบลูกทุ่งความหมายคล้ายๆกับเหมืองแร่นะแหล่ะครับ แทนที่จะมีแร่ ก็มีข้อมูลแทน องค์กรไม่ว่าจะเป็นทางธุรกิจหรือองค์กรรัฐบาล ล้วนแต่มีข้อมูลจัดเก็บอยู่มากมาย อาจจะเป็นข้อมูลด้านการเงิน,ข้อมูลด้านบุคลากร และข้อมูลอื่นๆที่เกี่ยวข้องกับองค์กร ยิ่งถ้าเป็นองค์กรขนาดใหญ่ก็มีข้อมูลกระจายเก็บอยู่ตามแผนก,กรม,กอง,ฝ่าย อยู่เป็นจำนวนมาก ข้อมูลที่กระจัด กระจาแยกกันเก็บนี่แหล่ะทำให้การจัดการและการนำข้อมูลไปใช้ประโยชน์ทำได้ไม่เต็มที่ ยากต่อการดึงมาใช้งาน ข้อมูลเกิดการซ้ำซ้อน ไม่เป็นระเบียบ ก็เลยมีวิธีการจัดการกับข้อมูลที่อยู่กระจัดกระจายหลายรูปแบบเหล่านี้วิธีการนี้ก็คือการทำเหมืองข้อมูลหรือการทำ Data Mining นั่นเอง ก็คือการนำข้อมูลเหล่านั้นมารวบรวม คัดแยกเอาเฉพาะข้อมูลที่เป็นประโยชน์มาจัดเรียง จัดหมวดหมู่ เพื่อให้ง่ายต่อการดึงมาใช้เป็นการสร้างองค์ความรู้ให้กับองค์กร ที่บอกไว้ว่าคล้ายกับเหมืองแร่ก็คือกว่าจะได้เป็นแร่ ต้องขุดเป็นทั้งหินและดิน มาร่อนด้วยตะแกรง ทำการคัดแยกเพื่อให้ได้แร่ออกมาไงครับ....แล้ววิธีการทำ Data Mining หล่ะทำยังไงดีครับ....
ทำไมต้องมี Data Mining ?
มีการแข่งขันทางธุรกิจสูง แต่ละองค์กรจะนำหลักการของของ data mining ไปสร้างตารางช่วยในการตัดสินใจอย่างหนึ่ง เพื่อกำหนดทิศทางเพื่อให้องค์กรประสบผลสำเร็จตามเป้าหมายที่วางเอาไว้ เช่น การสำรวจถึงพฤติกรรมของผู้บริโภค,แนวโน้มของยอดขายสินค้า,วิเคราะห์ตลาดหุ้น,การวางแผนการใช้ทรัพยากร ฯลฯ
ช่วยให้มีการตัดสินใจได้แม่นยำขึ้น เพราะกรรมวิธีการทำ data mining ละเอียดซับซ้อนมากกว่าการสืบค้น(Query)จากฐานข้อมูล ลึกกว่าการได้ข้อมูลรายงานผลจากการวิเคราะห์แบบออนไลน์ OLAP(Online Analytical Processing) เสียอีก data mining จึงถูกนำมาใช้ในองค์กรหลายลักษณะอย่างกว้างขวาง เช่น การพยากรณ์สภาพอากาศ การวางแผนทางธุรกิจ ทางการแพทย์ ด้านอุตสาหกรรม เป็นต้น
วิธีการทำ Data Mining
สำรวจความต้องการข้อมูลของหน่วยงานย่อยในองค์กร อาจจะต้องสำรวจโดยแบบสอบถามว่าต้องการข้อมูลในลักษณะไหน ข้อมูลอะไรบ้างและข้อมูลที่จัดเก็บข้อมูลอะไรบ้าง สำรวจเลยทีเดียวพร้อมกันเลยครับจะได้ไม่เสียเวลา
ต้องกำหนดเป้าหมายหรือวัตถุประสงค์ของการนำ data mining มาใช้ให้ชัดเจน เรียงลำดับถึงความสำคัญ ความจำเป็นเร่งด่วนแจงเป็นข้อๆ ว่าต้องการรู้เรื่องใดบ้าง ประโยชน์ หรือผลสำเร็จที่จะได้รับว่าคุ้มค่าต่อการลงทุนไปหรือไม่ และหากไม่ทำ data mining จะมีผลกระทบมากน้อยเพียงใด(ข้อนี้สำคัญมาก)
รวบรวมข้อมูลตามแผนกต่างๆในองค์กร มากองรวบรวมเอาไว้ก่อนไม่ว่าจะเป็นข้อมูลลักษณะไหนก็แล้วแต่ครับอาจจะเป็นในรูปแบบของแฟ้ม หนังสือ ไฟล์ข้อมูลหลายๆรูปแบบลักษณะ
คัดส่วนที่ไม่เป็นประโยชน์ออกไป อาจเป็นข้อมูลเก่า ล้าสมัยไปแล้ว เพื่อให้ข้อมูลเหลือน้อยลง
คัดแยกข้อมูลออกเป็นหมวดหมู่ โดยให้ข้อมูลคล้ายๆกันอยู่ใกล้เคียงกัน
กำหนดสื่อหรือรูปแบบข้อมูลที่จะจัดเก็บ โดยคำนึงถึงความสะดวกรวดเร็วต่อการนำมาใช้งาน อาจจะเก็บในรูปแบบฐานข้อมูล,เวิร์คชีต,html,pdf,xml เป็นต้น สะดวกกว่าก็ขึ้นอยู่กะความเหมาะสมที่จะพิจารณา
นำข้อมูลบันทึกเข้าสู่สื่อบันทึก เช่น ป้อนเข้าสู่ระบบฐานข้อมูล,บันทึกไว้ในแผ่นบันทึกข้อมูล (ซีดี,ดีวีดี,เทป,ฮาร์ดดิสค์)
บันทึกเป็นระเบียน(เรคคอร์ด)ของข้อมูลที่จัดเก็บ เช่น แหล่งที่มาของข้อมูล,หน่วยงานต้นสังกัด,ประเภทข้อมูล,วันที่บันทึก,รูปแบบของสื่อ,ตำแหน่งที่เก็บบันทึก,เป็นข้อมูลที่ต้องเผยแพร่ออกนอกองค์กรหรือไม่ ถ้าใช่ อาจจะอัพโหลดขึ้นเว๊ปไซต์องค์กรเพื่อเผยแพร่ต่อไป ,ระดับชั้นของการเข้าถึงข้อมูลว่าใครบ้างที่มีสิทธิ์เข้าถึงข้อมูลเหล่านี้
เข้าสู่กระบวนการทางซอฟแวร์เพื่อทำ data mining อาจจะเป็นซอฟแวร์ที่พัฒนาเป็นการเฉพาะโดยใช้เครื่องมือ Tools ของบริษัทยักษ์ใหญ่ด้านฐานข้อมูล Oracle , Mircrosoft ก็ล้วนแต่มีจำหน่ายออกสู่ท้องตลาดทั้งสิ้น