อ้างอิงปฐมภูมิจาก Michael J.A Berry, Gordon S. Linoff :Data Mining Techniques,2004
จากที่ได้ว่ากันไปถึงเรื่อง Database, Data Wharehouse, Data Mart, คราวนี้ก็มาต่อกันเรื่องที่ว่าในการจะทำ Data Mining นั้นจะต้องรู้อะไรบ้าง เพื่อขจัดความสับสน ซึ่งคราวนี้ผมจะเขียนเกี่ยวกับเรื่อง บทบาท(Role) ต่าง ๆ ที่ Data Mining มีความใกล้เคียง หรือคล้ายคลึงกันจนเกิดการสับสนบ่อยครั้ง แต่จริง ๆ แล้วมันแยกกัน ง่ายแสนง่ายโดยดูรูปเดิมประกอบอีกทีครับ
![]()
มาดูที่ภาพเดิมกันอีกซักครั้งนะครับ จากคราวที่แล้วเรา Focus ไปที่ ชุดสีเทากับสีฟ้านะครับ ตอนนี้เราจะมาไล่ไปตั้งแต่สีส้ม ซึ่งเป็นส่วนของ Data Mart จำง่าย ๆ Data Mart ก็คือ “การจัดสิทธ์การรับรู้ข้อมูล” ว่าแผนกใหนควรรู้อะไร แล้วภายในแผนกนั้นใครควรรู้จำนวนเท่าไหร่ กรณีนี้เป็น Trend ของ BI ขณะนี้คือผู้ที่จะใช้ไม่จำเป็นต้องเป็นผู้บริหารเท่านั้นแต่เป็นการใช้งานได้ทุก ๆ คนที่จำเป็น หมายความว่าในสมัยหใม่นี้เขามองว่า Operation ในทุก ๆ ระดับนั้นมีส่วนช่วยในการตัดสินใจไปตั้งแต่แรก เรียกได้ว่าก็มีข้อมูลให้ใช้นี่ ก็ใช้ให้เกิดประโยชน์สิ! เช่นเมื่อก่อนการตัดสินใจให้ส่วนลด หรือการให้เครดิตเพิ่มกับลูกค้าที่บังเอิญมีความจำเป็นต้องสั่งของเกินวงเงินที่เราให้ ในสมัยก่อนก็ต้องรายงานกันเป็นชั้น ๆ กว่าจะได้ข้อมูลในการตัดสินใจว่า กว่าจะรู้ว่าจะให้ส่วนลดเท่าไหร่ก็กินเวลาไปโขแล้ว แต่ว่าตอนนี้ก็ถ้ามอบอำนาจการตัดสินใจให้ Operation เขาก็สามารถใช้ข้อมูลของ Data Mining ในการช่วยตัดสินใจได้
ชักจะงงมั้ยครับ ผมก็ว่าน่าจะงงนิด ๆ แหละครับ เอาเป็นว่าผมไปว่าเรื่อง Role ต่อเลยดีกว่า เขียนอะไรที่ชวนงงนี่ผมก็ไม่ชอบเหมือนกัน
มา! มาเริ่มกันใหม่ดีกว่าที่บอกมาก็เอาเป็นว่าพอเข้าใจไป เรื่องนี้สำคัญกว่าครับ
- Role of Transaction Processing Systems (TPS) เป็นการทำงานประจำวันกับรายการที่เกิดขึ้นเช่นรายการขาย รายการเข้าออกของเงิน จากรายการเดินบัญชี หรืออื่น ๆ ที่วิ่งอยู่อย่างไม่หยุดนิ่ง อาจมีการแก้ไข ลบหรือเพิ่มอยู่ตลอดเวลา ข้อมูลพวกนี้จะเป็นชุดสีเทาของรูป โดยส่วนมากคนบางกลุ่มมักสับสนกับ OLTP ซึ่งเป็นการประมวลผลกับ TPS เช่นเดียวกัน
- Role of Data Warehousing (DW) เป็นการเก็บข้อมูลเพื่อการทำการสกัดข้อมูล หรือทำ BI ในข้อมูลที่นิ่งแล้วหรือง่าย ๆ ก็คือก้อนสีเทาแหละครับ โดยเอามาจากหลายส่วนที่เกี่ยวข้องกัน เพื่อที่เวลาใช้จะได้ไม่ต้องทำการ Query ใหม่ให้มันช้า เพราะว่าในการทำ Data Warehouse นีมักต้องเป็นข้อมูลที่นาน ๆ จึงจะเห็นแนวโน้ม เช่นจะพยากรยอดขายของสินค้าหนึ่ง ๆ ในเดือนมีนาคม ถ้าจะทำการพยากรณ์หรือหาแนวโน้ม ก็ต้องมีข้อมูลของเดือนมีนาซัก 5-6 ปี หรือยิ่งนานก็ยิ่งดี ภาพมันก็เลยต่างจาก TPS ครับออกจะเป็นคนละแนวเลยทีเดียว นิยามง่าย ๆ คือ “แหล่งเก็บข้อมูลที่นิ่งแล้วในรูปแบบพร้อมนำไปใช้ทำการวิเคราะห์”
- Role of Data Mining (DM) โดยส่วนมากนะครับจะคิดว่าเป็นการทำงานกับ DW เท่านั้นแต่จริง ๆ แล้วมันเป็นได้ทั้ง TPS(ใช้ OLTP) และ DW โดย DM นี้เป็นกระบวนการในการสกัดข้อมูล โดยจะมี Model ที่คิดค้นขึ้นมาในหลาย ๆ Model และในหลาย ๆ รูปแบบ แบ่งได้เป็นรูปแบบง่าย ๆ คือใช้หน่วยความจำ(Muti-Dimension OLAP :MOLAP) กับใช้ฐานข้อมูลหรือการทำ Relation (Relation OLAP :ROLAP) และแบบผสมผสาน (Hybrid OLAP : HOLAP) และในปัจจุบันยังมีแบบที่ดึงข้อมูลมาไว้ที่เครื่อง Client เรียก (Desktop OLAP:DOLAP) ซึ่งตอนนี้ก็ยังพื้นอยู่นะครับ เพราะอธิบายไปก็เท่านั้น เอาไว้อธิบายแบบเน้น ๆ ตอน ปฏิบัติเลยแล้วกันครับ…