Data Mining คืออะไร

การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์

อ้างจาก th.wikipedia.org/wiki/การทำเหมืองข้อมูล

การทำเหมืองข้อมูล (Data Mining) หรืออาจจะเรียกว่า การค้นหาความรู้ในฐานข้อมูล (Knowledge Discovery in Databases – KDD) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อมูลจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อมูล คือ กระบวนการที่กระทำกับข้อมูล(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์

ความรู้ที่ได้จากการทำเหมืองข้อมูลมีหลายรูปแบบ ได้แก่

กฎเชื่อมโยง (Association rule): แสดงความสัมพันธ์ของเหตุการณ์หรือวัตถุ ที่เกิดขึ้นพร้อมกัน ตัวอย่างของการประยุกต์ใช้กฎเชื่อมโยง เช่น การวิเคราะห์ข้อมูลการขายสินค้า โดยเก็บข้อมูลจากระบบ ณ จุดขาย (POS) หรือร้านค้าออนไลน์ แล้วพิจารณาสินค้าที่ผู้ซื้อมักจะซื้อพร้อมกัน เช่น ถ้าพบว่าคนที่ซื้อเทปวิดีโอมักจะซื้อเทปกาวด้วย ร้านค้าก็อาจจะจัดร้านให้สินค้าสองอย่างอยู่ใกล้กัน เพื่อเพิ่มยอดขาย หรืออาจจะพบว่าหลังจากคนซื้อหนังสือ ก แล้ว มักจะซื้อหนังสือ ข ด้วย ก็สามารถนำความรู้นี้ไปแนะนำผู้ที่กำลังจะซื้อหนังสือ ก ได้
การแบ่งประเภทข้อมูล (Data classification): หากฏเพื่อระบุประเภทของวัตถุจากคุณสมบัติของวัตถุ เช่น หาความสัมพันธ์ระหว่างผลการตรวจร่างกายต่าง ๆ กับการเกิดโรค โดยใช้ข้อมูลผู้ป่วยและการวินิจฉัยของแพทย์ที่เก็บไว้ เพื่อนำมาช่วยวินิจฉัยโรคของผู้ป่วย หรือการวิจัยทางการแพทย์ ในทางธุรกิจจะใช้เพื่อดูคุณสมบัติของผู้ที่จะก่อหนี้ดีหรือหนี้เสีย เพื่อประกอบการพิจารณาการอนุมัติเงินกู้
การแบ่งกลุ่มข้อมูล (Data clustering): แบ่งข้อมูลที่มีลักษณะคล้ายกันออกเป็นกลุ่ม แบ่งกลุ่มผู้ป่วยที่เป็นโรคเดียวกันตามลักษณะอาการ เพื่อนำไปใช้ประโยชน์ในการวิเคราะห์หาสาเหตุของโรค โดยพิจารณาจากผู้ป่วยที่มีอาการคล้ายคลึงกัน
จิตทัศน์ (Visualization): สร้างภาพคอมพิวเตอร์กราฟฟิกที่สามารถนำเสนอข้อมูลมากมายอย่างครบถ้วนแทนการใช้ขัอความนำเสนอข้อมูลที่มากมาย เราอาจพบข้อมูลที่ซ้อนเร้นเมื่อดูข้อมูลชุดนั้นด้วยจิตทัศน์

ขั้นตอนการทำเหมืองข้อมูล

ทำความเข้าใจปัญหา
ทำความเข้าใจข้อมูล
เตรียมข้อมูล
สร้างแบบจำลอง
ประเมิน
นำไปใช้งาน

ประโยชน์จากการทำเหมืองข้อมูล

การทำเหมืองข้อมูล จำเป็นต้องอาศัยบุคลากรจากหลายฝ่าย และต้องอาศัยความรู้จำนวนมาก ถึงจะได้รับประโยชน์อย่างแท้จริง เพราะสิ่งที่ได้จากขั้นตอนวิธีเป็นเพียงตัวเลข และข้อมูล ที่อาจจะนำไปใช้ประโยชน์ได้หรือใช้ประโยชน์อะไรไม่ได้เลยก็เป็นได้ ผู้ที่ศึกษาการทำเหมืองข้อมูลจึงควรมีความรู้รอบด้านและต้องติดต่อกับทุก ๆ ฝ่าย เพื่อให้เข้าใจถึงขอบเขตของปัญหาโดยแท้จริงก่อน เพื่อให้การทำเหมืองข้อมูลเกิดประโยชน์อย่างแท้จริง

เขียนใน GotoKnow โดย วิทยา พรพัชรพงศ์ , Wittaya Pornpatcharapong
ใน Business Intelligence

คำสำคัญ (Tags): #ai#bi#business-informatics#business-intelligence#computer#data-mining

หมายเลขบันทึก: 43216เขียนเมื่อ 7 สิงหาคม 2006 20:17 น. ()แก้ไขเมื่อ 23 มิถุนายน 2012 22:54 น. ()สัญญาอนุญาต: จำนวนที่อ่าน

ความเห็น (21)

สุวนิตย์

เขียนเมื่อ 24 ตุลาคม 2007 13:36 น. ()

ขอบคุณคับ อ่านแล้วทำให้เข้าใจมากขึ้น พรุ่งนี้จะสอบแล้วววววววว

จุไรรัตน์

เขียนเมื่อ 21 กรกฎาคม 2008 11:51 น. ()

ขอบคุณมากนะค่ะ

จะได้นำข้อมูลไปทำรายงานค่ะ

หาตั้งนานกว่าจะเจอ

ขอบคุณจริงๆ ค่ะ

พลัฏฐ์ สุดศรีวิไล

เขียนเมื่อ 10 กรกฎาคม 2009 11:33 น. ()

ท่านอาจารย์ ครับ ผมได้รับการสอบจากท่าน 2 โปรแกรม คือ AlphaMiner และ Alyuda Forecaster XL 2.3 ปัญหาของผมคือ จำวิธีใช้ไม่ได้ครับ คือว่าเรียนมา 1ปีกว่าแล้วครับ ท่านอาจารย์พบจะช่วยสอนหรือมีคู่มือไหมครับ ขอขอบคุณท่านไว้ล่วงหน้าครับ

ขอแสดงความนับถือ

พลัฏฐ์ สุดศรีวิไล (MBA R.U. MLW1/3)

กะรัต คุณะเพิ่มศิริ

เขียนเมื่อ 18 สิงหาคม 2009 00:01 น. ()

อ่านบทความของอาจารย์แล้วได้ความรู้ความเข้าใจเพิ่มขึ้น และเมื่อไปหาข้อมูลอ่านประกอบเพิ่มเติมก็ทราบว่า OLAP (Online Analytical Processing) ก็เป็นอีกเครื่องมือหนึ่ง แต่ยังไม่ค่อยเข้าใจว่า เมื่อเปรียบเทียบกับ data mining แล้ว ใช้ต่างกันอย่างไรคะ ใช้ทดแทนกันได้ไหม และ ถ้าได้อันไหนเป็นนิยมมากกว่ากัน

ขอบคุณสำหรับความรู้ค่ะ

วิทยา พรพัชรพงศ์ , Wittaya Pornpatcharapong

เขียนเมื่อ 18 สิงหาคม 2009 01:58 น. ()

ตอบคุณพลัฏฐ์

คู่มือการใช้ Alpha Miner ผมไม่ได้เขียนไว้ครับ เขียนไว้แต่คู่มือ Alyuda Forecaster XL โดยไฟล์เป็น PDF มีขนาดประมาณ 11 MB ครับ เป็นคู่มือที่ใช้โปรแกรมนี้วิเคราะห์ฐานข้อมูล จปฐ. ของกรมการพัฒนาชุมชน กระทรวงมหาดไทย

ตอบคุณกะรัต

OLAP เป็นหนึ่งในเครื่องมือของ Data Warehouse ซึ่งช่วยตอบสนองคุณค่าองค์กรมากขึ้นได้ด้วยการทำ 3D Cube หาความสัมพันธ์ของตัวแปร 3 ตัว หมุนแกนไปมา หรือช่วยตอบสนองการประมวลผลเรียลไทม์ ทำ Dashboard, Cockpit ได้ข้อมูลทันสมัยมากขึ้น

แต่การทำเหมือนข้อมูล (Data Mining) นั้น เน้นหาความรู้ ความสัมพันธ์ใหม่ในฐานข้อมูล (ซึ่งอาจไม่จำเป็นต้องเป็น Data Warehouse ก็ได้) มีเทคนิคย่อยหลากหลายเทคนิค ซึ่งแต่ละเทคนิคก็มีจุดประสงค์และเงื่อนไขไม่เหมือนกันครับ เช่น ใช้ในการหาระดับความสัมพันธ์ของตัวแปร การพยากรณ์ผลลัพธ์ การพยากรณ์ลำดับเหตุการณ์ การทำแบบจำลองหาค่าที่ดีที่สุด ฯลฯ หากมีโอกาสได้เห็นผมสาธิตการประยุกต์ใช้ในการวางแผนองค์กรในชั้นเรียน ผมเชื่อว่าคุณกะรัตจะเข้าใจมากขึ้นครับ

พลัฏฐ์

เขียนเมื่อ 6 ตุลาคม 2009 13:26 น. ()

ท่านอาจารย์ ครับ Aluuda Forecaster XL ต้องใช้กับข้อมูลที่เป็นตัวเลขอย่างเดียวใช้ไหมครับ

(ผมได้ PDF มาแล้วครับ)

ขอบคุณมากครับ

วิทยา พรพัชรพงศ์ , Wittaya Pornpatcharapong

เขียนเมื่อ 6 ตุลาคม 2009 20:59 น. ()

ข้อมูลที่เป็นตัวหนังสือก็วิเคราะห์ได้ครับ

แต่ถ้าจะได้มีความน่าเชื่อถือในการวิเคราะห์มากขึ้น ควรทราบหลักการกำหนดตัวแปรเป็น Categories หรือ Nominal, Ordianl และจำนวนข้อมูลขั้นต่ำควรมีจำนวนไม่น้อยกว่า 10 เท่าของจำนวนตัวแปรด้วยนะครับ (ยิ่งมากก็ยิ่งดีครับ)

saisuda

เขียนเมื่อ 4 พฤศจิกายน 2009 19:10 น. ()

เนื่องจากเพิ่งเข้ามาศึกษาเรื่อง Data mining อยากเรียนถามอาจารย์ว่า หากต้องการวิเคราะห์ข้อมูลเพื่อใช้ในการวางแผนการผลิตสินค้าเกษตร โดยดูในเรื่องแนวโน้มราคา และปริมาณการผลิตทั้งในประเทศและต่างประเทศ น่าจะใช้โปรแกรมอะไรในการทำฐานข้อมูล และควรใช้โปรแกรมอะไรในการวิเคราะห์คะ

ขอบคุณอาจารย์มากค่ะ

วิทยา พรพัชรพงศ์ , Wittaya Pornpatcharapong

เขียนเมื่อ 5 พฤศจิกายน 2009 00:29 น. ()

ใช้โปรแกรมอะไรเป็นฐานข้อมูลก็ได้ครับ แล้วแต่ความถนัด หากได้ระดับ Data Warehouse ก็จะช่วยได้หลายอย่าง แต่ก็แพง

ไม่ว่าจะใช้ฐานข้อมูลแบบไหน ก็ขอให้เราดึงข้อมูลมาวิเคราะืห์ด้วยโปรแกรทต่างๆได้ ก็ไม่มีปัญหาแล้วครับ

ในการพยากรณ์แนวโน้มทำได้หลายวิธีครับ ไม่ว่าจะใช้หลักการทางสถิติทั่วไป เช่น Regression, Multiple Regression, Logistic Regression หรือจะใช้ Artificial Neural Networks เรียนรู้ีความสัมพันธ์ของข้อมูลชุดเดียว เปรียบเีทียบกับเป้าหมายที่สนใจ แล้วเราก็สามารถแทนค่าปัจจัยให้มันพยากรณ์ผลลัพธ์ได้เลยครับ

ส่วนโปรแกรมนั้นก็มีหลากหลายเช่นกัน หากสนใจเรื่อง Data Mining นี้ อาจเข้าไปหาโปรแกรมต่างๆ มาลองเล่นได้ หาได้ www.kdnuggets.com ได้เลยครับ

พัชรี

เขียนเมื่อ 21 กุมภาพันธ์ 2010 16:47 น. ()

อาจารย์คะ...ขอคำปรึกษาเกี่ยวกับการอ่านกฏ ของ k-means หน่อยคะ

คือว่า ทำวิจัยด้าน clustering โดยใช้ วิธี k-means แต่มีปัญฟหาเกี่ยวกับการอ่านกฏที่ได้คะ

ยังงัยขอความกรุณาอาจารย์ช่วยยกตัวอย่างการอ่านกฏ k-means หน่อยนะคะ

ขอบพระคุณมากคะ....

ปล.ตอนนี้กำลังเร่งโปรเจคอย่างมากเลยคะ จึงขอความกรุณาตอบให้ด่วนนะคะ ขอบพระคุณอีกครั้งคะ...

nupoychan

เขียนเมื่อ 13 พฤษภาคม 2010 11:31 น. ()

ตอนนี้หนูอยู่ปตรี ปีที่สี่

แต่ต้องทำงานวิจัย K-means clustering algorithm ซึ่งส่วนใหญ่เป็นของพี่ๆปโท

อาจารย์ช่วยลงบทความให้หน่อยนะคะ

ขอบคุนคะ

วิทยา พรพัชรพงศ์ , Wittaya Pornpatcharapong

เขียนเมื่อ 13 พฤษภาคม 2010 11:34 น. ()

จะพยายามหาเวลามาเขียนให้ครับ เพราะคนถามเรื่องนี้เยอะเหมือนกันครับ ^^

ศุภลักษณ์

เขียนเมื่อ 20 ตุลาคม 2010 15:42 น. ()

สวัสดีค่ะอาจารย์ หนูกำลังทำ thesis เกี่ยวกับการสร้าง daily load profile ของผู้ใช้ไฟฟ้า เป็นการประมาณค่าว่าในแต่ละวัน บ้าน 1 หลังจะมีระดับการใช้แต่ละชั่วโมงเป็นอย่างไร หนูได้เอาข้อมูลที่การไฟฟ้าบันทึกไว้หลายๆบ้าน มาทำการจัดกลุ่มโดยใช้ fuzzy c-mean หนูขอถามค่ะ

1. เทคนิคการกำหนดจำนวนกลุ่ม fuzzy c-mean ต้องทำอย่างไรบ้างคะ

2. ข้อมูลการใช้ไฟแต่ละบ้านที่บันทึกไว้ มันมีค่า outliers อยู่ จะต้องแก้ปัญหาอย่างไร และกรณีไฟฟ้าดับค่าจะเป็น 0 เราต้องตัดทิ้งไหมค่ะ

3. ข้อมูลที่มีความแตกต่างกันในแต่ละวัน เราจะแก้ปัญหาอย่างไรคะ เพราะเมื่อเอาไปวิเคราะห์ต่อ estimated parameter แล้วมันจะเพี้ยนๆ ค่ะ ได้ค่าไม่คอยแม่นยำเลย

ขอรบกวนอาจารย์เท่านี้ค่ะ ขอบคุณค่ะ

วิทยา พรพัชรพงศ์ , Wittaya Pornpatcharapong

เขียนเมื่อ 20 ตุลาคม 2010 16:05 น. ()

ปกติถ้าได้หัวข้อ Thesis เรื่องนี้มาแล้ว บทที่ 1,2,3 ต้องเสร็จแล้ว ได้ศึกษาทฤษฎีและการประยุกต์ใช้ของคนอื่นมาหมดแล้ว ไม่น่าจะต้องมาถามผมแล้วนะครับ

ตอบลัดเลย

2. ก่อนจะนำข้อมูลไปใช้ ไปวิเคราะห์ ต้องทำการกรองข้อมูลก่อน (Data Cleansing, Data Filtering) เพื่อขจัดข้อมูลนอกช่วง Outlier ที่จะทำให้สมการพยากรณ์ (สำหรับคนส่วนใหญ่) เพี้ยนไป ส่วนเลข 0 ต้องดูดีๆ ว่าจะใช้หรือไม่ หาก 0 แทนไม่มีการใช้ไฟฟ้า มันเป็นความเป็นจริง มันเป็นข้อมูลสำคัญว่าชั่วโมงนั้นของบ้านหลังนั้นไม่มีการใช้ไฟฟ้า ตัดสินไป ก็คำนวณไม่ได้ เพราะไม่ใช่ค่าว่าง

ตรวจสอบวัตถุประสงค์ของ Thesis ดู ว่างานนี้ต้องการจะสร้างสมการการพยากรณ์การใช้ไฟฟ้า แสดงว่าต้องมีตัวแปรทุกชั่วโมง พร้อมค่าสัมประสิทธิ์ มีค่าคงที่

3. ข้อมูลที่แตกต่างเป็นเรื่องธรรมดาครับ ไม่จำเป็นว่าบ้านหลังหนึ่งจะต้องใช้ไฟเท่ากันในทุกๆชั่วโมง มันเป็นความเป็นจริง ไปสั่งเค้าไม่ได้ เค้าเป็นลูกค้า เป็นสิทธิ์ของเค้าที่เค้าจะใช้ไฟ และจ่ายเงินเรา

ในเรื่องข้อมูล บ้านหนึ่งหลัง ก็จะได้เป็น 1 record ในพื้นที่หนึ่งๆ ก็จะมีหลาย record ที่มีข้อมูลปริมาณการใช้ไฟในแต่ละชั่วโมง เราต้องการที่จะมีข้อมูลมากๆ เพื่อจะสร้างสมการพยากรณ์ไงครับ อันนี้เป็นพื้ฐานสถิติพยากรณ์เลยนะครับ ไม่ใช่มีข้อมูลบ้านหลังเดียว แล้วสร้างสมการหลายตัวแปรได้ หรือเอาไปพยากรณ์หลังอื่นได้

อยากให้ทบทวนพื้นฐานคณิตศาสตร์ สถิติ และระบบการจัดการข้อมูลก่อนครับ เพราะคำถามพวกนี้ไม่น่าจะถามแล้วนะครับ น่าจะลุยไปเลย ติดปัญหาตรงไหน ก็ว่ากันไปครับ

IBM3

เขียนเมื่อ 1 กุมภาพันธ์ 2011 21:58 น. ()

ขอบคุณมากๆเลยค่ะอาจารย์ หนูเรียนบริหารอิเตอร์ อ่านtext book ไม่ค่อยรู้เรื่องเลยค่ะ มาอ่านแล้วเข้าใจมากขึ้นเลยค่ะ ขอบคุณมากๆนะคะเรียน ERP, BI,BPM etc เรียนลึกมากเลยค่ะยิ่งเป็นEngด้วย ถ้ายังไงเอามาลงบ่อยๆนะคะจะได้มาอ่านเพื่อความกระจ่างค่า ขอบคุณค่ะ^^

วิทยา พรพัชรพงศ์ , Wittaya Pornpatcharapong

เขียนเมื่อ 1 กุมภาพันธ์ 2011 22:04 น. ()

ขอบคุณครับ ผมเองก็สอน Data Mining, Business Intelligence, ERP ในระดับปริญญาโท ผมมีหนังสือเรื่องพวกนี้ที่เป็นภาษาอังกฤษ 500 เล่ม และได้ทยอมตีพิมพ์ผลงานวิจัยไปแล้วบางส่วน

อีกไม่นาน ผมจะเริ่มเขียนหนังสือเรื่องพวกนี้เ็ป็นภาษาไทยแล้วครับ รอติดตามข่าวต่อไปนะครับ

www.wittayaonline.com

คณะนิติศาสตร์ ม.นเรศวร

เขียนเมื่อ 22 มีนาคม 2011 04:54 น. ()

เรียนอาจารย์วิทยาค่ะ พอดีเจอเว็บนี้จาก google รู้สึกดีใจมากๆ พอดีกำลังศึกษาต่อป.โท ซึ่งจบด้านบรรณารักษ์แต่หักเหมาเรียนด้าน IT ซึ่งจะเน้นทางด้านภาษาคอมบ้างน่ะค่ะ อยากสอบถามทางอาจารย์ว่า ถ้าเราทำ semantic web กับ data mining เราสามารถนำมาใช้ในระบบศิษย์เก่าได้หรือเปล่าค่ะ พอดีเป็นความต้องการของคณะในการพัฒนาระบบศิษย์เก่าขึ้นมา แต่อยากเพิ่มเติมพวกนี้เข้าไปน่ะค่ะ (ไม่มีความรู้ทางด้านนี้เท่าไหร่อาจารย์ที่ปรึกษาแนะนำมาน่ะค่ะ)

ขอบพระคุณอาจารย์ล่วงหน้ามากค่ะ

วิทยา พรพัชรพงศ์ , Wittaya Pornpatcharapong

เขียนเมื่อ 22 มีนาคม 2011 11:26 น. ()

การทำ web mining มันได้อยู่แล้วครับ เหมือน www.amazon.com เมื่อลูกค้าจะซื้อสินค้าใด มันจะโชว์ข้อมูลแนะนำให้ด้วยข้างท้ายว่า ส่วนใหญ่ลูกค้าที่ซื้อสินค้าชิ้นนี้ไปแล้วมักจะซื้อสินค้าใดไปด้วย (Market Basket Analysis, Assocication Rules, Affinity Analysis, Buying Pattern Behavior)

แต่ในทางเทคนิคอาจพัฒนายากหน่อย เพราะต้องเขียนสมการพวกนี้ทั้งหมด (Algorithm ซับซ้อน) เป็นภาษา web programming

และอีกประการหนึ่ง Data Mining มีเทคนิคย่อยอีกมากมาย มีประโยชน์หลายอย่าง หากอยากใช้ประโยชน์ให้เต็มที่แล้ว ควรศึกษาด้านอื่นๆให้ถ่องแท้ จะได้ Design ตัวแปรในฐานข้อมูล เพื่อตอบรับ Data Mining ได้หลากหลายเทคนิค

Noon

เขียนเมื่อ 9 มิถุนายน 2012 20:08 น. ()

อาจารย์คะ คู่มือการใช้งาน Alyuda ที่อาจารย์เขียนไว้ สามารถหาโหลดได้จากที่ไหน รึว่าอาจารย์ทำเป็นหนังสือขายคะ ตอนนี้ทำงานวิจัยซึ่งคิดว่าจะใช้โปรแกรมนี้ แต่ยังไม่มีความรู้้ในการใช้โปรแกรมเลยค่ะ ขอรบกวนอาจารย์บอกแหล่งที่มา หรือแนะนำการใช้งานหน่อยค่ะ

ขอบคุณค่ะ

student

เขียนเมื่อ 19 สิงหาคม 2014 22:57 น. ()

อาจารย์ค่ะ พอจะยกตัวอย่าเว็ปไซต์ที่ ใช้การทำ data mining สัก 2-3 เว็ปได้ไม๊ค่ะ

student

เขียนเมื่อ 19 สิงหาคม 2014 22:58 น. ()

อาจารย์ค่ะ พอจะยกตัวอย่าเว็ปไซต์ที่ ใช้การทำ data mining มาทำเว็ปไซต์ สัก 2-3 เว็ปได้ไม๊ค่ะ