สรุปการเรียนของอาจารย์อุ๋ม


Knowledge Discovery and retrieval,Data mining

 สรุปวันอาทิตย์ที่  14 กุมภาพันธ์ 2552(เช้า)

Data Mining เป็นกระบวนการ (Process) ที่กระทำกับข้อมูลขนาดใหญ่เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อมูลนั้นโดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง และหลักคณิตศาสตร์เพื่อให้ได้สารสนเทศที่เราไม่รู้ออกมา โดยสารสนเทศที่ได้จะมีเหตุผลและสามารถนำไปใช้ประโยชน์ได้

ความสามารถของ Data  mining  ประกอบด้วย

1.       สามารถทำนายแนวโน้มและพฤติกรรมต่างๆ โดยอัตโนมัติ

2.       ค้นหารูปแบบต่างๆที่ผ่านมาได้อัตโนมัติ

Taxt  mining

การประยุกต์ใช้ data  mining  กับแฟ้มข้อมูลแบบตัวอักษรและเป็นแบบไม่มีโครงสร้าง  หรือมีโครงสร้างน้อย  Taxt  mining จะช่วยให้องค์กรทำสิ่งต่อไปนี้

1.       ค้นหาเนื้อหาที่แฝงเร้น ของเอกสารต่างๆๆรวมทั้งแสดงความสัมพันธ์กันที่มีประโยชน์เพิ่มเติมเข้ามาด้วย

2.       จัดกลุ่มเอกสารให้อยู่ในเรื่องเดียวกัน เช่นการแยกแยะลูกค้า

Web  mining

เป็นการประยุกต์ใช้ของ Data Mining          เพื่อค้นหารูปแบบที่มีความหมาย  สมควรใช้ หรือรูปร่างและแนวโน้มที่เกิดขึ้นจาก  web resources

Web  mining มักจะนำมาใช้ในพื้นที่ต่อไป ทำการคัดกรองสารสนเทศ สำหรับการวิเคราะห์ผู้ใช้  และการบริการต่างๆ ที่ต่อสู้กับบอาชญากรรมบนอินเตอร์เน็ต

Web  mining  สามารถรองรับฟังก์ชันต่อไปนี้ได้  resource  discovery  ระบุเอกสารหรือการบริการบนwebที่ไม่คุ้นเคย  แยกสารสนเทศตามกำหนด จากwebโดยอัติโนมัติ  เปิดเผยรูปแบบทั่วไปในแต่ละwebส่วนตัว หรือข้ามweb 

Knowledge  discovery  & retrieval

เป็นเรื่องเกี่ยวกับห้องสมุด  และการสืบค้นข้อมูล  และคน

การเสาะแสวงหาความรู้ด้วยวิธีการทางวิทยาศาสตร์  ประกอบด้วยขั้นตอนต่างๆดังนี้

การกำหนดปัญหา

การตั้งสมมติฐาน

การรวบรวมข้อมูลเพื่อพิสูจน์ สมมติฐาน  และสรุปผล

ซึ่งเป็นวิธีการหาความรู้ที่มีขั้นตอนอย่างเป็นระบบ  อาศัยความเป็นเหตุ  เป็นผลในการแสวงหาคำตอบ  และเป็นวิธีที่น่าเชื่อถือกว่าวิธีอื่นๆ

การวิจัยคือ  การศึกษาเพื่อค้นหาความจริงและความรู้ใหม่โดยใช้กระบวนการศึกษาที่เชื่อถือได้  มีวัตถุประสงค์เพื่อนำความรู้หรือความจริงที่ได้จากการวิจัย อธิบายสาเหตุเปลี่ยนแปลง  หรือควบคุมปรากฏในธรรมชาติหรือการพัฒนาที่ปฎิบัติ

รูปแบบการค้นหา Internet

Search Enging  การค้นหาข้อมูลโดยใช้โปรแกรม  Search  Enging  ของแต่ละเว็บไซต์ โดยระบุคำสำคัญหรือ  Keyword  เข้าไปแล้วได้รายชื่อที่เกี่ยวข้องออกมา

Web directories การค้นหาโดยเลือกจากรายชื่อเว็บหรือไดเร็กทอรีที่ทางเว็บไซต์ได้แยกหมวดหมู่เอาไว้

เว็บไซต์ดังๆ ส่วนใหญ่จให้บริการทั้งแบบ directory  และ        search engine  นอกจากนี้ยังมี mata search engine คือการค้นแบบเหนือชั้น โดยใช้เว็บบริการถ้าข้อมูลที่ได้ซ้ำกันก็จะเลือกมาแสดงเพียงรายการเดียว

การรักษาความปลอดภัยในเครื่องคอมพิวเตอร์  และการรักษาความปลอดภัยในเครื่อข่าย 

การแฮกเกอร์ ผู้เชี่ยวชาญที่มีความรู้ในการเจาะรหัสของระบบรักษาความปลอดภัของเครื่องคอมพิวเตอร์เครื่องอื่น เพื่อทดสอบความสามรถของรบบนั้น เพื่อป้องกันความปลดภัยของระบบตัวเอง

การแคร๊กเกอร์  ผู้เชี่ยวชาญมีความรู้ความสามารถในการตรวจเจาะรหัสของระบบรักษาความปลอดภัยของเครื่องคอมพิวเตอร์เครื่องอื่น เพื่อการบุกรุกระบบ หรือเข้าสู่เครื่องคอมพิวเตอร์อื่นเพื่อขโมยข้อมูลหรือทำลายข้อมูลผู้อื่นโดยผิดกฎหมาย

ส่วนสำคัญของคอมพิวเตอร์

ฮาร์ดแวร์  ซอฟแวร์  เน็ตเวอร์ค

ภัยคุกคามด้านความปลอดภัย

1.       ภัยคุกคามบนระบบเครือข่าย เช่น spamming  of e-mail bombing รบกวนการทำงานทำให้mail box เต็ม  ไวรัส  worms  and  Trojan  houses คอยทำลาย  software  or  program  มีความรุนแรงน้อยไปถึงมาก  มีหลายชนิด  เช่น  prrasitic virus  stealth  virus  polymorphic virus  macro virus  worms  Trojan houses  ภัยคุกคามด้านความปลอดภัย

2.       การเข้าสู่เครือข่ายโดยไม่ได้รับอนุญาต  โดยการลอบฟังข้อมูลที่ส่งผ่านเครือข่าย  ด้วยการแฮกเกอร์ จะไม่ทำอะไรต่อระบบ นอกจากลอบฟังข้อมูลอย่างเดียวซึ่งถ้าสามารถเข้าสู่เครือข่ายขององค์กรได้โดยไม่รู้ตัว 

3.       การโจรกรรมและการปลอมแปลง  เป็นภัยคุกคามที่เริ่มมาจากพนักงานของบริษัท ต้องการ ที่ถูกต้องตามกฎหมายไปใช้

เทคโนโลยีสำหรับระบบรักษาความปลอดภัย มี 2 ด้าน

1.       ด้านการรักษาความปลอดภัยให้เครือข่ายขององค์กร  การป้องกันไม่ให้บุคคลภายนอกเข้ามาภายในองค์กรได้

2.       ด้านการรักษาความปลอดภัยให้กับข้อมูลที่ส่งผ่านเครือข่าย  การป้องกันไม่ให้ข้อมูลที่ถูกส่งผ่านเครือข่ายถูกโจรกรรมหรือนำไปดัดแปลง แก้ซึ่งจะทำให้เกิดความเสียหายแก่การกำเนินธุรกิจขององค์กรได้

ด้านความปลอดภัยของเครือข่ายในองค์กร

การควบคุมทางกายภาพ  รักษาความปลอดภัยเพื่อป้องกันให้กับสถานที่ไม่ให้บุคคลที่ไม่พึ่งประสงค์เข้าได้

การควบคุมทางตรรกะ  รักษาความปลอดภัยเพื่อป้องกันที่ไม่ให้บุคคลอื่นที่ไม่พึ่งประสงค์เข้าในเครือข่ายขององค์กรได้ เช่นการใช้ user  และ passwordเป็นตัวกำหนดสิทธิ์

การตรวจสอบการเข้าสู่เครือข่ายโดยไม่ได้รับอนุญาต ดดยการตรวจสอบว่าใครใช้งานอะไร  หรือสร้างเซิร์ฟเวอร์ลวงไว้ การตั้ง Firewall

ด้านการรักษาความปลอดภัยให้กับข้อมูลที่ส่งผ่านเครือข่าย

มาตรการที่รักษาความลับของข้อมูล  เปรียบเหมือนจดหมายปิดผลึกซอง

มาตรการรักษาความถูกต้องของข้อมูล ตรวจต้นทางและปลายทางไม่ให้มีการแก้ไขเปรียบเหมือนให้มีรอยลบ

มาตรการระบุตัวบุคคล เช่นลายเซ็น password

มาตรการการป้องกันการปฎิเสธหรืออ้างความรับผิดชอบ  เหมือนการส่งจดหมายลงทะเบียน

มาตรการระบุอำนาจหน้าที่

ความปลอดภัยของ network  security

ความปลอดภัยของ server  โดยการติดตั้ง  firewall

ความปลอดภัยในการส่งข้อมูล โดยการเข้ารหัส และการถอดรหัส

 

ประเภทของข้อมูล

เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่นๆ เช่น

-        ข้อมูลแบบ Object oriented

-         ข้อมูลที่เป็น Text file

-         ข้อมูลมัลติมีเดีย

-         ข้อมูลในรูปของ Web Site

การประยุกต์ใช้

-        ธุรกิจค้าปลีก

-         การวิเคราะห์ผลิตภัณฑ์

-         การวิเคราะห์บัตรเครดิต

-         การวิเคราะห์การขาย

-         E-Commerce

-         ด้านการศึกษา

Data Mining คือขบวนการทำงานที่เรียกว่า process ที่สกัดข้อมูล (Extract data) จากฐานข้อมูลขนาดใหญ่ (Large Information) เพื่อให้ได้สารสนเทศ (Usefull Information) ที่เรายังไม่รู้ (Unknown data) โดยเป็นสารสนเทศที่มีเหตุผล (Valid) และสามารถนำไปใช้ได้ (Actionable) ซึ่งเป็นสิ่งสำคัญในการที่จะช่วยการตัดสินใจในการทำธุรกิจ Data Mininig เป็นโปรเซสที่สำคัญในการทำ Knowledge Discovery in Database ที่เราเรียกสั้นๆว่า KDD ส่วน Data Mining สามารถเรียกสั้นๆว่า DM ขั้นตอนการทำ Data Mining มี 4 ขั้นตอนหลักดังนี้

1.       Business Object Determination เป็นตัวจักรที่สำคัญในการทำ KDD เนื่องจากเป็นกำหนด ขอบเขต เป้าหมาย ของการทำ KDD ซึ่งจะมีผลต่อทุกๆขั้นตอนของการทำ KDD โดยนักวิเคราะห์ธุรกิจ (Business Analyst) จะต้อง Identify ปัญหาที่เกิดขึ้นในการทำธุรกิจให้ครอบคลุมและชัดเจนรวมทั้งวัตถุประสงค์ด้วย

2.       Data Preparation หน้าที่ของขั้นตอนนี้คือจัดการข้อมูลให้สามารถนำเข้าสู่อัลกอริทึมส์ของ Data Mining ได้ เช่น การทำ Data Cleaning, Data Integration, Data Reduction เป็นต้น ซึ่ง Data Preparation สามารถแบ่งออกเป็น 3 ส่วนได้แก่ Data Selection, Data Preprocessing และ Data Transformation

3.       Data Mining เป็นขั้นตอนการทำ Mining โดยมี operation ในการทำ Data Mining หลายแบบ เช่น Database Segmentation, Predictive Modeling, Link Analysis เป็นต้น แต่ละ Data Mining Operation จะมีอัลกอริทึมส์ให้เลือกใช้ เช่น การทำ Database Segmentation อาจใช้ K-Mean Algorithms หรืออาจใช้ Unsupervised Learning Neural Networks เช่น โมเดล Kohonen Neural Net ถ้าเป็นการทำ Predictive Modeling อาจใช้ CART (Classification And Regression Tree) หรืออาจใช้ Supervised Learning Neural Network เช่น Backpropagation Neural Net ถ้าเป็นการทำ Link Analysis ซึ่งมีการทำอยู่ 2 ลักษณะคือ Association Rule Discovery และ Sequential Pattern Discovery อาจใช้ Apriori Algorithms

4.       Analysis of Results and Knowledge Presentation เป็นขั้นตอนสุดท้ายสำหรับนักวิเคาะห์ข้อมูลที่จะต้องเก็บผลลัพธ์ของ Data Mining สรุปความหมายของผลลัพธ์ที่ได้ ซึ่งจะเป็นข้อมูลความรู้ (Knowledge) นำไปเป็นสารสนเทศที่ช่วยในการตัดสิน

 

 

Data Mining เป็นวิชาใหม่ทางด้านคอมพิวเตอร์    ที่เพิ่งเข้ามาใน

เมืองไทยเพียงไม่กี่ปี   จุดประสงค์หลักของการใช้ Data Mining ก็เพื่อช่วยวิเคราะห์การตัดสินใจ  เป็นการสกัดข้อมูลที่เก็บเอาไว้ในฐานข้อมูลขนาดใหญ่ เพื่อให้เห็นถึง Pattern  ที่ซ่อนอยู่ภายใน  และนำมาวิเคราะห์การตัดสินใจ พยากรณ์ทางธุรกิจ จะส่งผลให้องค์กรนั้นมีความได้เปรียบทางการแข่งขัน

                Data Mining  หรือที่เรียกว่า  การทำเหมืองข้อมูล, การสกัดข้อมูล  คือ  การค้นหาความสัมพันธ์ (Association)  และรูปแบบทั้งหมด (Pattern) ซึ่งถูกซ่อนไว้ในฐานข้อมูล  Data Mining  จะทำการวิเคราะห์ปริมาณข้อมูลจำนวนมากอย่างอัตโนมัติ  ให้อยู่ในรูปแบบที่เต็มไปด้วยความหมาย  โดยความสัมพันธ์ของข้อมูลจะแสดงให้เห็นถึงความรู้ (Knowledge) ต่าง ๆ ที่มีประโยชน์ในฐาน

ข้อมูล

                การใช้ Data Mining เพื่อประโยชน์ในงาน ดังต่อไปนี้

-          การจัดหมวดหมู่หรือการแยกกลุ่มข้อมูล (Classification)

-          การประเมินค่า (Estimation)

-          การทำนายล่วงหน้า (Prediction)

-          การจัดกลุ่มโดยอาศัยความใกล้ชิด (Affinity Group)

-          การรวมตัวหรือการรวมกลุ่มข้อมูล (Clustering)

-          การบรรยาย (Description)

ในการทำ Data Mining  จะต้องเลือกใช้เทคนิค และเลือกใช้ Tools ให้เหมาะสมกับงาน ซึ่งในหนึ่งงานอาจใช้มากกว่าหนึ่งเทคนิค

ความหมาย Data Mining 

œ   เหมืองข้อมูล คือ กระบวนการสกัดความรู้ที่น่าสนใจจากข้อมูลปริมาณมาก ซึ่งความรู้ที่ได้จากกระบวนการนี้เป็นความรู้ที่ไม่ปรากฏให้เห็นเด่นชัด

œ   เหมืองข้อมูล คือ การค้นหาความสัมพันธ์และรูปแบบทั้งหมดซึ่งมีอยู่จริงในฐานข้อมูล แต่ถูกซ่อนไว้ภายในข้อมูลจำนวนมาก

œ   เหมืองข้อมูล เป็นเครื่องมือที่ช่วยให้ผู้ใช้เข้าถึงข้อมูลได้โดยตรงจากฐานข้อมูลขนาดใหญ่

œ   เหมืองข้อมูล เป็นเครื่องมือ และ Application ที่สามารถแสดงผลการวิเคราะห์ข้อมูลทางสถิติได้

œ   เหมืองข้อมูล หมายถึง การวิเคราะห์ข้อมูล เพื่อแยกประเภท จำแนกรูปแบบและความสัมพันธ์ของข้อมูลจากคลังข้อมูลหรือฐานข้อมูลขนาดใหญ่   และนำสารสนเทศไปใช้ในการตัดสินใจธุรกิจ

œ   ได้องค์ความรู้ใหม่

คำสำคัญ (Tags): #kmsdu
หมายเลขบันทึก: 254921เขียนเมื่อ 10 เมษายน 2009 18:59 น. ()แก้ไขเมื่อ 8 มิถุนายน 2012 00:38 น. ()สัญญาอนุญาต: ครีเอทีฟคอมมอนส์แบบ แสดงที่มา-ไม่ใช้เพื่อการค้า-อนุญาตแบบเดียวกันจำนวนที่อ่านจำนวนที่อ่าน:


ความเห็น (0)

ไม่มีความเห็น

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท