ข้อมูลขนาดใหญ่
Big Data
พันเอก มารวย ส่งทานินทร์
10 กรกฎาคม 2558
บทความเรื่อง ข้อมูลขนาดใหญ่ (Big Data) นำมาจากหนังสือเรื่อง Big Data: A Business and Legal Guide ประพันธ์โดยJames R. Kalyvas และ Michael R. Overly จัดพิมพ์จำหน่ายโดยCRC Press, 2015
ผู้ที่สนใจเอกสารนี้แบบ PowerPoint (PDF file) สามารถ Download ได้ที่ http://www.slideshare.net/maruay/big-data-50353153
“ข้อมูลขนาดใหญ่ จะเป็นสาระสำคัญต่อการเปลี่ยนแปลงการตัดสินใจ ของธุรกิจและองค์กร”
ข้อมูลขนาดใหญ่ สำหรับผู้บริหาร
-
บทความนี้ เป็นการอธิบายคำว่า ข้อมูลขนาดใหญ่ (Big Data) ในภาษาคนธรรมดา (จากมุมมองของคนไม่มีความรู้ด้านเทคนิค) ถึงลักษณะที่แตกต่างจากข้อมูลขนาดใหญ่ กับรูปแบบฐานข้อมูลแบบดั้งเดิม ว่า
- 1. อะไรคือข้อมูลขนาดใหญ่? และลักษณะของข้อมูลขนาดใหญ่ (ปริมาณ ความแตกต่าง ความเร็ว และการตรวจสอบ)
- 2. แนวคิดการทำงานข้ามสายงาน ทักษะใหม่ และการลงทุน
- 3. วิธีการแสวงหาข้อมูลที่เกี่ยวข้อง
- 4. พื้นฐานของการทำงานด้านเทคโนโลยีของข้อมูลขนาดใหญ่
+++++++++++++++++++++++++++++
เกริ่นนำ
- ทุกวันนี้ มีการหารือถึงความสำคัญที่เพิ่มขึ้นและเร่งด่วน ของ "ข้อมูลขนาดใหญ่" (Big Data) ในห้องประชุมคณะกรรมการบริหาร การประชุมเชิงกลยุทธ์ และการดำเนินงานอื่น ๆ ขององค์กรทั่วโลก
- มีข้อสังเกตว่า ผู้บริหาร ผู้จัดการ และที่ปรึกษา อาจจะมีความเข้าใจที่แตกต่างกันมาก ในสิ่งที่เป็นข้อมูลขนาดใหญ่ เมื่อเทียบกับนักเทคโนโลยีและนักวิทยาศาสตร์ข้อมูล ที่อยู่ในองค์กรของพวกเขา
- ความเข้าใจที่แตกต่างกันเหล่านี้ มาจากการขาดคำนิยามที่ได้รับการยอมรับของข้อมูลขนาดใหญ่ ทำให้เกิดความเข้าใจร่วมกันน้อยมากระหว่างผู้บริหาร ผู้จัดการ และที่ปรึกษา ที่ไม่ได้มีส่วนเกี่ยวข้องกับเทคโนโลยีการทำงานของข้อมูลขนาดใหญ่ในชีวิตประจำวัน
1. อะไรคือข้อมูลขนาดใหญ่?
- ข้อมูลขนาดใหญ่ เป็นกระบวนการส่งมอบข้อมูลเชิงลึกที่ใช้ในการตัดสินใจ โดยการใช้คนและเทคโนโลยีวิเคราะห์ข้อมูลจำนวนมากที่แตกต่างกัน ได้อย่างรวดเร็ว (ของข้อมูลที่มีโครงสร้างแบบดั้งเดิม และข้อมูลที่ไม่มีโครงสร้าง เช่น รูปภาพ วิดีโอ อีเมล์ ข้อมูลการทำธุรกรรม และปฏิสัมพันธ์สื่อสังคม) จากความหลากหลายของแหล่งที่มา ในการผลิตกระแสความรู้ที่สามารถนำมาใช้ในการดำเนินการได้
นิยามที่ใช้อ้างอิงบ่อย
- "ข้อมูลขนาดใหญ่" หมายถึงชุดข้อมูลที่มีขนาดเกินกว่าความสามารถของซอฟต์แวร์ฐานข้อมูลทั่วไปที่จะ บันทึก จัดเก็บ จัดการ และวิเคราะห์ (McKinsey Global Institute)
- ข้อมูลขนาดใหญ่ คือสินทรัพย์ทางสารสนเทศที่มีปริมาณสูง ความเร็วสูง และความหลากหลายสูง ต้องอาศัยค่าใช้จ่ายที่มีประสิทธิภาพและนวัตกรรมรูปแบบใหม่ของการประมวลผลข้อมูล เพื่อความเข้าใจที่ดีขึ้น และใช้ในการตัดสินใจ (Gartner. IT Glossary. 2013)
ลักษณะของข้อมูลขนาดใหญ่
- ในการอภิปรายของ ข้อมูลขนาดใหญ่ มักมีการอ้างอิงถึง "3 Vs" คือ ปริมาณ (Volume) ความเร็ว (Velocity) และลักษณะความหลากหลาย (Variety) ของข้อมูลขนาดใหญ่
- พูดง่ายๆ คือ ปริมาณ (ปริมาณของข้อมูล) ความเร็ว (ความเร็วในการประมวลผล และการเปลี่ยนแปลงของข้อมูล) และ ความหลากหลาย (แหล่งที่มาของข้อมูล และชนิดของข้อมูล) เป็นลักษณะที่โดดเด่นที่สุดของข้อมูลขนาดใหญ่ ต่างกับวิธีการแบบดั้งเดิมที่ใช้ในการบันทึก จัดเก็บ จัดการ และวิเคราะห์ข้อมูล
ปริมาณ
- ปริมาณของข้อมูล เพิ่มขึ้นอย่างรวดเร็วตั้งแต่ปี 2004 โดยในปี 2004 จำนวนของข้อมูลที่เก็บไว้บนอินเทอร์เน็ตมีทั้งหมด 1 petabyte (1,000 terabytes) เทียบเท่ากับ 100 ปีของเนื้อหาโทรทัศน์ทั้งหมด
- ในปี 2011 จำนวนรวมของข้อมูลทั่วโลกที่เก็บไว้ด้วยระบบอิเล็กทรอนิกส์ คือ 1 Zettabyte (1,000,000 petabytes หรือ 36 ล้านปีของวิดีโอความละเอียดสูง [HD]) โดยในปี 2015 ตัวเลขคาดว่าจะถึง 7.9 zettabytes (หรือ 7,900,000 petabytes)
- ขนาดของชุดข้อมูลที่มีการใช้งานอย่างต่อเนื่อง มีการเจริญเติบโตแซงหน้าความสามารถของเครื่องมือแบบดั้งเดิม ในการบันทึก จัดเก็บ จัดการ และวิเคราะห์ข้อมูล
ความหลากหลาย
- ข้อมูลขนาดใหญ่ เป็นการรวมของข้อมูลที่เก็บไว้ในฐานข้อมูลของ ข้อมูลที่มีโครงสร้างแบบดั้งเดิม (structured databases) และข้อมูลใหม่ที่ทีที่มาจากแหล่ง ข้อมูลแบบที่ไม่มีโครงสร้าง (unstructured data)
- ข้อมูลที่ไม่มีโครงสร้างรวมถึง ข้อมูลที่ไม่ได้มีโครงสร้าง (เช่นFacebook, Twitter, Instagram และTumblr) ที่มีการเติบโตอย่างรวดเร็วของ ภาพ วิดีโอ ข้อมูลการเฝ้าระวัง ข้อมูลจากเซ็นเซอร์ ข้อมูลศูนย์โทรศัพท์ ข้อมูลตำแหน่งทางภูมิศาสตร์ ข้อมูลสภาพอากาศ ข้อมูลทางเศรษฐกิจ ข้อมูลของรัฐบาล รายงานการวิจัย แนวโน้มการค้นหาอินเทอร์เน็ต และ web log files
- ทุกวันนี้ กว่า 95% ของข้อมูลทั้งหมดที่มีอยู่ทั่วโลก คาดว่าจะเป็นข้อมูลแบบที่ไม่มีโครงสร้าง
ความเร็ว
- จำนวนที่เพิ่มมากขึ้นอย่างรวดเร็วของข้อมูลที่ไม่มีโครงสร้าง มาจากตัวเลขของกระแสการเติบโตแบบก้าวกระโดด ผ่านทางอินเทอร์เน็ตอย่างต่อเนื่อง
- ความเร็วของข้อมูลเหล่านี้ จะต้องได้รับการจัดเก็บและวิเคราะห์ ด้วยลักษณะที่ถือว่า เป็นความเร็วของข้อมูลขนาดใหญ่
การตรวจสอบ (Validation เป็น V ที่สี่)
- กลยุทธ์ข้อมูลขนาดใหญ่ขององค์กร จะต้องมี ขั้นตอนการตรวจสอบ (validation step) และมีการหยุดที่เหมาะสมในการวิเคราะห์ เพื่อประเมินผลกระทบต่อกฎหมาย ระเบียบข้อบังคับ หรือภาระผูกพันตามสัญญา ของ
- สถาปัตยกรรมของระบบข้อมูลขนาดใหญ่
- การออกแบบขั้นตอนวิธีการค้นหาข้อมูลขนาดใหญ่
- การดำเนินการบนพื้นฐานของข้อมูลเชิงลึกที่ได้มา
- การจัดเก็บและการกระจายของผลลัพธ์และข้อมูล
2. แนวทางการทำงานข้ามสายงาน ทักษะใหม่ และการลงทุน
- องค์กรที่ต้องการใช้ประโยชน์จากข้อมูลขนาดใหญ่ในการดำเนินงาน ต้องพัฒนาทีมข้ามสายงานที่มีความรู้ลึกของธุรกิจที่มีการใช้เทคโนโลยี
- องค์ประกอบที่สำคัญของทีมเหล่านี้คือ นักวิทยาศาสตร์ข้อมูล (data scientist) ไม่ว่าจะเป็นพนักงานหรือผู้รับจ้างเหมา เพื่อสกัดข้อมูลเชิงลึกทางธุรกิจของข้อมูลขนาดใหญ่สำหรับองค์กร (เช่น การสั่งซื้อ และความรู้จากความวุ่นวายของข้อมูลขนาดใหญ่)
- นักวิทยาศาสตร์ข้อมูล เป็นนักคิดหลายมิติที่ทำงานได้อย่างมีประสิทธิภาพ ในการพูดคุยเกี่ยวกับปัญหาทางธุรกิจด้วยภาษาธุรกิจ ในขณะที่อยู่ในระดับยอดของเทคโนโลยี การศึกษาสถิติ และประสบการณ์
- นักวิทยาศาสตร์ข้อมูล ไม่ได้เป็นเพียงผู้เชี่ยวชาญเฉพาะเรื่องที่จำเป็นในการออกแบบกลยุทธ์ข้อมูลขนาดใหญ่ แต่มีบทบาทสำคัญที่จะทำงานร่วมกับผู้เชี่ยวชาญเรื่องธุรกิจขององค์กร เช่นสถาปนิกและนักวิเคราะห์ข้อมูล ทีมโครงสร้างพื้นฐานด้านเทคโนโลยี ด้านการจัดการ และด้านอื่น ๆ ที่จะส่งมอบข้อมูลเชิงลึกของข้อมูลขนาดใหญ่
3. การแสวงหาข้อมูลที่เกี่ยวข้อง
- องค์กรจะต้องเข้าถึงข้อมูลที่เกี่ยวข้องกับวัตถุประสงค์ ที่พวกเขาพยายามจะให้ประสบความสำเร็จ ด้วยข้อมูลขนาดใหญ่
- ข้อมูลนี้ สามารถนำมาจากแหล่งใด ๆ ก็ได้ รวมทั้งจากฐานข้อมูลที่มีอยู่ทั่วทั้งองค์กร หรือจากระบบจัดเก็บข้อมูลภายใน หรือระยะไกลโดยตรงจากแหล่งข้อมูลสาธารณะบนอินเทอร์เน็ต หรือจากรัฐบาล หรือสมาคมการค้าโดยใบอนุญาตจากบุคคลที่สาม หรือจากข้อมูลของบุคคลที่สาม หรือผู้ให้บริการที่รวบรวมจากระยะไกล และเจ้าของแหล่งที่มาของข้อมูล
4. พื้นฐานการทำงานทางเทคโนโลยีของข้อมูลขนาดใหญ่
- โดยอาศัยตัวเลขการเติบโตของการแก้ปัญหาแบบเปิด (ที่เปิดเผยต่อสาธารณชนโดยไม่ต้องเสียค่าใช้จ่าย) และข้อมูลขนาดใหญ่บนแพลตฟอร์มการวิเคราะห์ ที่มีอยู่เพื่อผู้ประกอบการ
- Hadoop (ชื่อตุ๊กตาสัตว์ ของเด็กของหนึ่งในผู้สร้าง) เป็นกรอบเปิด (open-source framework) ที่นิยม ประกอบด้วยเครื่องมือซอฟแวร์จำนวนมาก ที่ใช้ในการดำเนินการวิเคราะห์ข้อมูลขนาดใหญ่
- Hadoop จะทำการกระจายข้อมูลที่มีขนาดใหญ่มาก โดยแบ่งออกเป็นชิ้นเล็ก ๆ เพื่อให้มีการจัดการได้ง่ายขึ้น
- Hadoop ทำงานโดยการเชื่อมต่อเครื่องคอมพิวเตอร์จำนวนมากที่มีขนาดเล็กและราคาที่ต่ำกว่าเข้าด้วยกัน ในการทำงานแบบคู่ขนาน เป็นกลุ่มคอมพิวเตอร์ (computing cluster) ที่มีประสิทธิภาพ
- Hadoop จะกระจายข้อมูลโดยอัตโนมัติให้คอมพิวเตอร์ทุกเครื่องในกลุ่ม ดังนั้นจึงไม่มีความจำเป็นที่จะต้องรวมข้อมูลบนเครือข่ายการจัดเก็บข้อมูลแบบพื้นที่ (SAN - storage-area network)
- ในขณะเดียวกันที่ข้อมูลถูกกระจาย บล็อกของข้อมูลแต่ละอัน จะถูกจำลองลงในคอมพิวเตอร์อีกหลายตัวในกลุ่ม
- Hadoop จะย่อยงานเป็นชิ้น ๆ จำนวนมากลงในคอมพิวเตอร์ และโดยการลงข้อมูลที่มีอยู่บนคอมพิวเตอร์หลายเครื่อง เป็นการลดโอกาสที่ข้อมูลไม่สามารถเรียกใช้ได้เมื่อมีเหตุจำเป็น
- แต่ละคุณสมบัติเหล่านี้ จึงทำให้มีประสิทธิภาพมากกว่าเครื่องคอมพิวเตอร์สถาปัตยกรรมแบบดั้งเดิม
- Hadoop คือการรวมกันของซอฟแวร์ขั้นสูงและฮาร์ดแวร์คอมพิวเตอร์ ซึ่งมักจะเรียกว่า "เวที " หรือplatform ที่ทำให้องค์กรที่มีวิธีการดำเนินการแบบ “client application”
- โปรแกรมเหล่านี้ จะมุ่งเน้นไปที่ การเปิดเผยรูปแบบต่าง ๆ ความสัมพันธ์ที่ไม่เคยรู้จักมาก่อน และสารสนเทศที่เป็นประโยชน์อื่น ๆ (uncovering patterns, unknown correlations, and other useful information ) ซึ่งมีอยู่ในข้อมูลขนาดใหญ่ ที่ไม่เคยได้รับการระบุด้วยการใช้แบบจำลองข้อมูลเชิงสัมพันธ์แบบดั้งเดิม
- เมื่อคอมพิวเตอร์ในกลุ่ม ทำการประมวลผลที่ได้รับมอบหมายเสร็จ ก็จะส่งผลลัพธ์และข้อมูลที่เกี่ยวข้องใด ๆ กลับไปที่คอมพิวเตอร์ส่วนกลางแล้วของานอื่นต่อ
- ผลลัพธ์ของแต่ละเรื่องและข้อมูล จะถูกประกอบโดยคอมพิวเตอร์ส่วนกลาง เพื่อส่งกลับไปยังโปรแกรมไคลเอนต์ (client application) หรือเก็บไว้ในระบบไฟล์ของHadoop หรือฐานข้อมูลอื่น ๆ
สรุป
- บทความนี้ อธิบายความหมายของคำว่า ข้อมูลขนาดใหญ่ (Big Data) และอภิปรายเทคโนโลยีที่ซับซ้อน ที่อยู่เบื้องหลังการทำงานของข้อมูลขนาดใหญ่
- แต่จุดประสงค์บทความนี้ ไม่ได้เป็นพิมพ์เขียวสำหรับการสร้างแพลตฟอร์มของข้อมูลขนาดใหญ่ในองค์กร เพียงแต่ให้มีความเข้าใจพื้นฐานร่วมกันว่า ข้อมูลขนาดใหญ่ หมายถึงอะไรเท่านั้น
**********************************
ฺBig Data คำนี้เข้ามาสักระยะและส่วนตัวสนใจกับเรื่องนี้มาก เมื่อประมาณ 2-3 เดือนมานี้ รายการสารคดี ของ NHK (ญี่ปุ่น) ทำเรื่องนี้น่าสนใจมาก เกี่ยวกับการใช้ ข้อมูลขนาดใหญ่ ในโรงพยาบาลแห่งหนึ่งของญี่ปุ่น (เสียดายจดจำชื่อไม่ได้) แสดงให้เห็นทุกขั้นตอนของการใช้ข้อมูล ทั้งซอฟท์แวร์ ฮาร์แวร์ และ พีเพิลแวร์ (หมอเป็นส่วนใหญ่) ผลที่เกิดขึ้น โรงพยาบาลให้การรักษาพยาบาลได้อย่างมีคุณภาพสูงสุด น่าตื่นเต้น และโรงพยาบาลอีกหลาย ๆแห่งน่าจะกำลังมุ่งไปสู่การใช้ข้อมูลขนาดใหญ่
ถ้าโรงพยาบาลในประเทศไทยนำมาใช้บ้างก็จะดี ลงทุนกี่แสนล้านในระยะยาวก็คุ้มมาก ทั้งหมอและคนไข้คงมีความสุขมาก ๆ หรือเขาใช้กันแล้วก็ไม่ทราบ ตอนนี้แพทย์ใช้คอมพิวเตอร์ดูข้อมูลประวัติการรักษาของคนไข้(บางคลีนิคพิเศษ) ก็เพิ่มทั้ง effectiveness and efficiency มากแล้ว แต่ใน รพ. เดียวกันใช่ว่าจะได้ใช้อย่างทั่วถึง ยังมีสิ่งที่ต้องทำ ควรทำอีกมากเหลือเกิน
ในวงการศึกษา ก็คงเรียนรู้แต่นิยามกันไปก่อน แต่จะสัมผัสหรือลงมือทำของจริงกันเมื่อไร การปรับปรุงหลักสูตรที่ไม่ยืดหยุ่นทำให้ใส่อะไรที่ทันยุคทันสมัยเข้าไปได้ช้ามาก
ขอบคุณค่ะที่เขียนเกี่ยวกับเรื่องนี้