อนาคตของการจัดการข้อมูล


เราอาจเข้าสู่ยุคที่การจัดการข้อมูลเริ่มกลายเป็นการประมาณการ มากกว่าจะเป็นการประมวลผลให้ได้คำตอบแบบแม่นยำ และการประสานงาน เริ่มสำคัญกว่าการครอบครอง

ข้อเท็จจริง: ขีดจำกัดทางเทคโนโลยี

1. ความเร็วของ CPU เพิ่มเป็นเท่าตัวทุก 18 เดือน (กฎของ Moore)

2. ความจุของ hard disk เพิ่มเป็นเท่าตัวทุก 9 เดือน (จากบทความใน Scientific American เมื่อหลายปีก่อน)

3. ปริมาณข้อมูลในสาขาที่ร้อนแรงที่สุด (bioinformatics) ประมาณว่าเพิ่มขึ้นเท่าตัวทุก 6 เดือน

(ข้อมูลที่บริษัทซอฟท์แวร์เผยทาง internet)

การเติบโตแบบ exponential แบบนี้ ชี้ว่า เมื่อผ่านไปครบ 3 ปี...

         - CPU เร็วคูณ 4 (ผ่านไป 2 cycles)

         - Harddisk โตคูณ 16  (ผ่านไป 4 cycles)

         - ปริมาณข้อมูลโตคูณ 64 (ผ่านไป 6 cycles)

เท่ากับว่า ถ้าเราวิเคราะห์ข้อมูลทั้งหมดที่มีในมือ อีก 3 ปีข้างหน้า การประมวลผลจะช้าอืดลงไป 16 เท่า ซึ่งตัวที่เป็นคอขวดที่สุดก็คือตัว CPU ถัดมาก็คือตัว harddisk

harddisk อาจใช้วิธี distributed ไปหลาย ๆ ตัวในระบบ ลงทุนไม่มาก ปัญหาทางเทคนิตในการเพิ่ม harddisk ก็ไม่เกินวิสัย แต่ตัว CPU จัดการยากกว่า

ทางออกอย่างหนึ่งของการจัดการข้อมูลก็คือ ใช้วิธีสุ่มมาบางส่วนเพื่อประมวลผล ซึงแนวคิดเรื่องนี้มีคนทำกันมาพักใหญ่ ลักษณะเฉพาะของการประมวลผลแบบนี้คือมีการรายงานเป็นช่วงความเชื่อมั่น แทนที่จะเป็นค่าเดี่ยวเหมือนการประเมินผลตามปรกติ ซึ่งในงานหลาย ๆ อย่าง ก็พอรับได้ ข้อดีก็คือทำงานเร็วกว่ามากมหาศาล

ในงานทางสถิติประยุกต์ protocol การสุ่ม นิยม square root sampling

แต่ผมขอเสนอว่าการใช้ Cube root sampling น่าจะเป็นทางออกหนึ่งที่เป็นไปได้

ถ้าเราใฃ้ cube root sampling ข้อมูล ก็เท่ากับว่าปริมาณข้อมูลที่ประมวลผล โตทันกับความเร็วของ CPU พอดี (ผ่านไป 3 ปี CPU เร็วคูณ 4 และสเกลข้อมูลที่นำมาวิเคราะห์ก็จะเป็น 64 ยกกำลังหนึ่งส่วนสาม ซึ่งก็เท่ากับการคูณ 4 เท่าเหมือนกัน) ซึ่งจะทำให้สามารถโตทันกันไปได้โดยตลอด

ลองนึกดูว่าถ้าข้อมูลทะลักมาเพิ่ม 1 ล้านเท่า การทำ cube root sampling ก็จะเท่ากับว่ามีข้อมูลที่ไปประมวลผลต่อมีเพิ่มขึ้นเพียง 100 เท่า

สิ่งที่กล่าวมานี้ ยังไม่เห็นในวันนี้ เพราะตอนนี้ CPU ที่มี ยังรับมือข้อมูลได้(อย่างหืดขึ้นคอ)

แต่อีกสิบปีข้างหน้า ก็จะเป็นอีกเรื่องแล้ว

แต่ใช่ว่าปัญหามีแต่เรื่องเชิงขนาดของข้อมูล สิ่งที่เป็นปัญหาใหญ่ไม่แพ้กันอีกสองเรื่องก็คือความหลากหลายในการดำรงอยู่ และความน่าเชื่อถือของข้อมูล

ความหลากหลายในการดำรงอยู่คือการที่ข้อมูลเดียวกัน อยู่ในหลายที่พร้อมกัน จัดทำแยกจากกัน ดำเนินการแยกจากกัน สิ่งที่ตามมาทันทีคือความน่าเชื่อถือของข้อมูลที่แตกต่างกัน เพราะเป็นไปไม่ได้ที่ข้อมูลจะสามารถก้าวเคลื่อนไปพร้อมเหตุการณ์จริง เช่น ถ้าจะเก็บข้อมูลเกี่ยวกับสุขภาพ ข้อมูลพื้นฐานเกี่ยวกับตัวคน เกี่ยวกับที่อยู่ ก็ต้องไปคาบเกี่ยวกับหน่วยงานมากมาย ซึ่งรับรองว่าข้อมูลไม่ตรงกัน เอาแค่ให้คล้ายกันได้ก็เก่งแล้ว

ปฎิกิริยาแรกของเราคือเมื่อไม่ไว้ใจความน่าเชื่อถือข้อมูล ก็คือต้องเก็บข้อมูลเอง แต่แนวคิดนี้ฝืนธรรมชาติมนุษย์ เพราะท้ายสุด เราก็ต้องหันไปพึ่งแหล่งข้อมูลเดียวกันกับคนอื่นอยู่ดี (เราไม่ได้พูดถึงข้อมูลที่เป็นของเราเอง เพราะไม่เข้าข่ายนี้ตั้งแต่ต้น) ซึ่งการสร้างภาระให้แหล่งข้อมูล คุณภาพข้อมูลก็จะยิ่งต่ำลงไปอีก ธรรมชาติคนไม่ชอบการกรอกข้อมูลเดิมซ้ำซาก ประเภทเดี๋ยวขอ - เดี๋ยวขอ ขอมาเรื่อย ๆ คนที่ต้องรับผิดชอบค้น-กรอก บางคนอาจไม่บ่น เขาอาจมีกลไก"ลัด"ที่แก้ปญหาชะงัดกว่าการบ่น นั่นคือ ทำให้"เละ"จนคนขอรู้สึกขยาดอย่างถาวร

ทางออกที่จะทำให้ข้อมูลมีความเชื่อถือได้ก็คือไม่สร้างภาระให้แหล่งข้อมูล นั่นคือ เปลี่ยนระบบคิดจากการครอบครองข้อมูล มาเป็นการประสานข้อมูล และต้องสร้างระบบวงจรป้อนกลับให้ผู้เป็นแหล่งข้อมูลได้มองเห็นและใช้ประโยชน์จากข้อมูลดังกล่าว แต่เรื่องนี้จะเป็นไปได้เพียงใด คงต้องรอการพิสูจน์

หมายเลขบันทึก: 8647เขียนเมื่อ 2 ธันวาคม 2005 16:47 น. ()แก้ไขเมื่อ 6 พฤษภาคม 2012 12:29 น. ()สัญญาอนุญาต: จำนวนที่อ่านจำนวนที่อ่าน:


ความเห็น (0)

ไม่มีความเห็น

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท