ข้อเท็จจริง: ขีดจำกัดทางเทคโนโลยี
1. ความเร็วของ CPU เพิ่มเป็นเท่าตัวทุก 18 เดือน (กฎของ Moore)
2. ความจุของ hard disk เพิ่มเป็นเท่าตัวทุก 9 เดือน (จากบทความใน Scientific American เมื่อหลายปีก่อน)
3. ปริมาณข้อมูลในสาขาที่ร้อนแรงที่สุด (bioinformatics) ประมาณว่าเพิ่มขึ้นเท่าตัวทุก 6 เดือน
(ข้อมูลที่บริษัทซอฟท์แวร์เผยทาง internet)
การเติบโตแบบ exponential แบบนี้ ชี้ว่า เมื่อผ่านไปครบ 3 ปี...
- CPU เร็วคูณ 4 (ผ่านไป 2 cycles)
- Harddisk โตคูณ 16 (ผ่านไป 4 cycles)
- ปริมาณข้อมูลโตคูณ 64 (ผ่านไป 6 cycles)
เท่ากับว่า ถ้าเราวิเคราะห์ข้อมูลทั้งหมดที่มีในมือ อีก 3 ปีข้างหน้า การประมวลผลจะช้าอืดลงไป 16 เท่า ซึ่งตัวที่เป็นคอขวดที่สุดก็คือตัว CPU ถัดมาก็คือตัว harddisk
harddisk อาจใช้วิธี distributed ไปหลาย ๆ ตัวในระบบ ลงทุนไม่มาก ปัญหาทางเทคนิตในการเพิ่ม harddisk ก็ไม่เกินวิสัย แต่ตัว CPU จัดการยากกว่า
ทางออกอย่างหนึ่งของการจัดการข้อมูลก็คือ ใช้วิธีสุ่มมาบางส่วนเพื่อประมวลผล ซึงแนวคิดเรื่องนี้มีคนทำกันมาพักใหญ่ ลักษณะเฉพาะของการประมวลผลแบบนี้คือมีการรายงานเป็นช่วงความเชื่อมั่น แทนที่จะเป็นค่าเดี่ยวเหมือนการประเมินผลตามปรกติ ซึ่งในงานหลาย ๆ อย่าง ก็พอรับได้ ข้อดีก็คือทำงานเร็วกว่ามากมหาศาล
ในงานทางสถิติประยุกต์ protocol การสุ่ม นิยม square root sampling
แต่ผมขอเสนอว่าการใช้ Cube root sampling น่าจะเป็นทางออกหนึ่งที่เป็นไปได้
ถ้าเราใฃ้ cube root sampling ข้อมูล ก็เท่ากับว่าปริมาณข้อมูลที่ประมวลผล โตทันกับความเร็วของ CPU พอดี (ผ่านไป 3 ปี CPU เร็วคูณ 4 และสเกลข้อมูลที่นำมาวิเคราะห์ก็จะเป็น 64 ยกกำลังหนึ่งส่วนสาม ซึ่งก็เท่ากับการคูณ 4 เท่าเหมือนกัน) ซึ่งจะทำให้สามารถโตทันกันไปได้โดยตลอด
ลองนึกดูว่าถ้าข้อมูลทะลักมาเพิ่ม 1 ล้านเท่า การทำ cube root sampling ก็จะเท่ากับว่ามีข้อมูลที่ไปประมวลผลต่อมีเพิ่มขึ้นเพียง 100 เท่า
สิ่งที่กล่าวมานี้ ยังไม่เห็นในวันนี้ เพราะตอนนี้ CPU ที่มี ยังรับมือข้อมูลได้(อย่างหืดขึ้นคอ)
แต่อีกสิบปีข้างหน้า ก็จะเป็นอีกเรื่องแล้ว
แต่ใช่ว่าปัญหามีแต่เรื่องเชิงขนาดของข้อมูล สิ่งที่เป็นปัญหาใหญ่ไม่แพ้กันอีกสองเรื่องก็คือความหลากหลายในการดำรงอยู่ และความน่าเชื่อถือของข้อมูล
ความหลากหลายในการดำรงอยู่คือการที่ข้อมูลเดียวกัน อยู่ในหลายที่พร้อมกัน จัดทำแยกจากกัน ดำเนินการแยกจากกัน สิ่งที่ตามมาทันทีคือความน่าเชื่อถือของข้อมูลที่แตกต่างกัน เพราะเป็นไปไม่ได้ที่ข้อมูลจะสามารถก้าวเคลื่อนไปพร้อมเหตุการณ์จริง เช่น ถ้าจะเก็บข้อมูลเกี่ยวกับสุขภาพ ข้อมูลพื้นฐานเกี่ยวกับตัวคน เกี่ยวกับที่อยู่ ก็ต้องไปคาบเกี่ยวกับหน่วยงานมากมาย ซึ่งรับรองว่าข้อมูลไม่ตรงกัน เอาแค่ให้คล้ายกันได้ก็เก่งแล้ว
ปฎิกิริยาแรกของเราคือเมื่อไม่ไว้ใจความน่าเชื่อถือข้อมูล ก็คือต้องเก็บข้อมูลเอง แต่แนวคิดนี้ฝืนธรรมชาติมนุษย์ เพราะท้ายสุด เราก็ต้องหันไปพึ่งแหล่งข้อมูลเดียวกันกับคนอื่นอยู่ดี (เราไม่ได้พูดถึงข้อมูลที่เป็นของเราเอง เพราะไม่เข้าข่ายนี้ตั้งแต่ต้น) ซึ่งการสร้างภาระให้แหล่งข้อมูล คุณภาพข้อมูลก็จะยิ่งต่ำลงไปอีก ธรรมชาติคนไม่ชอบการกรอกข้อมูลเดิมซ้ำซาก ประเภทเดี๋ยวขอ - เดี๋ยวขอ ขอมาเรื่อย ๆ คนที่ต้องรับผิดชอบค้น-กรอก บางคนอาจไม่บ่น เขาอาจมีกลไก"ลัด"ที่แก้ปญหาชะงัดกว่าการบ่น นั่นคือ ทำให้"เละ"จนคนขอรู้สึกขยาดอย่างถาวร
ทางออกที่จะทำให้ข้อมูลมีความเชื่อถือได้ก็คือไม่สร้างภาระให้แหล่งข้อมูล นั่นคือ เปลี่ยนระบบคิดจากการครอบครองข้อมูล มาเป็นการประสานข้อมูล และต้องสร้างระบบวงจรป้อนกลับให้ผู้เป็นแหล่งข้อมูลได้มองเห็นและใช้ประโยชน์จากข้อมูลดังกล่าว แต่เรื่องนี้จะเป็นไปได้เพียงใด คงต้องรอการพิสูจน์
ไม่มีความเห็น