การเติบโตแบบ Double Exponential ของสแปม

บทเรียนสำหรับการจัดการข้อมูล

วิวัฒนาการของสแปมเป็นอะไรที่น่าทึ่ง ผมลบมันไป และพยายามทำความเข้าใจกับมันไป

จำแนกเป็นยุควิวัฒนาการก็พอจะได้ดังนี้ครับ

ยุคแรกสุด เป็นยุคก่อนมี search engine

ยุคนี้ เป็นฝีมือของคนที่ อิ่มหนำ ไร้งานทำ ที่ว่าง ๆ ก็ขีดเขียนกำแพงเล่น

ยุคถัดมา เป็นยุคที่สอง มี search engine แล้ว

ยุคนี้สแปมแปะเพื่อทำตัวเป็นเหาฉลามของ search engine แต่ตัวแปะ ไม่ฉลาดเท่าไหร่ (แต่มันรู้จักระบบชี้เป้าก่อนจู่โจม) ซึ่งเป็นประเด็นที่ผมเคยเขียนไว้ก่อนหน้า

ผมมองว่า เรากำลังก้าวเข้าสู่ยุคที่สาม

เป็นยุคที่ใช้วิธีใหม่ ๆ ในการแปะ ที่เริ่มฝังความฉลาดแกมโกงเข้ามาได้อย่างบูรณาการ

เช่น การปลอมมาในรูปแบบของข้อความปรกติ

แบบนี้ ลบง่าย เพราะชิ้นส่วนสำคัญของมันยังอยู่

แต่ผมสงสัยว่ามันใช้คอมพิวเตอร์ที่ติดไวรัสซอมบี้เป็นตัวยิง

ที่คาดอย่างนั้น เพราะ

1. คนที่ทำเรื่องแบบนี้ ต้องมีนิสัยชอบของฟรีขึ้นสมอง จนทำทุกอย่างได้เพื่อได้ของฟรี เช่น จี้ ปล้น คนทำคงไม่ลงทุนเปิด server เพื่อยิงสแปมเอง เพราะจะไม่ฟรี ก็จะผิดหลักการประจำตัวไป ก็คงต้องไปยึดเครื่องคนอื่นมาใช้เป็นตัวยิงแทน ซึ่งสมมติฐานที่เป็นไปได้คือ มันใช้ไวรัสยึดเครื่องเหยื่อเพื่อเป็นฐานยิงสแปมอีกต่อหนึ่ง

2. การเติบโตของการแปะสแปมในช่วงไม่กี่วันสุดท้าย เป็นแบบอัตราเร่ง จึงไม่น่าจะเกิดจากเครื่องคอมพิวเตอร์เพียงเครื่องเดียวเหมือนเมื่อก่อน น่าจะเกิดจากหลายเครื่อง เครื่องฟรีหลายเครื่องจะได้มา ก็น่าจะผ่านการใช้นอมินี คือใช้ไวรัสซอมบี้ยึดเครื่องคนอื่น แล้วคอยชักใย

ตอนแรกผมยังเข้าใจว่ามันทำการ monitor เพื่อแปะคืนเป็นการชดเชย แต่เมื่อลองวิคราะห์รูปแบบย้อนหลัง จึงรู้ว่าตัวเองเข้าใจผิด

ช่วงเวลาที่มันเปลี่ยนเป็นโหมดแปะแบบรัวยิง เริ่มประมาณเที่ยงคืนเมื่อล่วงเข้าวันศุกร์ แล้วรัวแปะด้วยอัตราเร็วรวมค่อนข้างนิ่ง (ประมาณ 200 ชิ้นต่อชั่วโมง) แต่มีความผันผวนระดับรายนาที

ถ้าตามสมมติฐานว่ามันใช้ไวรัสยึดเครื่องคนอื่นก่อน โดยฝากไปกับการเปิดใช้งานปรกติของเครื่องซอมบี้ เครื่องซอมบี้ก็น่าจะอยู่ฝั่งตะวันตกของสหรัฐ

(ดู IP ไม่ได้ เพราะมันปลอมมาทุกชิ้น และไม่ซ้ำกันเลย)

(หมายเหตุแนบท้าย: หลังจากเขียนบทความนี้ผ่านไปเดือนกว่า ๆ มีข่าวเอฟบีไอเผยตัวเลขซอมบี้พีซีอเมริกาทะลุ 1 ล้านเครื่อง แสดงว่า ปัญหาเรื่องไวรัส ไม่มีพัฒนาการเลยในรอบหลายปีนี้)

หลายวันที่ผ่านมา ผมดวลกับมันอยู่พักใหญ่ แต่ท้ายสุด ยอมยกธงขาว ขอให้ทีม IT ปิดเว็บบอร์ดไปชั่วคราวเพื่อ”ปรับปรุงกิจการ” …เพราะข้อมูลขยะ (spam) ไปไกลถึงขั้นเจตนายิงถล่มเพื่อให้เว็บล่ม ไม่ได้เป็นเพียงเหาฉลามอีกต่อไป (จาก parasite กลายไปเป็น predator เต็มตัว)มีกราฟมาฝากครับเป็นข้อมูลจากการวิเคราะห์ webboard บริการวิชาการ ที่ drug.pharmacy.psu.ac.th ก่อนปิดชั่วคราวเพื่อปรับปรุงกิจการ ณ วันที่ 11 พฤษภาคม 2550 เวลา 15:30 น. (และกลับมาเปิดให้บริการแล้วในวันที่ 29 พฤษภาคม 2550 หลังการปรับปรุงระบบ)ภาพแรก เป็นสถิติจำนวนชิ้นขยะต่อวันที่แปะเข้าไปในเว็บบอร์ดดังกล่าว spam Spam growth is double exponential ภาพที่สอง เป็นอัตราส่วนกระทู้ขยะ:กระทู้ปรกติ กราฟนี้ เป็นหลักฐานเชิงประจักษ์ที่ชี้ว่า การเติบโตด้าน IT น่าจะเป็นแบบ double exponential ดังที่ Ray Kurzweil ได้ชี้ไว้ กรณีนี้สอนอะไรได้บ้าง ?ก็มีนิดหน่อยครับถ้าเราเชื่อว่า สแปมและองค์ความรู้โตด้วยรูปแบบเดียวกัน...กราฟนี้จะนำไปสู่ข้อสรุปว่าหลักสูตร เกี่ยวกับการเขียนโปรแกรม คงต้องพิจารณาอย่างลึกซึ้งว่า ตนเองให้ความสำคัญกับเรื่อง algorithm เพียงพอแล้วหรือยัง สำหรับการจัดการฐานข้อมูลระดับใหญ่ ถึงใหญ่มากเพราะถ้าข้อมูลโตแบบ double exponential เร็วกว่าการโตของระบบรองรับ(ผมไม่ได้จินตนาการเองลอย ๆ ครับ วันที่ 19 พค 2550 ในผู้จัดการออนไลน์มีพาดหัวข่าวว่า ไอดีซีเชื่ออีก4ปีข้อมูลโลกจะล้นสตอเรจ โดยไอดีซีชี้ว่า ปริมาณข้อมูลดิจิตอลที่ถูกสร้าง บันทึก และคัดลอกในปี 2548 มีประมาณ1.61 แสนล้านกิกะไบต์ หรือ 3 ล้านเท่าของข้อมูลในหนังสือทั้งหมดที่มนุษย์เคยเขียนขึ้น โดยคาดการณ์ว่าในปี 2553 ข้อมูลดิจิตอลจะเพิ่มขึ้นราว 6 เท่าตัวเป็น 9.88 แสนล้านกิกะไบต์)ความช้าอืดของการคำนวณ (computational time ของโจทย์ใด ๆ) ก็จะโตดังกราฟในรูปนี้เหมือนกัน ซึ่งหมายความว่า เมื่อเกี่ยวข้องกับระบบฐานข้อมูลที่มีข้อมูลใหม่เพิ่มตามธรรมชาติ ต่อให้คอมพิวเตอร์เร็วขึ้นอย่างไรก็ตาม แต่เราจะได้คำตอบที่ช้าลงเสมอ เนื่องจากฐานข้อมูลโตเร็วกว่าทรัพยากรที่รองรับเราสามารถใช้คณิตศาสตร์มาอธิบายตรงนี้ หากฐานข้อมูลใหญ่ขึ้นเป็น double exponentialและหากสมรรถนะระบบดีขึ้นแบบ double exponentialเมื่อเอาขนาดฐานข้อมูล หารด้วยสมรรถนะเครื่อง จะได้ตัวเลขบอกถึง “ความอืด”ใครถนัดคณิตศาสตร์ จะสามารถพิสูจน์ได้ไม่ยากว่า ความอืด จะโตขึ้นแบบ double exponential เหมือนกัน โดยจะมีค่าที่โตแบบล้อกันกับขนาดฐานข้อมูล เสมือนหนึ่งสมรรถนะเครื่องหยุดนิ่งกับที่หากความอืดโตแบบ double exponential ก็คือ คือเมื่อถึงวันหนึ่ง มันจะกระโดดพรวดขึ้นอย่างปุบปับ (ดูกราฟข้างบนเป็นตัวอย่าง) เท่ากับว่า ยิ่งเทคโนโลยีสูงขึ้น เราก็เจอปัญหาที่หนักขึ้นทางแก้คือ หนึ่ง วิ่งตามฮาร์ดแวร์ ผมก็เกรงว่าไม่ทัน เพราะฮาร์ดแวร์ก็โตช้ากว่าองค์ความรู้เสมอโดยช่องว่าควรจะถ่างห่างออกไปเรื่อย ๆ อย่างน้อยก็แบบ exponential function กับเวลาทางแก้ที่สอง คืออุดช่องว่างด้วย algorithm ซึ่งอาจยุบปัญหา double exponential ลงมาได้อย่างน้อยก็โตช้าลงพอที่จะใช้ฮาร์ดแวร์มาช่วยรับมือต่อลองไปหาอ่านดูงานวิจัยนี้สิครับ ของฟรี โหลดจาก arXiv ค้นผ่าน google คนเขียนเขาชี้ให้เห็นว่า ในทางทฤษฎี แม้เรื่องที่ชวนอับจน ยังพอมีทางออก แม้กล่าวด้วยท่วงทำนองเรียบ ๆ แต่ก็ชวนสะดุ้งสำหรับคนที่เกี่ยวข้องกับการพัฒนาซอฟท์แวร์A Polynomial Time Algorithm for The
Traveling Salesman Problem โดย Sergey Gubin
(March 30, 2007) arXiv:cs/0610042v2 [cs.DM] 9 Nov 2006Article describes a polynomial time algorithm for The Asymmetric Traveling Salesman Problem and a polynomial time algorithm for The Directed Hamiltonian Cycle Problem. Existence of these algorithms constructively solves The Millennium P vs NP Problem: P = NP.

เขียนใน GotoKnow โดย wwibul
ใน note by wwibul

คำสำคัญ (Tags): #dbms#double exponential#large database#pnp#polynomial time algorithm#spam#สแปม

หมายเลขบันทึก: 95653เขียนเมื่อ 11 พฤษภาคม 2007 15:08 น. ()แก้ไขเมื่อ 6 กันยายน 2013 17:59 น. ()สัญญาอนุญาต: จำนวนที่อ่าน

ความเห็น (0)

ไม่มีความเห็น