การเติบโตแบบ Double Exponential ของสแปม


บทเรียนสำหรับการจัดการข้อมูล

วิวัฒนาการของสแปมเป็นอะไรที่น่าทึ่ง ผมลบมันไป และพยายามทำความเข้าใจกับมันไป

จำแนกเป็นยุควิวัฒนาการก็พอจะได้ดังนี้ครับ

ยุคแรกสุด เป็นยุคก่อนมี search engine

ยุคนี้ เป็นฝีมือของคนที่ อิ่มหนำ ไร้งานทำ ที่ว่าง ๆ ก็ขีดเขียนกำแพงเล่น 

ยุคถัดมา เป็นยุคที่สอง มี search engine แล้ว

ยุคนี้สแปมแปะเพื่อทำตัวเป็นเหาฉลามของ search engine แต่ตัวแปะ ไม่ฉลาดเท่าไหร่ (แต่มันรู้จักระบบชี้เป้าก่อนจู่โจม) ซึ่งเป็นประเด็นที่ผมเคยเขียนไว้ก่อนหน้า

ผมมองว่า เรากำลังก้าวเข้าสู่ยุคที่สาม

เป็นยุคที่ใช้วิธีใหม่ ๆ ในการแปะ ที่เริ่มฝังความฉลาดแกมโกงเข้ามาได้อย่างบูรณาการ

เช่น การปลอมมาในรูปแบบของข้อความปรกติ

แบบนี้ ลบง่าย เพราะชิ้นส่วนสำคัญของมันยังอยู่

แต่ผมสงสัยว่ามันใช้คอมพิวเตอร์ที่ติดไวรัสซอมบี้เป็นตัวยิง

ที่คาดอย่างนั้น เพราะ

1. คนที่ทำเรื่องแบบนี้ ต้องมีนิสัยชอบของฟรีขึ้นสมอง จนทำทุกอย่างได้เพื่อได้ของฟรี เช่น จี้ ปล้น คนทำคงไม่ลงทุนเปิด server เพื่อยิงสแปมเอง เพราะจะไม่ฟรี ก็จะผิดหลักการประจำตัวไป ก็คงต้องไปยึดเครื่องคนอื่นมาใช้เป็นตัวยิงแทน ซึ่งสมมติฐานที่เป็นไปได้คือ มันใช้ไวรัสยึดเครื่องเหยื่อเพื่อเป็นฐานยิงสแปมอีกต่อหนึ่ง 

2. การเติบโตของการแปะสแปมในช่วงไม่กี่วันสุดท้าย เป็นแบบอัตราเร่ง จึงไม่น่าจะเกิดจากเครื่องคอมพิวเตอร์เพียงเครื่องเดียวเหมือนเมื่อก่อน น่าจะเกิดจากหลายเครื่อง เครื่องฟรีหลายเครื่องจะได้มา ก็น่าจะผ่านการใช้นอมินี คือใช้ไวรัสซอมบี้ยึดเครื่องคนอื่น แล้วคอยชักใย

ตอนแรกผมยังเข้าใจว่ามันทำการ monitor เพื่อแปะคืนเป็นการชดเชย แต่เมื่อลองวิคราะห์รูปแบบย้อนหลัง จึงรู้ว่าตัวเองเข้าใจผิด

ช่วงเวลาที่มันเปลี่ยนเป็นโหมดแปะแบบรัวยิง เริ่มประมาณเที่ยงคืนเมื่อล่วงเข้าวันศุกร์ แล้วรัวแปะด้วยอัตราเร็วรวมค่อนข้างนิ่ง (ประมาณ 200 ชิ้นต่อชั่วโมง) แต่มีความผันผวนระดับรายนาที

ถ้าตามสมมติฐานว่ามันใช้ไวรัสยึดเครื่องคนอื่นก่อน โดยฝากไปกับการเปิดใช้งานปรกติของเครื่องซอมบี้ เครื่องซอมบี้ก็น่าจะอยู่ฝั่งตะวันตกของสหรัฐ

(ดู IP ไม่ได้ เพราะมันปลอมมาทุกชิ้น และไม่ซ้ำกันเลย)

(หมายเหตุแนบท้าย: หลังจากเขียนบทความนี้ผ่านไปเดือนกว่า ๆ มีข่าวเอฟบีไอเผยตัวเลขซอมบี้พีซีอเมริกาทะลุ 1 ล้านเครื่อง แสดงว่า ปัญหาเรื่องไวรัส ไม่มีพัฒนาการเลยในรอบหลายปีนี้) 

หลายวันที่ผ่านมา ผมดวลกับมันอยู่พักใหญ่ แต่ท้ายสุด ยอมยกธงขาว ขอให้ทีม IT ปิดเว็บบอร์ดไปชั่วคราวเพื่อ”ปรับปรุงกิจการ”  …เพราะข้อมูลขยะ (spam) ไปไกลถึงขั้นเจตนายิงถล่มเพื่อให้เว็บล่ม ไม่ได้เป็นเพียงเหาฉลามอีกต่อไป <p>(จาก parasite กลายไปเป็น predator เต็มตัว)</p><p>มีกราฟมาฝากครับ</p><p>เป็นข้อมูลจากการวิเคราะห์ webboard บริการวิชาการ  ที่ drug.pharmacy.psu.ac.th ก่อนปิดชั่วคราวเพื่อปรับปรุงกิจการ ณ วันที่ 11 พฤษภาคม 2550 เวลา 15:30 น. (และกลับมาเปิดให้บริการแล้วในวันที่ 29 พฤษภาคม 2550 หลังการปรับปรุงระบบ)</p><p>ภาพแรก เป็นสถิติจำนวนชิ้นขยะต่อวันที่แปะเข้าไปในเว็บบอร์ดดังกล่าว </p><p> spam</p><p> </p><p> Spam growth is double exponential</p><p>ภาพที่สอง เป็นอัตราส่วนกระทู้ขยะ:กระทู้ปรกติ </p><p>กราฟนี้ เป็นหลักฐานเชิงประจักษ์ที่ชี้ว่า การเติบโตด้าน IT น่าจะเป็นแบบ double exponential ดังที่ Ray Kurzweil ได้ชี้ไว้</p><p> </p><p> </p><p>กรณีนี้สอนอะไรได้บ้าง ?</p><p>ก็มีนิดหน่อยครับ</p><p>ถ้าเราเชื่อว่า สแปมและองค์ความรู้โตด้วยรูปแบบเดียวกัน...</p><p>กราฟนี้จะนำไปสู่ข้อสรุปว่าหลักสูตร เกี่ยวกับการเขียนโปรแกรม คงต้องพิจารณาอย่างลึกซึ้งว่า ตนเองให้ความสำคัญกับเรื่อง algorithm เพียงพอแล้วหรือยัง สำหรับการจัดการฐานข้อมูลระดับใหญ่ ถึงใหญ่มาก</p><p>เพราะถ้าข้อมูลโตแบบ double exponential เร็วกว่าการโตของระบบรองรับ</p><p>(ผมไม่ได้จินตนาการเองลอย ๆ ครับ วันที่ 19 พค 2550 ในผู้จัดการออนไลน์มีพาดหัวข่าวว่า ไอดีซีเชื่ออีก4ปีข้อมูลโลกจะล้นสตอเรจ โดยไอดีซีชี้ว่า ปริมาณข้อมูลดิจิตอลที่ถูกสร้าง บันทึก และคัดลอกในปี 2548 มีประมาณ1.61 แสนล้านกิกะไบต์ หรือ 3 ล้านเท่าของข้อมูลในหนังสือทั้งหมดที่มนุษย์เคยเขียนขึ้น โดยคาดการณ์ว่าในปี 2553 ข้อมูลดิจิตอลจะเพิ่มขึ้นราว 6 เท่าตัวเป็น 9.88 แสนล้านกิกะไบต์)</p><p>ความช้าอืดของการคำนวณ (computational time ของโจทย์ใด ๆ) ก็จะโตดังกราฟในรูปนี้เหมือนกัน </p><p>ซึ่งหมายความว่า เมื่อเกี่ยวข้องกับระบบฐานข้อมูลที่มีข้อมูลใหม่เพิ่มตามธรรมชาติ ต่อให้คอมพิวเตอร์เร็วขึ้นอย่างไรก็ตาม แต่เราจะได้คำตอบที่ช้าลงเสมอ เนื่องจากฐานข้อมูลโตเร็วกว่าทรัพยากรที่รองรับ</p><p>เราสามารถใช้คณิตศาสตร์มาอธิบายตรงนี้ </p><p>หากฐานข้อมูลใหญ่ขึ้นเป็น double exponential</p><p>และหากสมรรถนะระบบดีขึ้นแบบ double exponential</p><p>เมื่อเอาขนาดฐานข้อมูล หารด้วยสมรรถนะเครื่อง จะได้ตัวเลขบอกถึง “ความอืด”</p><p>ใครถนัดคณิตศาสตร์ จะสามารถพิสูจน์ได้ไม่ยากว่า ความอืด จะโตขึ้นแบบ double exponential เหมือนกัน โดยจะมีค่าที่โตแบบล้อกันกับขนาดฐานข้อมูล เสมือนหนึ่งสมรรถนะเครื่องหยุดนิ่งกับที่</p><p>หากความอืดโตแบบ double exponential ก็คือ คือเมื่อถึงวันหนึ่ง มันจะกระโดดพรวดขึ้นอย่างปุบปับ (ดูกราฟข้างบนเป็นตัวอย่าง) </p><p>เท่ากับว่า ยิ่งเทคโนโลยีสูงขึ้น เราก็เจอปัญหาที่หนักขึ้น</p><p>ทางแก้คือ หนึ่ง วิ่งตามฮาร์ดแวร์ ผมก็เกรงว่าไม่ทัน เพราะฮาร์ดแวร์ก็โตช้ากว่าองค์ความรู้เสมอโดยช่องว่าควรจะถ่างห่างออกไปเรื่อย ๆ อย่างน้อยก็แบบ exponential function กับเวลา</p><p>ทางแก้ที่สอง คืออุดช่องว่างด้วย algorithm ซึ่งอาจยุบปัญหา double exponential ลงมาได้อย่างน้อยก็โตช้าลงพอที่จะใช้ฮาร์ดแวร์มาช่วยรับมือต่อ</p><p>ลองไปหาอ่านดูงานวิจัยนี้สิครับ ของฟรี โหลดจาก arXiv ค้นผ่าน google </p><p>คนเขียนเขาชี้ให้เห็นว่า ในทางทฤษฎี แม้เรื่องที่ชวนอับจน ยังพอมีทางออก </p><p>แม้กล่าวด้วยท่วงทำนองเรียบ ๆ แต่ก็ชวนสะดุ้งสำหรับคนที่เกี่ยวข้องกับการพัฒนาซอฟท์แวร์</p><p style="background-color: #ffffff">A Polynomial Time Algorithm for The
Traveling Salesman Problem โดย Sergey Gubin
(March 30, 2007) arXiv:cs/0610042v2 [cs.DM] 9 Nov 2006
</p><p style="background-color: #ffffff">Article describes a polynomial time algorithm for The Asymmetric Traveling Salesman Problem and a polynomial time algorithm for The Directed Hamiltonian Cycle Problem. Existence of these algorithms constructively solves The Millennium P vs NP Problem: P = NP.
</p><p style="background-color: #ffffff"></p><p style="background-color: #ffffff"> </p>

หมายเลขบันทึก: 95653เขียนเมื่อ 11 พฤษภาคม 2007 15:08 น. ()แก้ไขเมื่อ 6 กันยายน 2013 17:59 น. ()สัญญาอนุญาต: จำนวนที่อ่านจำนวนที่อ่าน:


ความเห็น (0)

ไม่มีความเห็น

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท