กระทู้นี้ผมตั้งใจจะปรับแก้เพิ่มเติมอยู่เรื่อย ๆ นะครับ
สืบเนื่องจากกระทู้ก่อนหน้าที่กล่าวถึงปัญหา spambot
Spambot - ภัยเงียบของ Blog และ Webboard
ระบบกรอง Spambot แบบ text-mode
จากการวิเคราะห์ทำความเข้าใจรูปแบบของ spambot ที่เจอกับตัวเองว่ามีพฤติกรรมอย่างไร สิ่งที่พบ อาจมีประโยชน์กับชุมชนนักพัฒนาเวปในการสร้างมาตรการป้องกันจากความเข้าใจนิสัยความเคยชินของระบบสแปมเหล่านี้ ผมจึงดึงเนื้อหาจากกระทู้ดังกล่าวออกมาสร้างเป็นกระทู้ใหม่ที่เห็นอยู่นี้ แต่มีการขยายความในรายละเอียด
1. มันมีการ 'ชี้เป้า' ก่อนโจมตี เพื่อ 'หยั่งเชิง' เป้าหมาย
สมัยก่อน (ยุคแรกสุดที่สแปมยกพลขึ้นบก) มีการแปะข้อความขยะที่ดูเหมือนไร้ความหมายมาก่อน (แต่จริง ๆ ก็โจ่งแจ้งนั่นแหละ มันเขียนทำนองนี้ "jhd)((&^$-45asfkljawer34 %%jkwe@#@#$" ใครเห็นเขาก็รู้แหละว่าเป็นระบบชี้เป้า) ซึ่งภายหลัง ลักษณะแบบนี้หายไป แต่สแปมก็ยังกรีฑาทัพเข้ามาอย่างหนาแน่น
ดูเหมือนว่าคำศัพท์บางคำ จะเป็นตัวดึงดูดให้มันมาโจมตีได้ด้วย เช่น พูดถึงชื่อยานอนหลับบางตัวไว้ มันก็จะดึงดูด spambot เข้าหา แบบนี้ถึงไม่มีระบบชี้เป้าจากภายนอก ก็ดูเหมือนไม่จำเป็นแล้ว
สิ่งที่แปลกมากคือ บางครั้งมีการชี้เป้าโดยกระทู้ที่ไม่มีข้อความใด ๆ !
นี่คือลักษณะเฉพาะตัวของระบบชี้เป้า version 2 หลังจากที่ระบบชี้เป้า version 1 ล้มเหลวไปแล้ว
ทำไมผมจึงเชื่อว่ามันเป็นกระทู้ชี้เป้า ? คิดไปเองรึเปล่า ?
หลักฐานทุกอย่างมันชี้ไปทางนั้นครับ
มันจะเจาะจงชี้ไปยังกระทู้ที่เคยมีประวัติการ post ข้อความถี่ที่สุด แล้วเมื่อผ่านไปสักพัก (ทิ้งช่วงเป็นวัน) ก็จะมีการมารุมโดยสแปมของจริง เป็นรูปแบบที่เกิดซ้ำแล้วซ้ำอีก โดยที่การรุมจะเข้ามาในกระทู้อื่นใดก็ได้ ไม่ได้ไปที่กระทู้'ล่อเป้า'แต่อย่างไร
เมื่อลองสำรวจรายละเอียด ข้อมูลในระเบียนที่ใช้ชี้เป้าเหล่านี้ จะมีข้อมูลอยู่ 2 รายการคือชื่อผู้แปะ ซึ่งสั้นมากเพียง 2-3 ตัวอักษร (สั้นเกินกว่าจะใช้ประโยชน์ได้) และตัวเลขระบุ IP addressของผู้แปะ และจะแปะมา 2 ครั้ง ห่างกันประมาณไม่เกินนาที ส่วนใหญ่เว้นวรรคไปประมาณ 10 กว่าวินาที แต่ที่ส่งติดกันมาก ๆ จนเหมือนส่งพร้อมกันก็ยังเคยเจอ ห่าง 0-1 วินาทีก็มี ทำให้คิดว่าน่าจะเป็น bot มากกว่า แต่จะฟันธงคงยาก
แต่ IP address ทำไมไม่ซ้ำเดิม ทำไมไม่ post ข้อความ ? มันยอมเสียเวลาทำตรงนี้ทำไม ?
ตอนที่เห็นข้อเสนอของหมอวัลลภให้ webmaster ซ่อน IP address ผมก็เกิดอาการ 'ปิ๊งแว๊บ' เห็นชิ้นส่วนย่อยเข้าประกอบกันเป็นรูปร่างในใจทันที
spambot คงใช้ IP address นั่นแหละเป็นระบบนำวิถี ทั้งนี้ เพราะในหน้า webboard มีการแสดง IP address ของผู้แปะข้อความไว้ ซึ่งเป็นมาตรการที่ใช้ได้ดีในยุคดึกดำบรรพ์ในการปรามพวกนักป่วน แต่กลายเป็นการหยิบยื่นอาวุธให้กับระบบสแปมยุคใหม่
ที่แนวคิดนี้มีความเป็นไปได้เพราะถ้ามันใช้ IP เป็นตัวชี้เป้าจริง การใช้ IP 2 รายการจะเป็นการล็อคเป้าที่แม่นยำสูง เพราะ 1 รายการ อาจหลงชี้ไปที่ไหนก็ได้ในโลก รวมทั้งชี้ไปที่เจ้าของ IP ตัวจริง แต่ถ้าใช้คู่กัน 2 รายการ จะมีโอกาสชี้ไปที่ไหนได้อีก ? โดยสามัญสำนึก ไม่น่าจะเจอบ่อย ถ้าเจอ ก็น่าจะเป็นตัวเราเองหนึ่ง และพวกเวบชุมทางที่บันทึกสถิติจราจร
ผมลองใช้ google ติดตาม IP คู่แฝดไร้ลักษณ์นี้ไป ลองเดาดูเล่น ๆ สิครับ ว่ามันจะไปจบที่ไหน ?
ก. ฝ่ายธรรมะ ข. ฝ่ายอธรรม ค. เหยื่ออธรรม ง. ถูกทุกข้อ
เฉลยคือข้อ ง. (ถูกทุกข้อ) ครับ
web นักพัฒนาระบบบางแห่ง เขาทำ blacklist IP ไว้ และ IP คู่แฝดไร้ลักษณ์นี้ก็ไปติดในบัญชีหางว่าวที่เขาระบุว่าเป็นรายการต้องห้ามที่โปรแกรมกรองสแปมของเขาจะเตะทุกอย่างที่เกี่ยวกับรายการเหล่านี้ออกไปทันทีที่พบเห็น
มี web บางแห่งที่เข้าไปแล้วต้องรีบถอยออกมาแทบไม่ทัน มีลักษณะเป็นเหมือนศูนย์บัญชาการ ผมไม่กล้าโอ้เอ้ เพราะเจียมตัวว่าระบบป้องกันตัวไม่แน่นหนา แค่ดูแวบเดียวโดนสปายแวร์กระโดดเกาะตรึม
ลองเข้าไปดูตัวอย่างที่โจ๋งครึ่มได้เองที่
www_spraytechnology_com/cgi-bin/forum/config_cgi
ผมแปลงจุดให้เป็นเครื่องหมายอื่น ไม่อยากให้มันรู้ตัวว่ามีคนแอบปิ๊ง
(ขอเตือนเป็นคำหนักว่ากรุณาป้องกันตัวและรับผิดชอบเครื่องของท่านเองนะครับ ถ้าจะเข้าไปเยี่ยมชมเวบประเภทนี้)
มี web จำนวนหนึ่ง ที่ดูเหมือนจะเป็นเป้าที่โดนสแปมถล่มเอา ผมเข้าไปเห็นบาง blog กลายเป็นสุสาน spam ดูแล้วอนาถใจ แสดงว่า IP คู่นี้ เกี่ยวข้องกับความเสียหายของผู้ให้บริการ blog/webboard จำนวนมากเป็นวงกว้าง
ถ้ามันใช้คู่แฝดไร้ลักษณ์นี้โจมตีเป้าหมายครั้งละหลายแห่ง ก็แสดงว่ามันทำเป็นอุตสาหกรรม
หลักฐานอีกประการที่ตอกย้ำถึงความเป็นได้ของแนวคิดดังกล่าวก็คือ เมื่อลองนำ IP คู่แฝดมหัศจรรย์นี้ไปลองค้นดูใน google ก็จะพบว่า ถ้าเป็นคู่แฝดใหม่ ๆ จะพบใน google น้อยมาก เช่น พบ 2 รายการ สำหรับคู่แฝดที่เพิ่งใช้เมื่อวาน (แสดงว่ามันหาดาราหน้าใหม่มาใช้) แต่คู่แฝดที่มีอายุมากขึ้น จะถูกพาดพิงถึงบ่อยมาก (เช่น พบหลายสิบรายการ เมื่ออายุเกิน 1 สัปดาห์ไปแล้ว)
ข้ออนุมานอีกประการคือ การแปะสิ่งที่ไม่มีตัวตนนี่ กลับมีโอกาสเล็ดลอดระบบวิเคราะห์เนื้อหาอัตโนมัติไปได้ เพราะผู้ดูแลอาจคาดไม่ถึงว่าลูกเล่น 'กระจอก' ขนาดนี้จะมีพิษร้ายไปได้อย่างไร
ดังนั้น คู่ IP ที่มาแปะแบบเงียบ ๆ เหล่านี้ ไม่ใช่เรื่องบังเอิญ ไม่ตรงไปตรงมา และไม่ใช่เรื่องธรรมดาที่ผู้ดูแลเว็บบอร์ดจะเพิกเฉยไม่แยแสอีกต่อไป
ประเด็นก็คือใน web ของนักพัฒนาที่ผมเข้าไปอ่าน (ภาษาเยอรมัน แต่ผมใช้ babelfish แปลเอา) บอกว่า IP เหล่านี้ เจ้าของก็ไม่รู้ตัวว่าโดนใช้ ซึ่งเป็นไปได้ว่ามีการปลอม IP หรือก็อาจเป็นไปได้ว่ามันใช้ประตูหลังของเหยื่อไวรัส เป็นฐานยิงไปหาเหยื่อสแปม (ใช้ IP จริง แต่ของชาวบ้านที่ไม่รู้อิโหน่อิเหน่) ถ้าเป็นแบบหลัง แสดงว่ารังใหญ่ของระบบสแปม มีความสัมพันธ์ขั้นลึกซึ้งกับนักสร้างไวรัส
สิ่งนี้ทำให้ผมค่อนข้างปักใจเชื่อว่ามันอาจใช้ search engine เป็นเครื่องมือช่วยในการล็อคเป้าเพื่อแปะสแปมอัตโนมัติ หลังจากมีระบบชี้เป้านำร่องไว้ก่อนแล้ว เช่น bot อาจใช้บริการ search engine ค้น IP ปลอมทั้งคู่ที่มันทิ้งร่องรอยไว้ ควบหัวข้อกระทู้ที่มันเก็บไว้ ถ้าพบแสดงว่าเว็บบอร์ดนี้ไม่มีคนดูแลอยู่ (ถ้ามีคนดูแล เขาคงลบไปก่อน googlebot มาเก็บข้อมูลไปได้) เป็นสัญญาณให้เปิดฉากโจมตีได้ (ซึ่งมักเกิดหลังการชี้เป้าไปแล้วหลายชั่วโมง หรือข้ามวัน)
หลักฐานสนับสนุนคือ ตั้งแต่เมื่อเข้าใจวิธีคิดของมัน และตามลบกระทู้ที่มีลักษณะเข้าเค้าว่าอาจเป็น IP คู่แฝด (เมื่อก่อนลบมั่ง-ไม่ลบมั่ง เพราะคิดว่ามันไม่มีพิษมีภัย) ก็ลดความถี่การเข้ามารุมได้พอสมควร นับว่าความพยายามลบที่ผ่านมาไม่ถึงกับสูญเปล่าซะทีเดียว
ดูสถิติการแปะ spam ของเว็บบอร์ดที่ผมใช้เป็นกรณีศึกษาครั้งนี้ก็ได้ครับ พักหลัง ๆ นี่ดีขึ้นมาก
1 กค - 20 กค ค่าเฉลี่ย % ขยะ = 48 %
21 กค - 10 สค ค่าเฉลี่ย % ขยะ = 35 %
ตอนลบขยะนี่ ผมก็ทำใจซะว่าเล่นเกมส์ยิงมนุษย์ต่างดาว ลบหนึ่งชิ้น ก็ได้แต้มนึง ช่วยให้รู้สึกดี๊..ดี นี่ยังชั่งใจอยู่ว่าถ้าขอให้โปรแกรมเมอร์ผู้ดูและระบบช่วยทำเสียงยิงเลเซอร์ พิ้ว..พิ้ว.. ให้ซะหน่อยเวลายิง ...เอ๊ย... ลบกระทู้ น่าจะมีอาสาสมัครมาช่วยลบกันตรึม
ช่วงแรก ๆ ที่มันซาไป ผมเองก็กลับกระสับกระส่าย ลองนึกถึงตอนที่เราดูหนังผีดิบ สู้ ๆ วิ่ง ๆ กับผีดิบกัน อยู่ ๆ ทุกอย่างหยุดกึก เงียบสงัดไปหมด กลับยิ่งไม่วางใจ กลัวมันงัดทีเด็ดอะไรแปลก ๆ ใหม่ ๆ มาเล่นอีกให้ตั้งรับไม่ทัน
ผมมองว่า หากผู้รับผิดชอบจะจัดการกับแหล่งต้นตอของระบบ spam จุดตั้งต้นที่ดีมากจุดหนึ่งก็คือ IP แฝดไร้ลักษณ์นี่แหละครับ เป็นร่องรอยเบาะแสชั้นเลิศในการสืบสาวกลับไปยัง 'รัง' ของมัน
จะลองดูเองบ้างไหมครับ ผมจะลองแจงตัวอย่างคู่ IP มหัศจรรย์ให้ดู ลองใช้ search engine ตรวจสอบดูนะครับ ว่ามันจะนำไปที่ใด ? บอกไว้ก่อนนะครับ ว่าผมเชื่อว่าเป็นการปลอม IP เพราะฉะนั้น เจ้าของไม่ต้องร้อนตัว ท่านเป็นเพียงผู้ถูก'สวมรอย'
201_0_4_148 203_211_158_252
210_93_13_77 222_120_158_215
210_21_75_114 221_208_173_84
81_199_138_82 203_149_62_66
2. มันมีการ'เหนี่ยวนำ'ให้พวกเดียวกันมารุม
ถ้ากระทู้ไหนเคยโดน ก็จะโดนซ้ำ ๆ อยู่เรื่อย หากโดนแล้วไม่รีบทำความสะอาด มันจะเพิ่มปริมาณมารุมแบบอัตราเร่ง ในมุมกลับ หากล้างเร็วและเกลี้ยงพอ ดูเหมือนมันจะซา ๆ ไป
จากสิ่งที่ประมวลมานี้ ผมมองว่าสิ่งที่น่ากังวลคือระบบ webboard หรือ blog ก็ตามแต่ ก็คือ มักจะมีมุมอับที่เนื้อหาไม่มีการเคลื่อนไหว ดูเหมือนว่ามุมอับเหล่านี้ เป็นจุดวิกฤติเพราะ spam จะฝังตัวได้นานโดยคนไม่เห็น (แต่ googlebot เห็น) ซึ่งเมื่อมันฝังตัวได้ เว็บนั้นก็จะถูก spam มารุมไม่หยุดเพราะมันมองเห็นพวกเดียวกัน (ผมเห็นในบาง webboard กระทู้ไหนโดนมันรุมเกาะ ก็จะยิ่งมีการรุมเกาะหนักขึ้นไปอีก และค่อย ๆ ลามไปหากระทู้อื่น)
ประเด็นนี้ ทำให้ผมเชื่อว่า การทำ content analysis แบบอัตโนมัติ หรือจะ 'ทำมือ' ก็ตามแต่ น่าจะช่วยลดระดับความรุนแรงของปัญหาลงได้ระดับหนึ่ง โดยที่การลบในกรณีที่เป็น spam แบบนี้ ไม่ต้องถามความยินยอมของเจ้าของ blog ให้เสียเวลา เพราะเป็นภัยคุกคามตรงต่อระบบโดยรวม
3. มันอาจใช้หลายเส้นทางเข้ามา ทั้งผ่าน bot หรือผ่านคนก็ได้
ผ่านคนนี่ง่ายเลย แต่ผ่าน bot นี่ยากกว่าถ้าเป้าหมายมีระบบป้องกันตัว
แต่ผมเชื่อว่าพวกนี้มีวิวัฒนาการเร็ว ต่อไปมันคงงัดลูกเล่นแปลกใหม่ออกมา และคงทวีความรุนแรงขึ้นได้อีกมาก เพราะถ้าเป็นอย่างที่อาจารย์จันทวรรณหรืออาจารย์ธวัชชัยชี้ไว้ มันมีผลประโยชน์มหาศาลเกี่ยวพัน เราก็เป็นเพียงหญ้าแพรกในสนามการต่อสู้ระหว่าง search engine กับฝ่ายที่เล่นขี้โกง (พยายามแทรกแซง search engine เพื่อโปรโมท web ผิดกฎหมาย) เท่านั้น
เมื่อลองใช้แนวคิดทางชีววิทยามาอธิบาย สิ่งเหล่านี้มีพฤติกรรมเหมือนเหาฉลาม - เป็น 'เหาฉลามไซเบอร์' ที่คอยหากินจากปลาฉลาม (search engine) แต่ในยุคแรกเริ่มนี้ ยังมีลักษณะแบบตัวปรสิตที่จ้องเบียดเบียนแต่ถ่ายเดียว ไม่ได้เอื้อด้านที่เป็นคุณแม้แต่น้อย
ไม่ว่าเราจะชอบมันหรือไม่ก็ตามที จากนี้ไป ตราบใดที่เรายังต้องใช้ search engine อยู่และให้บริการสื่อที่มีศักยภาพในการเป็น"พาหะ" เช่น webboard หรือ blog เราคงต้องเรียนรู้ที่จะใช้ชีวิตร่วมกับสแปมเหล่านี้ มันจะวิวัฒนาการกลมกลืนไปกับวิถีชีวิตของเรา
เพราะเราเป็น "เจ้าบ้าน (host) ผู้แสนดี" สำหรับมัน
อาจารย์
เป็นความรู้ใหม่ๆที่ผมสนใจครับ
ไม่ค่อยมีความรู้เรื่องพวกนี้ แต่ก็สนใจ ว่าที่มาของมัน คืออย่างไร
บันทึกละเอียด และน่าติดตามมากครับ
อ่านสนุกมากเลยครับ ได้ความรู้ด้วย ขอบคุณครับ
อยากทราบวิธีการ ซ่อน IP ADDRESS ค่ะ
ช่วยหน่อยนะค่ะ
กำลังเจอปัญหานี้ เลยค้นหาอ่าน จนมาเจอ
ได้ความรู้ใหม่เลยครับ