แกะรอย spambot

กระทู้นี้ผมตั้งใจจะปรับแก้เพิ่มเติมอยู่เรื่อย ๆ นะครับ

สืบเนื่องจากกระทู้ก่อนหน้าที่กล่าวถึงปัญหา spambot

จากการวิเคราะห์ทำความเข้าใจรูปแบบของ spambot ที่เจอกับตัวเองว่ามีพฤติกรรมอย่างไร สิ่งที่พบ อาจมีประโยชน์กับชุมชนนักพัฒนาเวปในการสร้างมาตรการป้องกันจากความเข้าใจนิสัยความเคยชินของระบบสแปมเหล่านี้ ผมจึงดึงเนื้อหาจากกระทู้ดังกล่าวออกมาสร้างเป็นกระทู้ใหม่ที่เห็นอยู่นี้ แต่มีการขยายความในรายละเอียด

1. มันมีการ 'ชี้เป้า' ก่อนโจมตี เพื่อ 'หยั่งเชิง' เป้าหมาย

สมัยก่อน (ยุคแรกสุดที่สแปมยกพลขึ้นบก) มีการแปะข้อความขยะที่ดูเหมือนไร้ความหมายมาก่อน (แต่จริง ๆ ก็โจ่งแจ้งนั่นแหละ มันเขียนทำนองนี้ "jhd)((&^$-45asfkljawer34 %%jkwe@#@#$" ใครเห็นเขาก็รู้แหละว่าเป็นระบบชี้เป้า) ซึ่งภายหลัง ลักษณะแบบนี้หายไป แต่สแปมก็ยังกรีฑาทัพเข้ามาอย่างหนาแน่น

ดูเหมือนว่าคำศัพท์บางคำ จะเป็นตัวดึงดูดให้มันมาโจมตีได้ด้วย เช่น พูดถึงชื่อยานอนหลับบางตัวไว้ มันก็จะดึงดูด spambot เข้าหา แบบนี้ถึงไม่มีระบบชี้เป้าจากภายนอก ก็ดูเหมือนไม่จำเป็นแล้ว

สิ่งที่แปลกมากคือ บางครั้งมีการชี้เป้าโดยกระทู้ที่ไม่มีข้อความใด ๆ !

นี่คือลักษณะเฉพาะตัวของระบบชี้เป้า version 2 หลังจากที่ระบบชี้เป้า version 1 ล้มเหลวไปแล้ว

ทำไมผมจึงเชื่อว่ามันเป็นกระทู้ชี้เป้า ? คิดไปเองรึเปล่า ?

หลักฐานทุกอย่างมันชี้ไปทางนั้นครับ

มันจะเจาะจงชี้ไปยังกระทู้ที่เคยมีประวัติการ post ข้อความถี่ที่สุด แล้วเมื่อผ่านไปสักพัก (ทิ้งช่วงเป็นวัน) ก็จะมีการมารุมโดยสแปมของจริง เป็นรูปแบบที่เกิดซ้ำแล้วซ้ำอีก โดยที่การรุมจะเข้ามาในกระทู้อื่นใดก็ได้ ไม่ได้ไปที่กระทู้'ล่อเป้า'แต่อย่างไร

เมื่อลองสำรวจรายละเอียด ข้อมูลในระเบียนที่ใช้ชี้เป้าเหล่านี้ จะมีข้อมูลอยู่ 2 รายการคือชื่อผู้แปะ ซึ่งสั้นมากเพียง 2-3 ตัวอักษร (สั้นเกินกว่าจะใช้ประโยชน์ได้) และตัวเลขระบุ IP addressของผู้แปะ และจะแปะมา 2 ครั้ง ห่างกันประมาณไม่เกินนาที ส่วนใหญ่เว้นวรรคไปประมาณ 10 กว่าวินาที แต่ที่ส่งติดกันมาก ๆ จนเหมือนส่งพร้อมกันก็ยังเคยเจอ ห่าง 0-1 วินาทีก็มี ทำให้คิดว่าน่าจะเป็น bot มากกว่า แต่จะฟันธงคงยาก

แต่ IP address ทำไมไม่ซ้ำเดิม ทำไมไม่ post ข้อความ ? มันยอมเสียเวลาทำตรงนี้ทำไม ?

ตอนที่เห็นข้อเสนอของหมอวัลลภให้ webmaster ซ่อน IP address ผมก็เกิดอาการ 'ปิ๊งแว๊บ' เห็นชิ้นส่วนย่อยเข้าประกอบกันเป็นรูปร่างในใจทันที

spambot คงใช้ IP address นั่นแหละเป็นระบบนำวิถี ทั้งนี้ เพราะในหน้า webboard มีการแสดง IP address ของผู้แปะข้อความไว้ ซึ่งเป็นมาตรการที่ใช้ได้ดีในยุคดึกดำบรรพ์ในการปรามพวกนักป่วน แต่กลายเป็นการหยิบยื่นอาวุธให้กับระบบสแปมยุคใหม่

ที่แนวคิดนี้มีความเป็นไปได้เพราะถ้ามันใช้ IP เป็นตัวชี้เป้าจริง การใช้ IP 2 รายการจะเป็นการล็อคเป้าที่แม่นยำสูง เพราะ 1 รายการ อาจหลงชี้ไปที่ไหนก็ได้ในโลก รวมทั้งชี้ไปที่เจ้าของ IP ตัวจริง แต่ถ้าใช้คู่กัน 2 รายการ จะมีโอกาสชี้ไปที่ไหนได้อีก ? โดยสามัญสำนึก ไม่น่าจะเจอบ่อย ถ้าเจอ ก็น่าจะเป็นตัวเราเองหนึ่ง และพวกเวบชุมทางที่บันทึกสถิติจราจร

ผมลองใช้ google ติดตาม IP คู่แฝดไร้ลักษณ์นี้ไป ลองเดาดูเล่น ๆ สิครับ ว่ามันจะไปจบที่ไหน ?

ก. ฝ่ายธรรมะ ข. ฝ่ายอธรรม ค. เหยื่ออธรรม ง. ถูกทุกข้อ

เฉลยคือข้อ ง. (ถูกทุกข้อ) ครับ

web นักพัฒนาระบบบางแห่ง เขาทำ blacklist IP ไว้ และ IP คู่แฝดไร้ลักษณ์นี้ก็ไปติดในบัญชีหางว่าวที่เขาระบุว่าเป็นรายการต้องห้ามที่โปรแกรมกรองสแปมของเขาจะเตะทุกอย่างที่เกี่ยวกับรายการเหล่านี้ออกไปทันทีที่พบเห็น

มี web บางแห่งที่เข้าไปแล้วต้องรีบถอยออกมาแทบไม่ทัน มีลักษณะเป็นเหมือนศูนย์บัญชาการ ผมไม่กล้าโอ้เอ้ เพราะเจียมตัวว่าระบบป้องกันตัวไม่แน่นหนา แค่ดูแวบเดียวโดนสปายแวร์กระโดดเกาะตรึม

ลองเข้าไปดูตัวอย่างที่โจ๋งครึ่มได้เองที่

www_spraytechnology_com/cgi-bin/forum/config_cgi

ผมแปลงจุดให้เป็นเครื่องหมายอื่น ไม่อยากให้มันรู้ตัวว่ามีคนแอบปิ๊ง

(ขอเตือนเป็นคำหนักว่ากรุณาป้องกันตัวและรับผิดชอบเครื่องของท่านเองนะครับ ถ้าจะเข้าไปเยี่ยมชมเวบประเภทนี้)

มี web จำนวนหนึ่ง ที่ดูเหมือนจะเป็นเป้าที่โดนสแปมถล่มเอา ผมเข้าไปเห็นบาง blog กลายเป็นสุสาน spam ดูแล้วอนาถใจ แสดงว่า IP คู่นี้ เกี่ยวข้องกับความเสียหายของผู้ให้บริการ blog/webboard จำนวนมากเป็นวงกว้าง

ถ้ามันใช้คู่แฝดไร้ลักษณ์นี้โจมตีเป้าหมายครั้งละหลายแห่ง ก็แสดงว่ามันทำเป็นอุตสาหกรรม

หลักฐานอีกประการที่ตอกย้ำถึงความเป็นได้ของแนวคิดดังกล่าวก็คือ เมื่อลองนำ IP คู่แฝดมหัศจรรย์นี้ไปลองค้นดูใน google ก็จะพบว่า ถ้าเป็นคู่แฝดใหม่ ๆ จะพบใน google น้อยมาก เช่น พบ 2 รายการ สำหรับคู่แฝดที่เพิ่งใช้เมื่อวาน (แสดงว่ามันหาดาราหน้าใหม่มาใช้) แต่คู่แฝดที่มีอายุมากขึ้น จะถูกพาดพิงถึงบ่อยมาก (เช่น พบหลายสิบรายการ เมื่ออายุเกิน 1 สัปดาห์ไปแล้ว)

ข้ออนุมานอีกประการคือ การแปะสิ่งที่ไม่มีตัวตนนี่ กลับมีโอกาสเล็ดลอดระบบวิเคราะห์เนื้อหาอัตโนมัติไปได้ เพราะผู้ดูแลอาจคาดไม่ถึงว่าลูกเล่น 'กระจอก' ขนาดนี้จะมีพิษร้ายไปได้อย่างไร

ดังนั้น คู่ IP ที่มาแปะแบบเงียบ ๆ เหล่านี้ ไม่ใช่เรื่องบังเอิญ ไม่ตรงไปตรงมา และไม่ใช่เรื่องธรรมดาที่ผู้ดูแลเว็บบอร์ดจะเพิกเฉยไม่แยแสอีกต่อไป

ประเด็นก็คือใน web ของนักพัฒนาที่ผมเข้าไปอ่าน (ภาษาเยอรมัน แต่ผมใช้ babelfish แปลเอา) บอกว่า IP เหล่านี้ เจ้าของก็ไม่รู้ตัวว่าโดนใช้ ซึ่งเป็นไปได้ว่ามีการปลอม IP หรือก็อาจเป็นไปได้ว่ามันใช้ประตูหลังของเหยื่อไวรัส เป็นฐานยิงไปหาเหยื่อสแปม (ใช้ IP จริง แต่ของชาวบ้านที่ไม่รู้อิโหน่อิเหน่) ถ้าเป็นแบบหลัง แสดงว่ารังใหญ่ของระบบสแปม มีความสัมพันธ์ขั้นลึกซึ้งกับนักสร้างไวรัส

สิ่งนี้ทำให้ผมค่อนข้างปักใจเชื่อว่ามันอาจใช้ search engine เป็นเครื่องมือช่วยในการล็อคเป้าเพื่อแปะสแปมอัตโนมัติ หลังจากมีระบบชี้เป้านำร่องไว้ก่อนแล้ว เช่น bot อาจใช้บริการ search engine ค้น IP ปลอมทั้งคู่ที่มันทิ้งร่องรอยไว้ ควบหัวข้อกระทู้ที่มันเก็บไว้ ถ้าพบแสดงว่าเว็บบอร์ดนี้ไม่มีคนดูแลอยู่ (ถ้ามีคนดูแล เขาคงลบไปก่อน googlebot มาเก็บข้อมูลไปได้) เป็นสัญญาณให้เปิดฉากโจมตีได้ (ซึ่งมักเกิดหลังการชี้เป้าไปแล้วหลายชั่วโมง หรือข้ามวัน)

หลักฐานสนับสนุนคือ ตั้งแต่เมื่อเข้าใจวิธีคิดของมัน และตามลบกระทู้ที่มีลักษณะเข้าเค้าว่าอาจเป็น IP คู่แฝด (เมื่อก่อนลบมั่ง-ไม่ลบมั่ง เพราะคิดว่ามันไม่มีพิษมีภัย) ก็ลดความถี่การเข้ามารุมได้พอสมควร นับว่าความพยายามลบที่ผ่านมาไม่ถึงกับสูญเปล่าซะทีเดียว

ดูสถิติการแปะ spam ของเว็บบอร์ดที่ผมใช้เป็นกรณีศึกษาครั้งนี้ก็ได้ครับ พักหลัง ๆ นี่ดีขึ้นมาก

1 กค - 20 กค ค่าเฉลี่ย % ขยะ = 48 %

21 กค - 10 สค ค่าเฉลี่ย % ขยะ = 35 %

ตอนลบขยะนี่ ผมก็ทำใจซะว่าเล่นเกมส์ยิงมนุษย์ต่างดาว ลบหนึ่งชิ้น ก็ได้แต้มนึง ช่วยให้รู้สึกดี๊..ดี นี่ยังชั่งใจอยู่ว่าถ้าขอให้โปรแกรมเมอร์ผู้ดูและระบบช่วยทำเสียงยิงเลเซอร์ พิ้ว..พิ้ว.. ให้ซะหน่อยเวลายิง ...เอ๊ย... ลบกระทู้ น่าจะมีอาสาสมัครมาช่วยลบกันตรึม

ช่วงแรก ๆ ที่มันซาไป ผมเองก็กลับกระสับกระส่าย ลองนึกถึงตอนที่เราดูหนังผีดิบ สู้ ๆ วิ่ง ๆ กับผีดิบกัน อยู่ ๆ ทุกอย่างหยุดกึก เงียบสงัดไปหมด กลับยิ่งไม่วางใจ กลัวมันงัดทีเด็ดอะไรแปลก ๆ ใหม่ ๆ มาเล่นอีกให้ตั้งรับไม่ทัน

ผมมองว่า หากผู้รับผิดชอบจะจัดการกับแหล่งต้นตอของระบบ spam จุดตั้งต้นที่ดีมากจุดหนึ่งก็คือ IP แฝดไร้ลักษณ์นี่แหละครับ เป็นร่องรอยเบาะแสชั้นเลิศในการสืบสาวกลับไปยัง 'รัง' ของมัน

จะลองดูเองบ้างไหมครับ ผมจะลองแจงตัวอย่างคู่ IP มหัศจรรย์ให้ดู ลองใช้ search engine ตรวจสอบดูนะครับ ว่ามันจะนำไปที่ใด ? บอกไว้ก่อนนะครับ ว่าผมเชื่อว่าเป็นการปลอม IP เพราะฉะนั้น เจ้าของไม่ต้องร้อนตัว ท่านเป็นเพียงผู้ถูก'สวมรอย'

201_0_4_148        203_211_158_252
210_93_13_77      222_120_158_215
210_21_75_114    221_208_173_84
81_199_138_82   203_149_62_66

2. มันมีการ'เหนี่ยวนำ'ให้พวกเดียวกันมารุม

ถ้ากระทู้ไหนเคยโดน ก็จะโดนซ้ำ ๆ อยู่เรื่อย หากโดนแล้วไม่รีบทำความสะอาด มันจะเพิ่มปริมาณมารุมแบบอัตราเร่ง ในมุมกลับ หากล้างเร็วและเกลี้ยงพอ ดูเหมือนมันจะซา ๆ ไป

จากสิ่งที่ประมวลมานี้ ผมมองว่าสิ่งที่น่ากังวลคือระบบ webboard หรือ blog ก็ตามแต่ ก็คือ มักจะมีมุมอับที่เนื้อหาไม่มีการเคลื่อนไหว ดูเหมือนว่ามุมอับเหล่านี้ เป็นจุดวิกฤติเพราะ spam จะฝังตัวได้นานโดยคนไม่เห็น (แต่ googlebot เห็น) ซึ่งเมื่อมันฝังตัวได้ เว็บนั้นก็จะถูก spam มารุมไม่หยุดเพราะมันมองเห็นพวกเดียวกัน (ผมเห็นในบาง webboard กระทู้ไหนโดนมันรุมเกาะ ก็จะยิ่งมีการรุมเกาะหนักขึ้นไปอีก และค่อย ๆ ลามไปหากระทู้อื่น)

ประเด็นนี้ ทำให้ผมเชื่อว่า การทำ content analysis แบบอัตโนมัติ หรือจะ 'ทำมือ' ก็ตามแต่ น่าจะช่วยลดระดับความรุนแรงของปัญหาลงได้ระดับหนึ่ง โดยที่การลบในกรณีที่เป็น spam แบบนี้ ไม่ต้องถามความยินยอมของเจ้าของ blog ให้เสียเวลา เพราะเป็นภัยคุกคามตรงต่อระบบโดยรวม

3. มันอาจใช้หลายเส้นทางเข้ามา ทั้งผ่าน bot หรือผ่านคนก็ได้

ผ่านคนนี่ง่ายเลย แต่ผ่าน bot นี่ยากกว่าถ้าเป้าหมายมีระบบป้องกันตัว

แต่ผมเชื่อว่าพวกนี้มีวิวัฒนาการเร็ว ต่อไปมันคงงัดลูกเล่นแปลกใหม่ออกมา และคงทวีความรุนแรงขึ้นได้อีกมาก เพราะถ้าเป็นอย่างที่อาจารย์จันทวรรณหรืออาจารย์ธวัชชัยชี้ไว้ มันมีผลประโยชน์มหาศาลเกี่ยวพัน เราก็เป็นเพียงหญ้าแพรกในสนามการต่อสู้ระหว่าง search engine กับฝ่ายที่เล่นขี้โกง (พยายามแทรกแซง search engine เพื่อโปรโมท web ผิดกฎหมาย) เท่านั้น

เมื่อลองใช้แนวคิดทางชีววิทยามาอธิบาย สิ่งเหล่านี้มีพฤติกรรมเหมือนเหาฉลาม - เป็น 'เหาฉลามไซเบอร์' ที่คอยหากินจากปลาฉลาม (search engine) แต่ในยุคแรกเริ่มนี้ ยังมีลักษณะแบบตัวปรสิตที่จ้องเบียดเบียนแต่ถ่ายเดียว ไม่ได้เอื้อด้านที่เป็นคุณแม้แต่น้อย

ไม่ว่าเราจะชอบมันหรือไม่ก็ตามที จากนี้ไป ตราบใดที่เรายังต้องใช้ search engine อยู่และให้บริการสื่อที่มีศักยภาพในการเป็น"พาหะ" เช่น webboard หรือ blog เราคงต้องเรียนรู้ที่จะใช้ชีวิตร่วมกับสแปมเหล่านี้ มันจะวิวัฒนาการกลมกลืนไปกับวิถีชีวิตของเรา

เพราะเราเป็น "เจ้าบ้าน (host) ผู้แสนดี" สำหรับมัน