หน้าแรก สมาชิก ดร. จันทวรรณ ปิยะวัฒน์สมุด ศูนย์ช่วยเหลือการใช้งาน GotoKnowสืบจับตัวนัก spam ผ่านทางสถิติหน้าเพจ

สืบจับตัวนัก spam ผ่านทางสถิติหน้าเพจ

เขียนเมื่อ 4 ส.ค. 2549 21:00 น. · แก้ไขเมื่อ 6 ก.ย. 2556 17:29 น. 4 ส.ค. 2549 · 6 ก.ย. 2556

ช่วงสายวันนี้ ดิฉันอ่านบันทึกของอาจารย์หมอวิจารณ์แล้วพบ spam comments ดังในรูป

แถมเป็นภาษาจีนอีกต่างหาก อึ้งอยู่นานนึกว่ามีโปรแกรม spam สามารถเจาะรหัสตัวเลขของเราได้

แต่นึกอีกที ไม่ใช่แน่นอนเพราะคงยากอยู่เหมือนกันที่จะเขียนโปรแกรมเพื่อมาอ่าน Image เพียงเพื่อใส่ comment แผลงๆ ลงไป ไปเขียนโปรแกรมขายน่าจะรวยกว่า

คิดดูใหม่อีกที ก็ยิ่งรู้สึกแน่นอนใจว่า คงเป็นแรงงานราคาถูกในประเทศจีนถูกจ้างให้ใส่ spam comment ตามบล็อก

ด้วยความอยากรู้ว่า คนจีนคนนี้เขาเจอบล็อกอาจารย์หมอวิจารณ์ได้อย่างไร ดิฉันจึงเข้าไปดูสถิติของหน้าเพจนั้น ซึ่ง แต่ละหน้าใน GotoKnow จะมีสถิติอยู่ด้านล่าง ค่ะ

จากรูป ดูจากเวลาที่ตรงกับการ comment จะเห็นได้ชัดว่า คนจีนคนนี้หาบล็อกนี้เจอด้วยการค้นหา Google ด้วยคำว่า home blog ดังในรูป

แล้วก็คงสุ่มไปเรื่อยๆ จนเจอบล็อกใน GotoKnow เข้า ซึ่งก็แน่นอนว่าบล็อกที่ rating สูงที่สุดใน GotoKnow ก็ย่อมเป็นบล็อกอาจารย์หมอวิจารณ์

ว่าแล้ว ดิฉันก็รีบแจ้งให้คุณเก๋ เลขาฯ อาจารย์หมอให้ลบออกทันทีค่ะ ซึ่ง เจ้าของบล็อกทุกท่านเมื่อ login เข้าระบบแล้ว จะสามารถลบ comment ในบล็อกของตนได้เองค่ะ

เห็นทีคงต้องเปลี่ยนรหัสตัวเลขเป็นภาษาไทย เจ้าคนที่ถูกจ้างให้เขียน spam comment จะได้ลอกคำไทยไม่ได้ ถ้ายังทำได้ ก็คงเป็นคนไทยด้วยกันเองค่ะ:)

คำสำคัญ (Tags): #spam #stat #ข้อคิดเห็น #สถิติ

ความเห็น

wwibul

เขียนเมื่อ 4 ส.ค. 2549 23:17 น. 4 ส.ค. 2549

ลองดูระบบ "ซามเจะนึงโหะ" ที่ อ.ธวัชชัยแซวผมไว้ก็ไม่เลวนะครับ

ม่านกั้นทางวัฒนธรรมแม้จะดูพื้น ๆ แต่กรณีนี้อาจใช้เป็นเกราะไซเบอร์ได้

อย่างน้อยก็สักพัก

wipat

เขียนเมื่อ 5 ส.ค. 2549 11:20 น. 5 ส.ค. 2549

ผมก็เจอปัญหาแบบนี้บนเวบบอร์ดที่ผมอนุญาติให้ผู้เยี่ยมชมสาธารณะโพสต์ทั้งที่บังคับให้ต้องป้อนตัวเลขจากภาพด้วย ผมยังแกะรอยวิธีการปล่อย spam ไม่เจอชัดเจน เท่าที่พบข้อมูล(ของผม) สันนิษฐานดังนี้

- คงไม่ใช่พวกเจตนาขายสินค้าโดยตรง เพราะข้อมูลที่ส่งเข้ามาเป็นภาษาต่างชาติ อ่านรู้เรื่องมั่ง ไม่รู้เรื่องมั่ง

- spam ฉบับเดียวกันถูกส่งมาจากสถานที่ต่างกัน(เมกซิโก,อินเดีย,ซาอุฯ,ไทย..) และเวลาต่างกันด้วย สงสัยว่าน่าเป็นพวก spam worm

- หากมันเข้ามาได้สักครั้ง ต่อไปจะเข้ามาได้อีก เข้าใจว่ามันคงจำ session บางอย่างไว้ แล้วลุยสุ่มส่ง จนกระทั่งหลุดเข้าจนได้บ้าง(ไม่กี่ฉบับ) ตอนนี้ผมแก้ปัญหาเฉพาะหน้าคือ แบน IP ทิ้งในระดับ server เลย ผลคือหายหน้าไปพอสมควร

ใครมีวิธีการต่อสู้แบบอื่นๆอีก บอกกันมามั่งนะครับ

--วิภัทร

ขจิต ฝอยทอง

เขียนเมื่อ 5 ส.ค. 2549 13:13 น. 5 ส.ค. 2549

เป็นความรู้ใหม่ครับอาจารย์
ที่มหาวิทยาลัย มีคนจีน อ่าน gotoknow นะครับ
ขอบคุณครับผม

ไม่ระบุ

เขียนเมื่อ 5 ส.ค. 2549 16:07 น. 5 ส.ค. 2549

เห็นทีคงต้องเปลี่ยนรหัสตัวเลขเป็นภาษาไทย

เป็นการป้องกันที่ดี แต่ในขณะเดียวกันกลายเป็นกันไม่ให้คนต่างชาติสามารถแสดงความเห็นได้ หรือกันไม่ใช้คนไทยที่อยู่ต่างประเทศ (ไม่สามารถพิมพ์ไทยได้) เข้ามาด้วยเช่นกัน

นพ. วัลลภ พรเรืองวงศ์

เขียนเมื่อ 6 ส.ค. 2549 10:37 น. 6 ส.ค. 2549

ขอขอบคุณท่านอาจารย์จันทวรรณ...

เป็นเรื่องที่น่าสนใจมากครับ

ขอเรียนเสนอว่า

(1). เลข IP น่าจะซ่อนไว้ ให้แสดงเฉพาะ webmaster ไว้ตรวจสอบ
(2). รหัสตัวเลขน่าจะผสมเลขไทย
(3). ถ้าคนไทยในต่างประเทศจะเข้า+ไม่มีแป้นพิมพ์อักษรไทย > ให้ทำเติมคำในช่องว่าง เช่น แสดงเลขไทยไว้ ให้เติมกลับมาเป็นเลขอารบิค ฯลฯ
(4). อีกวิธีหนึ่ง... ให้แสดงเลขไทยผสมอารบิค เช่น 3๔๗7๘ ให้ตอบกลับมาเป็นเลขอารบิคคือ 34778 เป็นต้น

ไม่ระบุ

เขียนเมื่อ 6 ส.ค. 2549 23:32 น. 6 ส.ค. 2549

ผมมองว่าตอนนี้เป็นสงครามโลกภาค Cyber War ทุำกฝ่ายที่เกี่ยวข้อง มุ่งยึดครอง seach engine เป็นพวกของตน แม้ อ.ธวัชชัย เอง ก็ยังร้องเพลงครวญหา googlebot ถ้าอย่างนั้น ที่ไหนมี rating สูงในมุมมองของ search engine ล้วนกลายเป็นเป้าของระบบบ็อท หรือคน ที่มุ่งแปะ spam ไว้ล่อ search engine แนวโน้มนี้หมายความว่าเราจะเจอมากขึ้นเรื่อย ๆ และดุขึ้นเรื่อย ๆ กลายเป็นอุตสาหกรรมหลักกระแสหนึ่งไปแล้ว

ผมเจอเองมาพักใหญ่ กลายเป็นหัวขบวนที่ 'อิน เทรนด์'สุด ๆ เพราะระบบเว็บบอร์ดที่ผมรับผิดชอบอยู่ (เป็นบรรณาธิกร) ไม่มีระบบกรองใด ๆ ทั้งสิ้น มีเวลาศึกษาพฤติกรรมขณะลบกระทู้เหล่านี้มาอย่างละเอียดหลายเดือน ทำให้เริ่มสรุปกระสวนความคิดของระบบ bot เหล่านี้ออกมาในกระทู้

http://gotoknow.org/blog/wwibul/42622

http://gotoknow.org/blog/wwibul/40340

ซึ่งตอนแรก คิดว่าเป็นแค่ระดับยุงรำคาญ แต่ตอนนี้ กำลังเปลี่ยนมุมมองว่าปัญหานี้ร้ายแรงกว่าที่คิด

การบล๊อค IP ไม่มีความหมายครับ เดี๋ยวนี้มันปลอม IP ทุกครั้งที่ post เปลี่ยนไปเรื่อย ๆ กลายเป็นคนบริสุทธิ์โดนลูกหลงซะเปล่า ๆ

ทำไมระบบที่มีตัวกรองสามารถเจาะทะลุ ?

กรณีที่ 1. จ้างคนให้ post เป็นล่ำเป็นสัน (อย่างที่ อ.ธวัชชัยเคยเล่าไว้ใน link กระทู้ข้างต้น)

แสดงว่า ระบบตัวเลขอาระบิคและอักษรอังกฤษไม่ปลอดภัยอีกต่อไป เพราะคนทั่วโลกรู้

กรณีที่ 2. ใช้ระบบ bot สมรรถนะสูง

ผมมองว่าเป็นไปได้ เพราะระบบที่ใช้ ๆ กันอยู่ เป็นแบบ 'ถี่ลอดตาช้าง ห่างลอดตาเล็น' นั่นคือ เจอกระบวนท่าพิศดารรับมือได้ทุกแบบ แต่ถ้าโดนแทงตรง ๆ จะตาย ถ้ามันใช้วิธีโจมตีแบบลุยทื่อ ๆ เดาตัวเลขยิงเข้ามาเรื่อย ๆ ต่อให้ระบบของเราเปลี่ยนหมุนตัวเลขหนีไปยังไงก็ตาม ขอเพียงมันยิงมา 7 เท่าของ combinations ที่เป็นไปได้ทั้งหมด โอกาสที่มันจะผ่านไม่ได้จะน้อยกว่า 1 ในพันล้าน (แปลว่า ในทางปฎิบัติ ผ่านชัวร์) ที่ว่ามานี้เป็นการอนุมานทางสถิติ

ดังนั้น ถ้าใช้ตัวเลข 5 หลัก จะทำนายว่ามันลองเพียงไม่เกิน 7 หมื่นครั้งก็ผ่านชัวร์ (ค่าเฉลี่ยอยู่ที่ 1 หมื่นครั้ง)

ถ้าใช้อักขระผสม เช่น A-Z, a-z, 0-9 ทำให้แต่ละหลักเป็นไปได้ราว 70 แบบ ก็จะทำให้การโจมตียากขึ้น สำหรับ 5 หลัก ต้องยิง 7 พันล้านครั้ง ถึงจะผ่าน ซึ่งทำแล้วจะหลงเข้ามายากขึ้น แต่ระบบแบบนี้มีสิทธิทำให้เกิด denial of service ได้ ซึ่งถ้ามันใช้ คงไม่หว่านแห เพราะถ้ามันทำหว่านแห มันจะเป็นเหมือนเชื้ออีโบล่า คือเป็นปรสิตที่อันตรายเกินไปจนไม่มีพาหะเหลือแบกมันไปแพร่กระจาย ถ้ามันระดมยิงแบบนั้น เป้าหมายมันจะตายหมด และมันก็จะไม่ได้ประโยชน์ ผมเชื่อว่ามันคงใช้วิธีให้คนชี้เป้าและเจาะจงโจมตี

ทางออกมีอะไรบ้าง

ทำให้ combinations ของระบบกรอกรหัสผ่านมีความหลากหลายมาขึ้นเป็นหลักล้านขึ้นไป ถ้าให้ดีเป็นหลักพันล้านขึ้นไป (รับมือ bot)
ทำให้การ post ที่มี link density สูง หรือมีคำศัพท์ต้องห้าม (ซึ่งเข้าข่ายว่าอาจเป็นลักษณะจำเพาะของขยะ)ไม่ว่าเข้าไปในส่วนใดของระบบ ไม่ว่าจะอยู่ session ต่างกันหรือไม่ จะต้องเข้าคิวรอแบบมี priority ต่ำสุดเสมอ และมีการหน่วงเวลาแบบทวีคูณ เพื่อให้ต้นทุนเวลาในการโจมตีแบบทื่อ ๆ แพงขึ้นมหาศาล เพราะที่ผมเคยเห็นมา ถ้าเป็น bot มันจะชอบยิงเข้ากระทู้เก่า ๆ ที่ไม่เป็นที่นิยม เพื่อเป็นแหล่งกบดานรอให้ search engine มาเก็บเกี่ยวไป (วิธีนี้รับมือ bot)
ใช้ระบบข้อความที่อิงกับวัฒนธรรมไทย เป็นภาษาไทย กรองทิ้งคนที่ไม่ควรเกี่ยวข้อง ระบบนี้ควรเป็นส่วนแยกของ open source ตั้ง default = ปิดไว้ และผู้ใช้สามารถนิยามเองเพิ่มเติมแยกออกมาโดยไม่เปิดเผย source code ซึ่งได้แก่

ใน graphic mode ใช้อักขระเลขไทย แล้วให้ผู้ใช้พิมพ์เป็นเลขอาระบิก
ใน text mode ใช้ข้อความบอกใบ้ ซึ่งข้อความควรดูไร้ความหมาย ไร้รูปแบบสำหรับ bot ที่ตัดคำไทยเป็น เช่นระบบ “สามเจะหนึ่งโหะโหก” แล้วกรอกตัวเลขห้าตัว
โดยอาจใฃ้สองระบบควบคู่ ทั้งภาพและข้อความ

ไม่ระบุ

เขียนเมื่อ 7 ส.ค. 2549 09:25 น. 7 ส.ค. 2549

ขอขยายความเรื่องข้อ 2

..ที่ทำให้การ post ที่มี link density สูง หรือมีคำศัพท์ต้องห้าม (ซึ่งเข้าข่ายว่าอาจเป็นลักษณะจำเพาะของขยะ)ไม่ว่าเข้าไปในส่วนใดของระบบ ไม่ว่าจะอยู่ session ต่างกันหรือไม่ จะต้องเข้าคิวรอแบบมี priority ต่ำสุดเสมอ และมีการหน่วงเวลาแบบทวีคูณ เพื่อให้ต้นทุนเวลาในการโจมตีแบบทื่อ ๆ แพงขึ้นมหาศาล

ผมเคยพบว่า มีการระดมแปะสแปมเข้ามาเป็นชุด ๆ ติด ๆ กัน โดยเปลี่ยน IP ไปเรื่อย ๆ (มัน spoof IP เป็นว่าเล่น) และยิงไปยังกระทู้ (เปลี่ยนกระทู้ไปเรื่อย ๆ ด้วย) ซึ่งผมจะไม่แปลกใจถ้ามันมีการเปลี่ยนข้อความสแปมไปเรื่อย ๆ

แต่ไม่ว่ามันเปลี่ยนอย่างไร ลักษณะเฉพาะตัวของมันยังเหมือนเดิม คือมี link density สูง (จำนวนวลีที่เกี่ยวข้องกับการ link เช่น href, http:, url ฯลฯ มีมากผิดปรกติ) ซึ่งเป็นเหมือน 'ลายนิ้วมือ'ของนักบุกรุก

ดังนั้น ถ้า server ใดที่เอาจริงเอาจังเรื่องนี้ ควรมีระบบเตือนให้ตื่นตัวทุกครั้งที่เห็นลายนิ้วมือผู้บุกรุกชัด และอาจต้องสร้างระบบคิวแบบขนาน คือถ้าไม่มีลายนิ้วมือ ก็ผ่านช่องทางปรกติ ถ้ามีลายนิ้วมือก็ผ่านไปอีกแถวของคิว (เป็นคิวสำหรับพวกผิดปรกติ) โดยมีระบบหน่วงเวลาสำหรับคิวผู้ไม่ปรกติ (ทำให้เป็น circular queue ด้วยจะยิ่งดี) โดยไม่ต้องสนใจเรื่อง session เพราะมันคงเก่งถึงขั้นปลอมได้เป็นว่าเล่นอยู่แล้ว ดังนั้น มันอยากยิงสุ่มแบบทื่อ ๆ ก็ปล่อยให้ยิงมา หลุดไปได้บ้างก็หลุดไป แต่ระบบหน่วงเวลาจะทำให้มันทำอะไรไม่ได้มาก นอกจากการรอ

ไม่ระบุ

เขียนเมื่อ 7 ส.ค. 2549 09:38 น. 7 ส.ค. 2549

ขอเสริมในส่วนที่คุณหมอวัลลภแนะไว้

เลข IP น่าจะซ่อนไว้ ให้แสดงเฉพาะ webmaster ไว้ตรวจสอบ

เห็นด้วยมากครับ

เพราะเคยพบว่ามันมีการ 'ชี้เป้า' ด้วยการ post ข้อความที่เป็น null value เข้ามา และแทบไม่ทิ้งร่องรอยอื่นเลย ทิ้งช่วงไปสักพัก จะมีการระดมยิงเข้ามาเป็นชุดอย่างแม่นยำในกระทู้นั้น แสดงว่ามันเอา IP ปลอมของมันนั่นแหละ เป็นระบบชี้เป้า ! ดังนั้น หากการแสดงผลไม่มี IP ไม่ปรากฎ การชี้เป้าก็ควรล้มเหลว

(นี่เป็นการอนุมานจากร่องรอยที่มันเคยทิ้งไว้นะครับ ไม่เคยลองทำจริง แต่รู้ว่าถ้าขยันลบมือให้บ่อยในกระทู้ที่เป็น blank ก็ช่วยให้ความหนาแน่นของพวกนี้น้อยลงไปมาก)

ขอเสนอเพิ่มเติมนิดหน่อยครับ สำหรับระบบรหัสตัวเลข คือคนสายตายาว (อย่างผม) มองไม่ชัดเท่าไหร่ หลังจากที่ อ.ธวัชชัยกรุณาปรับขนาด font ก็ดีขึ้น แต่ตัวอักขระที่ยังทำให้ตาลายก็อย่างเช่นเลข 1 กับตัว l, เลข 0 กับตัว o เล็ก ถ้าตัดบางตัวออกไปน่าจะลดความสับสนได้สำหรับผู้มีปัญหาทางสายตา

Patrickz 2.0

เขียนเมื่อ 10 ส.ค. 2549 10:55 น.10 ส.ค. 2549

เทคนิคที่พูดกันอยู่นี่ เรียกว่า CAPTCHA ครับ (completely automated public Turing test to tell computers and humans apart)

ลองตามอ่านได้ที่ http://gotoknow.org/blog/patrickz/39994

ไม่ระบุ

เขียนเมื่อ 20 ส.ค. 2556 23:19 น.20 ส.ค. 2556

พวกนี้เป็นพวกรับจ้างจากจีนนะครับ ผมเคยโดนเหมือนกัน ได้แต่ลบมือก็พอจะช่วยได้นะครับ พูดถึงเรื่องสืบๆ

ถ้าไม่ใช่พวก คอมพิวเตอร์ต้องที่นี่เลยครับ http://www.นักสืบเอกชน.net/