wwibul
นาย วิบุล วงศ์ภูวรักษ์

เรียนสถิติด้วยภาพ ตอนที่ 13 ความหมายของไคสแควร์ในมุมมองของ random walk


ตอนที่แล้ว ได้พูดถึงการแจกแจงไคสแควร์ ว่ามาจาก normalized Z-score ที่กระจายรอบค่าศูนย์และ sd เป็น 1

เราอาจไปดูจากคะแนนเวลาประกาศผลสอบก็ได้ มันจะกระจายแบบนั้น

เอาค่า Z แบบสุ่มมายกกำลังสอง แล้วมี degree of freedom เท่าไหร่ ก็บวกทบเข้าไปให้มีจำนวนครั้งเท่ากับ degree of freedom ดังกล่า่ว ถ้าสุ่มทำซ้ำให้มากพอ เราจะพบการแจกแจงความถี่ว่าที่ไคสแควร์เท่าไหร่ เจอบ่อยแค่ไหน

การแจกแจงไคสแควร์จึงเป็นเพียงการบรรยายการแจกแจกแบบปรกติอีกวิธีหนึ่ง โดยใช้หน่วยที่ต่างออกไปเท่านั้นเอง

ที่ไคสแควร์สูงมาก ๆ ณ ค่า degree of freedom ที่กำหนด มีโอกาสเกิดได้น้อย ถ้าเราผลการทดลองของเรามีค่าไคสแควร์ที่อยู่ในช่วงยอดนิยมของการแจกแจง แสดงว่าเรายังอยู่ในโซนใกล้ศูนย์กลาง ซึ่งหากศูนย์กลางคือค่าที่ทำนายทางทฤษฎี ก็จะแปลว่า ผลการทดลองไม่แตกต่างจากที่คาดทางทฤษฎี

แต่หากไคสแควร์ของเราที่ได้จากการทดลอง เยอะมากจนหลุดออกจากการแจกแจงไคสแควร์ตามปรกติ ก็แสดงว่าผลการทดลองของเรา "ผิดคาด" หรือที่เรียกว่า มีนัยสำคัญทางสถิตินั่นเอง

เวลาจะใช้งาน เราก็แค่หยิบไคสแควร์ที่ตีความจากผลการทดลองของเรา ไปไล่ดูจากลำดับของการแจกแจงไคสแควร์ ถ้ามันหลุดออกจากโซนด้านมากไป แสดงว่า ผลการทดลองผิดคาดอย่างรุนแรง แต่ถ้ามันหลุดออกจากโซนด้านน้อยไป แสดงว่า ผลการทดลองเหมือนกับที่คาดเกินไปจนไม่น่าจะเป็นไปได้

ตรงนี้เราอาจงง ว่า เอ๊ะ เหมือนทางทฤษฎีก็ดีสิ ทำไมต้องระแวง ?

เหตุผลคือ มันมีกรณีของการปลอมแปลงข้อมูลเพราะการมีผลประโยชน์ทับซ้อนของอามิสเกิดขึ้น ดังนั้น เขาใช้การทดสอบความเหมือนกับทฤษฎียังกะแกะนี่แหละ มาช่วยตรวจสอบเรื่องโอกาสการปลอมแปลงข้อมูลงานวิจัยได้ด้วย

มุมมองไคสแควร์อาจมองอีกแบบ คือมองในมุมของแนวคิดเรื่อง random walk

ภาพนี้เป็นตัวอย่างของการเกิด random walk ในสองมิติ

random walk ก็คือการเคลื่อนไหวแบบบราวเนี่ยนทางชีววิทยานั่นเอง

ถ้าให้ Z คือขนาดและทิศทางการก้าวแบบสุ่ม ที่เดินแบบสุ่่มขึ้นเหนือลงใต้ ขนาดก้าวมีค่า variance = 1

การ random walk ก็คือการรวมค่า Z เข้าด้วยกัน เดิน 10 ก้าวก็บวกสิบครั้ง

random walk จะบอกระยะทางเฉลี่ยจากตั้งต้น

ทีนี้ ถ้าเราบวก Z ยกกำลังสองแทน ค่า Z กำลังสองมีมิติของ พื้นที่ เวลารวมด้วยกันกลายเป็นไคสแควร์ มันก็จะกลายเป็น random walk area ว่าจะคลุมพื้นที่ได้เท่าไหร่

สมมติว่าผมปล่อยให้เกิดการ random walk ไปสัก 1000 ก้าว น่าเกิดอะไรขึ้น ?

สิ่งที่ผมคาดหมาย ก็ควรจะเป็นว่า เกิดการเดินห่างออกไปจากจุดเริ่มต้นระดับหนึ่ง

ถ้าการเดินนั้นไปได้ไกลลิบโลก มันอาจไม่ใช่การเดินแบบ random walk แต่เป็นการเดินแบบแน่วแน่มุ่งมั่น ซึ่งแบบนี้คือ น่าจะผิดปรกติทางสถิติ

และถ้าการเดินนั้นกลับมาอยู่ที่จุดตั้งต้นล่ะ ?

การกลับมาอยู่ที่จุดตั้งต้นกรณีของการ random walk ยังไม่แปลกมาก เพราะอาจเป็นว่าผมเดินเยอะ แต่บังเอิญหลงกลับมาที่จุดเดิม ซึ่งเกิดขึ้นได้

แต่ถ้าหากว่า แทนที่ผมจะวัดระยะว่าผมจบลงห่างจากจุดเริ่มต้นเท่าไหร่ (รวม Z) ไปใช้วิธีวัดพื้นที่ซึ่งโดนกวาดครอบคลุมไประหว่างเดินแทน (รวม Z กำลังสอง) ซึ่งสมมติว่าเดินไปหนึ่งพันก้าว แล้วพบว่า คลุมพื้นที่เกือบเท่ากับศูนย์ มันตีความได้อย่างเดียวว่า ผมไม่กระดิกตัวเลย

แสดงว่า ผมไม่เดินแบบ random walk จริง เพราะกวาดพื้นที่ได้น้อยไป

อู้งานว่างั้นเถอะ

ไม่ทำตัวเป็น random walk แสดงว่า พฤติกรรมผม มีความผิดปรกติทางสถิติเกิดขึ้นแล้ว เพราะไคสแควร์ก็คือดูความสามารถในการกวาดพื้นที่ เมื่อเดินเท่ากับจำนวนก้าวที่ระบุ (จำนวนก้าวก็คือ degree of freedom)

โอกาสที่จะเกิดได้เองตามธรรมชาติ จะน้อยมาก ๆ จนไม่น่าจะเป็นไปได้ พอ ๆ กับกรณีสุดโต่งอีกแบบ ที่เดินแบบกวาดครอบคลุมพื้นที่ได้มากมหาศาล ก็ไม่น่าเป็นไปได้เหมือนกัน

ในนิทานศรีธนนชัย เจ้าศรีขอที่ดินพื้นที่เท่าแมวดิ้นตาย ก็เฆี่ยนแมวให้ดิ้นไปเรื่อย ๆ ดิ้นโดนตรงไหน ตรงนั้นเจ้าศรีก็ยึดที่ไปครอง

ไคสแควร์ จึงเหมือนกับเป็นพื้นที่แมวดิ้นตาย

จำนวน degree of freedom คือ ดิ้นกี่ครั้ง ก่อนตาย

สมมติแมวดิ้น 10 ก้าว เรารู้ว่าขนาดก้าวปรกติประมาณเท่าไหร่ สิบก้าวก็ต้องเป็นพื้นที่มากระดับหนึ่ง ถ้าพื้นที่สิบก้าวดิ้นตายเป็นศูนย์ เราก็คงต้องเอะใจว่า สงสัยมันไม่ดิ้นละ ก็ต้องถือว่า ผิดปรกติ หรือในมุมกลับ หากพื้นที่ดิ้นสิบก้าว คลุมพื้นที่ได้หลายร้อยตารางก้าว มันก็ไม่น่าเป็นไปได้เหมือนกัน

ในทางปฎิบัติ ไคสแควร์ วัดว่าความถี่ที่เราเก็บข้อมูลมา มันผิดคาดมากไหม

ถ้ามันผิดคาดมาก ไคสแควร์ก็สูงมาก ค่าที่สูงมากของไคสแควร์ จึงสื่อว่าความถี่ข้อมูลของเรามันเบี่ยงเบนจากที่คาดมากไป

ในมุมกลับ ถ้าไคสแควร์เกือบเป็นศูนย์ แสดงถึงข้อมูลที่เก็บได้ เหมือนกับทฤษฎีมากจนไม่น่าจะเกิดจากความบังเอิญ

ในเชิงงานสอบสวน ไคสแควร์น้อยกว่าที่ควรเป็นมาก ๆ ชี้เบาะแสว่า อาจเป็นไปได้ว่ามีการปลอมแปลงข้อมูลเกิดขึ้น

การตีพิมพ์งานวิจัยในวารสารดัง ๆ หลายแห่ง ให้ความสำคัญกับไคสแควร์ที่น้อยผิดคาดนี้ด้วย เพราะเขากลัวโดนต้มตุ๋นปลอมข้อมูลนั่นเอง

อารยธรรมเหมือนสร้างตึก ถ้าอิฐกลวงปนปลอมมา ตึกสูงก็ล้มได้ องค์ความรู้แม้ดูเล็กน้อย แต่ถ้าปลอมปนมาก็เกิดปัญหาระยะยาวได้ เขาต้องใส่ใจความถูกต้อง โดยดูเบาะแสที่นักปลอมข้อมูลอาจทิ้งไว้ให้เห็นในค่าไคสแคร์ของผลการทดลองนั่นเอง

สนใจอ่าน เรียนสถิติด้วยภาพ แบบครบทุกตอน เข้าไปที่

http://www.gotoknow.org/posts?tag=เรียนสถิติด้วยภาพ

หมายเลขบันทึก: 534171เขียนเมื่อ 28 เมษายน 2013 14:23 น. ()แก้ไขเมื่อ 25 กุมภาพันธ์ 2015 13:42 น. ()สัญญาอนุญาต: สงวนสิทธิ์ทุกประการ


ความเห็น (1)

อาจารย์ทำให้เข้าใจวิชาสถิติได้อย่างไม่น่าเชื่อ อธิบายดีมากๆค่ะ

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ขอแนะนำ ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี