wwibul
นาย วิบุล วงศ์ภูวรักษ์

เรียนสถิติด้วยภาพ ตอนที่ 15 แนวคิดการประยุกต์ไคสแควร์ขั้นต้น


ไคสแควร์ใช้เวลาจำนวนนับมาเป็นตารางไขว้ เช่น 2x2, 4x7, ฯลฯ

ก่อนจะไปถึงการคำนวณ ก่อนอื่นมาดูเรื่องวิธีนับ degree of freedom ก่อน

ลองดูรูปนี้ กรณีเก็บข้อมูลภาคสนามแบบ 2x2 ของงานวิจัยอื่นว่าเพศกับการสูบบุหรี่มีความเกี่ยวข้องกันไหม เรามีข้อมูลภาพใหญ่ขั้นต่ำสุดอยู่ 3 ค่าเสมอ ที่ถ้าไม่รู้ ก็ไม่ต้องทำอะไรแล้ว เช่น รู้ว่าไปเก็บข้อมูลจากกลุ่มอย่างกี่คน เป็นเพศชายกี่คน ในกลุ่มนี้มีคนที่สูบบุหรี่กี่คน

รู้แค่นี้ จะฟันธงได้ไหมว่าเป็นผู้ชายสูบบุหรีกี่คน ยัง แต่ถ้าบอกว่า เป็นเพศใดเพศหนึ่งและรู้สถานะว่าสูบหรือไม่สูบบุหรี่แม้เพียงช่องเดียว (โซนเหลืองข้างใน หากรู้ใส่สีน้ำเงิน) เราจะรู้ทุกอย่างที่เหลือหมด ดังนั้น กรณีนี้ เราจะถือว่า degree of freedom เป็น 1

สรุปว่า กรณีตาราง 2 x 2 มีตัวดิ้นได้ตัวเดียว ดังนั้น degree of freedom จึงต้องเป็น 1 เสมอ นี่เป็นข้อเท็จจริงที่เราจะหยิบไปใช้ต่อ

สมมติอีกกรณีว่าเราเจอแบบตารางไขว้ 2 x 3 เช่น เพศ 2 แบบ x วิธีพักผ่อน 3 แบบ เราจะมึี degree of freedom เท่าไหร่

ข้อมูลขั้นต่ำที่งานวิจัยต้องรู้ก่อนในภาพรวม ไม่งั้นภาพรวมไม่สมบูรณ์คือ ต้องรู้ประชากรรวม ต้องรู้เพศชายหรือหญิงก็ได้สักรายการ ก็จะรู้เพศตรงข้าม และในรูปแบบการพักผ่อนสามแบบ ต้องรู้อย่างน้อยสองแบบ แล้วจะรู้อีกแบบที่เหลือ คราวนี้ มาดูตัวข้อมูลดิบบ้าง ปรากฎว่า ถ้ารู้เพิ่มอีก 2 รายการ ในช่องข้างใน 6 ช่อง จะทำให้ต่อจิ๊กซอว์ที่เหลือได้หมดเลย แสดงว่า degree of freedom กรณีนี้ คือ 2 ดังที่ทาสีชมพูไว้ (สีชมพูกับสีขาวสามารถสลับที่อย่างเสรีได้เสมอ)

คราวนี้มาดูขั้นตอนการประยุกต์ใช้

จากตอนก่อนหน้า เราได้รู้จักการแจกแจงไคสแควร์ ว่าเหมือนเอาค่า Z

ของกลุ่มประชากรใด ๆ มาจับยกกำลังสอง แล้วบวกรวมกับ v ครั้ง ก็จะได้การแจกแจงไคสแควร์ที่มีค่า degree of freedom = v

ในการทดลอง คำนวณไคสแควร์จากสูตรทีไปก๊อปมาจาก wikipedia ต่อไปนี้

ในตอนที่แล้ว เราก็ได้เห็นว่า สูตรที่คำนวณไคสแควร์จากการทดลอง ก็จะเป็นสูตรที่เทียบเท่ากับนิยามการแจกแจงไคสแควร์ทางทฤษฎี ดังนั้น การใช้ไคสแควร์กับจำนวนนับ จึงไม่ใช่เรื่องผิดปรกติ แม้แวบแรก เราจะงงว่า หน้าตาสูตรไม่มีเค้ากันเลยก็ตาม

คราวนี้มาดูเวลาประยุกต์จริงบ้าง

สมมติว่าเราเก็บข้อมูลในบริษัทแห่งหนึ่ง ที่เรารู้ว่ามีผู้ชาย 50 คน ผู้หญิง 50 คน และหากเรารู้ว่า ในคนทั้งหมดนี้ มีครึ่งหนึ่งที่ออกกำลังกาย และอีกครึ่งหนึ่งไม่ยอมออกกำลังกาย

ใน 100 คน เป็นชาย 50 คน หญิง 50 คน แสดงว่า ถ้าหยิบมาสุ่ม ๆ หนึึ่งคน มีโอกาสเป็นผู้ชาย 0.5 และมีโอกาสเป็นผู้หญิง 0.5

ดังนั้น อย่าแปลกใจถ้าสุ่มหยิบมาหนึ่งคนแล้วเจอ "ผู้ฉิง" (ฮา)

และใน 100 คน นี้ ถ้าหยิบมาสุ่ม ๆ หนึึ่งคน มีโอกาสเป็นเป็นคนที่ออกกำลังกาย 0.5 และมีโอกาสเป็นไม่ออกกำลังกาย 0.5 ด้วย

เราคาดล่วงหน้าว่าใน 100 คนนี้

โอกาสเป็นผู้ชายออกกำลังกาย (a) = 0.5 x 0.5 x 100 = 25 คน

โอกาสเป็นผู้ชายไม่ออกกำลังกาย (b) = 0.5 x 0.5 x 100 = 25 คน

โอกาสเป็นผู้หญิงออกกำลังกาย (c) = 0.5 x 0.5 x 100 = 25 คน

โอกาสเป็นผู้หญิงไม่ออกกำลังกาย (d) = 0.5 x 0.5 x 100 = 25 คน

พอไปเก็บข้อมูลจริงมาดู ปรากฎว่า a = 32, b=18, c=18, d=32

อ้าว ไม่ใช่ 25-25-25-25 หรอกเหรอ ?

เอ๊ะ แล้ว 32-18-18-32 นี่ มันผิดปรกติไหมล่ะ ?

ประเด็นนี้ผมลองหยอดหลุมพิสูจน์ในตอนท้าย ขอข้ามไปก่อนชั่วคราว

แต่ก็มีคำถามอยู่่ดี ว่าแล้วเวลาใช้ จะมี degree of freedom เป็นเท่าไหร่ ?

คำตอบคือ แม้ตัวเลขมี 4 ช่องที่เสมือนหนึงดิ้นได้ทุกตัวก็จริง แต่จริง ๆ แล้วดิ้นได้แค่ตัวเดียว

อ้่าว ไหงงั้น

เพราะหากบอกใบ้แค่ช่องเดียวเท่านั้น เรารู้อย่างอื่นที่เหลือหมดนะสิ

degree of freedom ก็คือ ต้องบอกใบ้กี่ตัว จึงจะรู้ที่เหลือกอย่างถี่ถ้วน

ซึ่งในตำรา ก็จะบอกว่า DF = (Row-1)(Column-1) แทนค่าก็จะได้ 1 ตรงกัน

หลังจากเรามีตารางไขว้แบบ 2 x 2 ที่บรรจุค่า a,b,c,d เข้าไป เรารู้ล่วงหน้าว่า ค่าคาดหมายทุกช่องเป็น 25 หมด เราก็แทนค่า E=25 และ O เป็น 32, 18, 18, และ 32 เข้าไปในสูตร ได้

Chi-square = ((32-25)2)/25 + ((18-25)2)/25 + ((18-25)2)/25 + ((32-25)2)/25

= 7.84 ที่ degree of freedom 1

ถ้าเราไปเปิดตารางไคสแควร์ ก็จะได้ว่า p-value = 0.0051103

p-value น้อย แสดงว่ามีนัยสำคัญ ซึ่งในที่นี้ การมีนัยสำคัญแสดงว่า "ความถี่จริงของรายการต่าง ๆ ที่พบจริง ผิดคาดหมายไป"

โอกาสที่หยอดหลุมแล้วเจอผิดคาดหมายระดับได้แรงระดับนี้ขึ้นไป มีแค่ 0.0051103 เท่านั้น

ไคสแควร์จริง ๆ มันก็บอกเราแค่นี้แหละ แต่มันไม่อธิบายต่อ

ตำราบอกบอก เวลาพิสูจน์ได้แล้วว่ามันผิดคาด เขาเรียกว่า เกิด association ระหว่างปัจจัยทั้งสอง

ถ้า significant แสดงว่า เพศ เกี่ยวข้อง (associate) กับ การออกกำลังกาย

ถ้าไม่ significant แสดงว่า เพศ กับ การออกกำลังกาย ไม่มีความเกี่ยวข้องกัน

เกี่ยวข้องยังไง มันไม่บอกนะครับ หน้าที่อธิบายต่อคือหน้าที่ของเรา ซึ่งก็ไม่ควรให้เป็นตุเป็นตะ มันพ้นวิสัยของไคสแควร์แล้วที่จะแจกแจงสาเหตุอันลุ่มลึก

เจองานวิจัยที่โม้ได้ลุ่มลึกเมื่อ chi-square เจอ significant แสดงว่า "ดราม่าอย่างมีนัยสำคัญ" ละ (ฮา)

ที่ degree of freedom = 1 จะเกิดอะไรขึ้นบ้าง ?

ก็คือมันบอกว่า ให้เราเชิญเปลี่ยนตัวเลขเซลล์ไหนก็ได้ตามอัธยาศัยได้ 1 รายการ เดี๋ยวตัวที่เหลือก็หาได้หมด

เราก็จะลองเปลี่ยน a ไปเรื่อย ๆ ซึ่งในตัวอย่างนี้ เรารู้ล่วงหน้าว่า a เป็นไปได้ตั้งแต่ 0-50

เขียน a-b-c-d ก็จะได้หลากหลายตาม เช่น

ถ้า a=10 ก็จะเขียนได้ว่า 10-40-40-10

ถ้า a=21 ก็จะเขียนได้ว่า 21-29-29-21

เราจะรู้ได้อย่างไรว่า แต่ละกรณี จะเจอมากน้อยแค่ไหน ?

กรณีนี้ ผมลองเขียนโปรแกรมหยอดหลุมทั้งสี่หลุม ในเงื่อนไขว่า ผมมีลูกหิน 100 ก้อน แต่ละก้อนมีโอกาสครึ่ง-ครึ่งจะเป็นเพศใดเพศหนึ่ง และโอกาสครึ่ง-ครึ่งที่จะออกหรือไม่ออกกำลังกาย ถ้าหยอดหลุมแล้วยอดรวมตามเพศตรงตามที่วัดได้ และยอดรวมตามการออกหรือไม่ออกกำลังกายก็ตรงตามที่วัดได้จริง

หลังจากผมหยอดหลุมทำนองนี้ไปสองแสนครั้ง ผมก็พบรูปแบบการกระจาย a-b-c-d เป็นดังนี้

จะเห็นว่า ทำสองแสนรายการ ไม่เจอกรณีที่ตัวเลขที่ต่ำกว่า 15 เลย

จริง ๆ ไม่ใช่ต่ำกว่า 15 ไม่ได้นะครับ เพียงแต่ว่า ผมอาจต้องหยอดหลุมจำลองให้เยอะกว่านี้มาก เช่น หลักล้าน ๆ ครั้ง ก็คงเห็นกรณี 14 13 .. แต่อาจลงไปไม่ถึง 0 1 2 3 ...

กรณีของเรา ถือว่า หายาก คือถือว่า โลดโผนพอสมควร

จะเห็นว่า กรณีของเราที่เจอจริงเป็น 32-18-18-32 เป็นกรณีที่หายาก โอกาสเกิดน้อยมาก จึงต้องถือว่า ผิดคาดทางสถิติ "อย่างมีนัยสำคัญ" เพราะมันโลดโผนไป

เช่น a << 25 เราก็ถือว่ามันโลดโผน หรือถ้า a >> 25 เราก็ถือว่ามันโลดโผนเหมือนกัน แต่ถ้ามันใกล้ 25 แสดงว่าไม่โลดโผน

ดูจากตารางไคสแควร์ที่เป็นไปได้โดยสรุปนี่ก็ได้

x2 N
0 32750
.16 58675
.64 45833
1.44 30627
2.56 17893
4 9130
5.76 3570
7.84 1181
10.24 268
12.96 59
16 14

ผลการทดลองของเรา ได้ chi-square 7.84 ซึ่งกรณีที่โลดโผนกว่า ที่ล้ำตัวมันไป คือ (268+59+14)/200,000 = 0.001705

แต่ถ้าเราเริ่มนับจากที่เท่ากับตัวมันเองด้วย โอกาสเกิดคือ (1181+268+59+14)/200000 = 0.00761

การที่มันตกคร่อมอยู่ตรงเส้นแบ่งพอดี เป็นปัญหาชวนปวดหัวว่าจะนับดีไหม

ทางออกคือ ตรงเส้นแบ่ง นับแค่ครึ่งเดียว คือถือว่า ครึ่งนึงหลุดออกข้างนอก อีกครึ่งยังติดอยู่ข้างใน

ก็จะได้ว่า โอกาสที่สมจริงขึ้น คือ (14+59+268 + 1181/2) หารสองแสน = 0.0047

ค่านี้คือ p-value ที่ได้จากการทดลองพิสูจน์โดยการหยอดหลุมจำลอง

ถ้าเราไปเปิดตารางไคสแควร์ที่ DF ของ 7.84 เราจะได้ p-value จากการคำนวณทางทฤษฎีเป็น 0.0051

ไม่เท่ากันนัก แต่ก็ใกล้เคียงกันพอสมควร

สนใจอ่าน เรียนสถิติด้วยภาพ แบบครบทุกตอน เข้าไปที่


http://www.gotoknow.org/posts?tag=เรียนสถิติด้วยภาพ

หมายเลขบันทึก: 535223เขียนเมื่อ 8 พฤษภาคม 2013 20:28 น. ()แก้ไขเมื่อ 9 มีนาคม 2015 15:57 น. ()สัญญาอนุญาต: สงวนสิทธิ์ทุกประการ


ความเห็น (0)

ไม่มีความเห็น

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ขอแนะนำ ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี