GotoKnow

การใช้ chi-square ที่ถูกต้อง

ชายขอบ
เขียนเมื่อ 6 กันยายน 2548 00:35 น. ()
แก้ไขเมื่อ 19 มีนาคม 2558 08:30 น. ()
มีค่าสังเกต (observe value) ใน cell บาง cell เท่ากับศูนย์ ซึ่งเป็นผลพวงมาจากการใช้ spss ปัญหาที่มาขอคำปรึกษาคือการแปลผลไม่ถูก แต่ผมได้อธิบายไปว่า ยังไม่ต้องนึกถึงการแปลผลเลย เพราะการวิเคราะห์ยังทำไม่ได้ ต้องวิเคราะห์ใหม่ (เป็นเรื่องปกติของการใช้ chi-square) ที่นี้เรื่องเลยยาว นักศึกษาคนนั้นได้นำเอกสารของรุ่นพี่ (ไม่ประสงค์ออกนามและนามสถาบัน) ที่จบแล้วมาให้ดู ปรากฎว่ามีลักษณะดังกล่าวอยู่แต่ใช้ได้ (ผ่านการรับรองเป็นสาระนิพนธ์ หรือวิทยานิพนธ์) ก็เกิดเป็นประเด็น

     การใช้ chi-square ที่ถูกต้อง

     วันนี้ผมมีโอกาสได้พบกับนักศึกษาที่นำข้อมูลที่จะวิเคราะห์ด้วย chi-square มาขอคำปรึกษาตอนเกือบจะสี่ทุ่มแล้ว

     ก็พบว่าที่เขาได้ลองทำมาก่อนแล้วนั้นมีค่าสังเกต (observe value) ใน cell บาง cell เท่ากับศูนย์ ซึ่งเป็นผลพวงมาจากการใช้ spss ปัญหาที่มาขอคำปรึกษาคือการแปลผลไม่ถูก แต่ผมได้อธิบายไปว่า ยังไม่ต้องนึกถึงการแปลผลเลย เพราะการวิเคราะห์ยังทำไม่ได้ ต้องวิเคราะห์ใหม่ (เป็นเรื่องปกติของการใช้ chi-square) ที่นี้เรื่องเลยยาว นักศึกษาคนนั้นได้นำเอกสารของรุ่นพี่ (ไม่ประสงค์ออกนามและนามสถาบัน) ที่จบแล้วมาให้ดู ปรากฎว่ามีลักษณะดังกล่าวอยู่แต่ใช้ได้ (ผ่านการรับรองเป็นสาระนิพนธ์ หรือวิทยานิพนธ์) ก็เกิดเป็นประเด็น ซึ่งผมได้ทดลองถามข้อตกลงเบื้องต้นของการวิเคราะห์ด้วย chi-square ก็ตอบได้ไม่ชัดนัก

     ผมสัญญาว่าจะนำรายละเอียดซึ่งได้จากที่ให้เขาไปสรุปมา หลังจากที่ฟังผมอธิบายใหม่แล้ว และให้เอกสารอ้างอิงไปศึกษาก่อน เมื่อปรับปรุง/ตรวจทานแล้ว ลงไว้ในบันทึกต่อจกาวันนี้ เผื่อว่าอาจจะมีการเข้าใจผิด เพราะเชื่อหรือเห็นต่อ ๆ กันมา โดยเฉพาะเป็นเอกสารที่ผ่านการรับรองเป็นสาระนิพนธ์ หรือวิทยานิพนธ์แล้ว

     เรื่องนี้ผมได้เคยสรุปไว้รอบหนึ่งแล้วเป็นเอกสาร แต่ไม่แน่ใจว่าเก็บไฟล์ไว้ที่ไหน หรือไปกับ Hard disk ตัวเก่าแล้วก็ไม่ทราบ นี่ก็เป็นเรื่องหนึ่งที่ผมไม่มีกระบวนการจัดเก็บที่ดีในอดีต

อนุชา  หนูนุ่น บันทึกไว้เมื่อวันที่ 6 กันยายน 2548 เวลา 00.35 น.

======================================================================

     และวันนี้เลิกประชุมเร็ว เพื่อให้เพื่อน ๆ ที่มาจาก 3 จว.ภาคใต้ ได้เดินทางกลับถึงไม่ทันค่ำ

     ทำให้ได้ทบทวนเอกสารที่นักศึกษาถ่ายมาให้ดู พบว่าทั้ง 3 อย่างมีความผิดพลาดในการใช้ chi-square เช่นกรณีที่มีค่าสังเกตเท่ากับศูนย์ การอ่านค่า fisher's หรือ ค่า Yete's ทำให้ผมต้องเร่งทบทวนเรื่องนี้ กล่าวคือ รู้ (ไม่แม่นนัก) แต่ยังจัดระบบที่จะนำเสนอไม่ได้ ต้องทบทวนเสียหน่อยแล้ว ทั้งนี้เพราะทิ้งร้างมานานแล้วเช่นกัน ถ้าหากเรื่องนี้ได้มีใครทบทวนไว้แล้วอย่างเป็นระบบ และสามารถถ่ายทอดง่าย ๆ เข้าใจง่าย ๆ ก็อยากได้คำชี้แนะครับ หากรอผมก็ต้องใช้เวลาอีกสักระยะเสียแล้ว

อนุชา  หนูนุ่น บันทึกไว้เมื่อวันที่ 6 กันยายน 2548 เวลา 16.29 น.

======================================================================



ความเห็น

ชายขอบ
เขียนเมื่อ

     ถ้าหากเรื่องนี้ "การใช้ chi-square ที่ถูกต้อง" ได้มีใครทบทวนไว้แล้วอย่างเป็นระบบ และสามารถถ่ายทอดง่าย ๆ เข้าใจง่าย ๆ ก็อยากได้คำชี้แนะครับ

From Hell
เขียนเมื่อ

พอดีผ่านมาครับ ผมคงจะไม่ใช่ผู้เชี่ยวชาญ ทางด้านสถิติเหมือนกัน เพียงแต่จากประสบการณ์ ที่ติดตามเรื่องสถิติมาบ้าง และลองดูจากเอกสารอ้างอิงที่เปิดดูบ่อยๆ เวลามึนและงง  ก่อนอื่นต้องทำความเข้าใจก่อนว่า Chi-square test เขามีไว้เพื่อใช้ประโยชน์ใด ในตำราเขากล่าวไว้ว่า chi-squared test ใช้ ทดสอบอยู่ 2-3 ประเด็น (ผมเองก็งงๆ ว่ากี่ประเด็น) ย้ำนะครับ ว่า ใช้ "ทดสอบ" (test) ไม่ใช่ ใช้ "หา" (find)  อันแรก "เขาว่า" chi-squared test for association ส่วน association นั้นหมายถึง เกี่ยวโยงไปประการใดคงให้ คนชายขอบ (สงขลา) เป็นผู้ สานต่อละกัน ประการที่สอง chi-squared test for trend "trend" อันนี้ก็ รอให้คนชายขอบ ตั้งประเด็นอีกนั่นแล ประการที่สาม อาจจะเป็นประเด็นเดียวกัน กับ ประเด็นก่อนหน้านี้ คือ chi-squared test for goodness of fit ไอ้เจ้า "Goodness of fit" นี่คืออะไร ก็เป็นประเด็นอีกประเด็นหนึ่ง ดูไปดูมาก็พบว่า chi-squared test for independent sample เอาไปอีกโน่น แต่ไม่ว่าจะกี่ประเด็น ผมมักจะเหมารวมกันเป็นเพียง ประเด็นเดียว คือ chi-squared test ถ้ามีใครมาถามผมเรื่องการทดสอบ chi-sqaured ผมคงถามกลับไปเหมือนกันว่า ข้อกำหนดของการทดสอบ chi-squared มีอะไรบ้าง เราเลือก ตัวแปร (variable) อย่างไร ผมมักจะถามคำถามง่ายๆ เสมอว่า คิดมาก หรือไม่คิดมาก ถ้าคิดมาก็เรื่องยาว ถ้าคิดไม่มากก็ง่ายเข้าไป นั่นคือ คิดง่ายๆ ว่า ตัวแปรที่จะนำมาทดสอบ chi-sqaured นั้นต้องเป็น ตัวแปรที่มีระดับการวัดแบบ nominal scale ง่ายๆ คือ ตัวแปรกลุ่ม ตัวแปรไม่ต่อเนื่อง (discrete) ประเด็นนี้ผมให้คนชายขอบ เขียนละกัน ไอ้เจ้า nominal scale นี่ถ้าเป็นไทยคงเป็น นามกำหนด หรืออาจจะเจอเป็น นามบัญญัติ อันนี้ไม่เกี่ยวกับการเมืองครับ ลองๆ ไปไล่ดูกันครับ เมื่อเราต้องการทดสอบในประเด็น ที่กล่าวมาข้างต้น ระหว่างตัวแปร ข้างต้นเหมือนกันทั้งคู่ "ย้ำอีกครับว่าทั้งคู่" คงต้องนึกถึงการทดสอบ chi-squared หลักการของการทดสอบมีว่า ผลรวมกำลังสองของค่าความแตกต่างระหว่างค่าจริง (observe value) กับค่าคาดหวัง (exected value) ส่วนค่าคาดหวัง (summation of  (O -E)^2 /E ) เป็นเท่าไหร่ มากหรือน้อยกว่าค่าที่ควรจะเป็น อันนี้ผมอ่านตามสูตร นะครับ  อันนี้ไม่เกี่ยงว่าจะเป็น two by two table (2 x 2) หรือ m x n table ก็ใช้การทดสอบ chi-squared ได้ ทีนี้ในตำราที่ผมมองๆ นี่เขาเขียนไว้ว่า แบบนี้ครับ ผมยกมาทั้งแผงละกัน

" The conventional criterion for the test to be valid is usually attributed to the statistician W. G. Cochran. The rule is this: the chi-squared test is valid if at least 80 percent of the expected frequencies exeed 5 and all the exected frequencies exceed 1. .... Note that this condition applies to the expected frequencies, not the observed frequencies. It quite acceptable for an observed frequency to be 0, provided the expected frequencies meet the criterion. ....... If the criterion is not satisfied we can usaully combine or delete rows and columns to give bigger expected values. Of course, this cannot be done for 2 by 2 tables. ....  If the table does not meet the criterion even after reducetion to 2 by 2 table, we can apply either a continuity correction to improve the approximation to the Chi-squared distribution, or an exact test based on a discrete distribution."

อ่านแล้วคงไม่งงครับ ผมลองยกตัวอย่างให้ง่ายเข้าก็เอาตาราง 2x2 ละกันครับ ในตาราง 2x2 ก็จะมี 4 cell แต่ละ cell แทนค่าจริง (observe) ที่เราเก็บข้อมูลมาได้ด้วย a b c d ตามลำดับ ส่วนค่าคาดหวัง (expected value) ผมแทนด้วย e f g h ตามลำดับเหมือนกัน โดยที่ e แทนค่าคาดหวังของ a ส่วน f แทนค่าคาดหวังของ b ไปเรื่อยๆ คือ ค่าจริง 1 ค่า ก็มีค่าคาดหวังของตัวมันเอง 1 ค่า แล้วค่าคาดหวังนี่คำนวณ อย่างไร ในสูตรเขาว่า  row total x column total/ grand total ให้เห็นภาพง่ายเข้า  a b อยู่แถวเดียวกัน c d อยู่แถวเดียวกัน row total ของ a คือ a+b และ row total ของ  b คือ a+b ส่วน column total ของ a คือ a+c และ coulmn total ของ b คือ b+d ไอ้เจ้า grand total คือ a+b+c+d
                                       a         |   b        |  a+b
                                       --------+---------+ --------------
                                        c       |   d         | c+d
                                        -------+---------+----------------
                                         a+c  |  b+d    | a+b+c+d

คำนวณดูว่าค่า e f g h มีค่าเป็นเท่าไร มีค่าใดที่ น้อยกว่า 5 หรือเท่ากับศุนย์ กี่ค่า คิดเป็นกี่ % ของค่าคาดหวังทั้งหมด ในที่นี้ ค่าคาดหวังทั้งหมดมี 4 ค่า ถ้าค่าคาดหวังเพียงค่าใดค่าหนึ่งใน 4 ค่า (e f g h) มีค่าน้อยกว่า 5 หรือเท่ากับศูนย์ นั่นแสดงว่า มีค่าคาดหวัง ที่น้อยกว่า 5 หรือเท่าศูนย์ คิดเป็น 25 % ของค่าคาดหวังทั้งหมด ซึ่งเกินกว่าที่ข้อความข้างต้นระบุว่า ต้องไม่เกิน 20 % (แปล กลับครับ ให้มันง่ายเข้า) เมื่อเป็นดังนี้ ก็ต้องบอกเหมือนที่ คนชายขอบ เล่าไว้ละครับ ว่า ไม่ต้องแปรผลที่ได้จากการคำนวณ chi-squared test จากโปรแกรมแล้ว ว่าจะเป็นอย่างไร ค่าที่สนใจคือค่า จาก การทำ continuity correction สำหรับการกระจายแบบ chi-squared ค่า correct ที่ว่านี้ก็คือค่า Yate's continuity correction for 2 by 2 table นั่นเอง "Y a t e ' s"  ส่วนวิธีการปรับค่าก็ไปค้นเอาละกันครับว่าคิดจากอะไร (summation of (|O - E|-1/2)^2 /E) หรือเราใช้ค่าของ Fisher's exact test แทนค่าจาการทดสอบ chi-squared test นั่นเอง ส่วนไอ้เจ้า ชาวประมงนั่นจะคำนวณ อย่างไร ก็เป็นเรื่องที่ต้องไปทำความเข้าใจกันอีก ให้ คนชายขอบ เล่าให้ฟังอีกทีละกันครับ สำหรับการยุบ rows หรือ columns นั้น ก็ทำได้เฉพาะที่ไม่ใช่ตาราง 2 x 2 แต่มีข้อแม้ว่า ยุบไม่ยุบนี่ ต้องดูว่า ยุบแล้ว ความหมายเปลี่ยนไปไหม ถ้าเปลี่ยนไปจากความหมายเดิม ก็คงต้องคิดหนัก เพราะจะกลายเป็นคนละประเด็นไป ผมไม่ขอยกตัวอย่างในเรื่องนี้ครับ เพราะฉนั้นถ้าไม่เขช้าตาม criteria ของ chi-squared test แล้ว คงต้องพิจารณาว่าจะยุบหรือไม่ยุบ rows/ columns ก่อน ถ้ายุบได้ ยุบ แต่ถ้ายุบแล้วยังไม่เข้า criteria ก้ หันหน้าเข้าหา Yate's correction หรือ fisher's exact test ครับ ผมน่าจะแปลภาษาอังกฤาด้านบนหมดแล้วนะครับ ยาวจริงๆ ยิ่งเขียนยิ่งงงเอง
หมายเหตุ: ข้อความภาษาอังกฤษ ผมคัดมาจาก An introduction to Medical Statistics โดย Martin Bland: 1991. Oxford University press.

เรียนคุณชายขอบ

        มีโอกาสตรวจผลงาน สอบวิทยานิพนธ์ มีข้อผิดพลาดดังกล่าว ชอบนำของคนผิดมาอ้างอิงเป็นประจำ ฝากท่านว่า งานวิทยานิพนธ์(ขึ้นหิ้ง) มีการใช้สถิติที่ถูกคิดเป็นเปอร์เซนต์ต่ำมาก การใช้สถิติต้องยึดตามข้อตกลง(assumption) ซึ่งจะมีทั้งหมดตั้งแต่สถิติพื้นฐานจนถึงสถิติทดสอบ มีทั้งพาราเมตริกและนอนพาราเมตริก

mam
เขียนเมื่อ

เรื่องนี้เป็นเรื่องที่ยากมาก

อยากทำความเข้าใจให้มากๆๆเลยค่ะ

ขอบคุณมากนะค่ะ

ที่อธิบาย

เด็กstat
เขียนเมื่อ

เก่งจังค่ะ

ปัจจุบันเปนงั้นจิงๆ จาหาคนที่มีความรู้ทางด้านสถิติอย่างแท้จริงนั้นยากจิงๆ

อยากเก่งสถิติอย่างคุณบ้างจังค่ะ

เด็กstat
เขียนเมื่อ

อยากรู้รายละเอียดการยุบข้อมูลจังค่ะ

yoke
เขียนเมื่อ

อยากทราบว่า ถ้าวิเคราะห์ข้อมูล spss ของ chi-square นะคะ

ถ้าตัวแปรที่วิเคราะห์เป็นแบบ ช้อยท์ให้เลือกตอบ เวลาวิเคราะห์ จะได้ ค่า chi และค่า p แค่ตัวเดียวใช่ไหมค่ะ แต่ถ้าเป็นแบบสเกลที่ให้เลือกระดับความสนใจ มาก-น้อย เวลาวิเคราห์ข้อมมูลออกมาเราจะได้ค่า Chi กับ P ใช่ไหมค่ะ ขอบคุณมาก ๆ ค่ะ

ann
เขียนเมื่อ

ถ้า ข้อมูลที่ ไม่ได้เป็นตาราง 2x2 แล้วถ้า ในchi-square note ว่า มี b 1 cell (33%)

จะให้ใช้คำตอบไหนคะ

1. pearson Chi-square

2. likelihood ratio


พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท
ภาษาปิยะธอน (Piyathon)
เขียนโค้ดไพทอนได้ด้วยภาษาไทย