พอดีผ่านมาครับ ผมคงจะไม่ใช่ผู้เชี่ยวชาญ ทางด้านสถิติเหมือนกัน เพียงแต่จากประสบการณ์ ที่ติดตามเรื่องสถิติมาบ้าง และลองดูจากเอกสารอ้างอิงที่เปิดดูบ่อยๆ เวลามึนและงง  ก่อนอื่นต้องทำความเข้าใจก่อนว่า Chi-square test เขามีไว้เพื่อใช้ประโยชน์ใด ในตำราเขากล่าวไว้ว่า chi-squared test ใช้ ทดสอบอยู่ 2-3 ประเด็น (ผมเองก็งงๆ ว่ากี่ประเด็น) ย้ำนะครับ ว่า ใช้ "ทดสอบ" (test) ไม่ใช่ ใช้ "หา" (find)  อันแรก "เขาว่า" chi-squared test for association ส่วน association นั้นหมายถึง เกี่ยวโยงไปประการใดคงให้ คนชายขอบ (สงขลา) เป็นผู้ สานต่อละกัน ประการที่สอง chi-squared test for trend "trend" อันนี้ก็ รอให้คนชายขอบ ตั้งประเด็นอีกนั่นแล ประการที่สาม อาจจะเป็นประเด็นเดียวกัน กับ ประเด็นก่อนหน้านี้ คือ chi-squared test for goodness of fit ไอ้เจ้า "Goodness of fit" นี่คืออะไร ก็เป็นประเด็นอีกประเด็นหนึ่ง ดูไปดูมาก็พบว่า chi-squared test for independent sample เอาไปอีกโน่น แต่ไม่ว่าจะกี่ประเด็น ผมมักจะเหมารวมกันเป็นเพียง ประเด็นเดียว คือ chi-squared test ถ้ามีใครมาถามผมเรื่องการทดสอบ chi-sqaured ผมคงถามกลับไปเหมือนกันว่า ข้อกำหนดของการทดสอบ chi-squared มีอะไรบ้าง เราเลือก ตัวแปร (variable) อย่างไร ผมมักจะถามคำถามง่ายๆ เสมอว่า คิดมาก หรือไม่คิดมาก ถ้าคิดมาก็เรื่องยาว ถ้าคิดไม่มากก็ง่ายเข้าไป นั่นคือ คิดง่ายๆ ว่า ตัวแปรที่จะนำมาทดสอบ chi-sqaured นั้นต้องเป็น ตัวแปรที่มีระดับการวัดแบบ nominal scale ง่ายๆ คือ ตัวแปรกลุ่ม ตัวแปรไม่ต่อเนื่อง (discrete) ประเด็นนี้ผมให้คนชายขอบ เขียนละกัน ไอ้เจ้า nominal scale นี่ถ้าเป็นไทยคงเป็น นามกำหนด หรืออาจจะเจอเป็น นามบัญญัติ อันนี้ไม่เกี่ยวกับการเมืองครับ ลองๆ ไปไล่ดูกันครับ เมื่อเราต้องการทดสอบในประเด็น ที่กล่าวมาข้างต้น ระหว่างตัวแปร ข้างต้นเหมือนกันทั้งคู่ "ย้ำอีกครับว่าทั้งคู่" คงต้องนึกถึงการทดสอบ chi-squared หลักการของการทดสอบมีว่า ผลรวมกำลังสองของค่าความแตกต่างระหว่างค่าจริง (observe value) กับค่าคาดหวัง (exected value) ส่วนค่าคาดหวัง (summation of  (O -E)^2 /E ) เป็นเท่าไหร่ มากหรือน้อยกว่าค่าที่ควรจะเป็น อันนี้ผมอ่านตามสูตร นะครับ  อันนี้ไม่เกี่ยงว่าจะเป็น two by two table (2 x 2) หรือ m x n table ก็ใช้การทดสอบ chi-squared ได้ ทีนี้ในตำราที่ผมมองๆ นี่เขาเขียนไว้ว่า แบบนี้ครับ ผมยกมาทั้งแผงละกัน

" The conventional criterion for the test to be valid is usually attributed to the statistician W. G. Cochran. The rule is this: the chi-squared test is valid if at least 80 percent of the expected frequencies exeed 5 and all the exected frequencies exceed 1. .... Note that this condition applies to the expected frequencies, not the observed frequencies. It quite acceptable for an observed frequency to be 0, provided the expected frequencies meet the criterion. ....... If the criterion is not satisfied we can usaully combine or delete rows and columns to give bigger expected values. Of course, this cannot be done for 2 by 2 tables. ....  If the table does not meet the criterion even after reducetion to 2 by 2 table, we can apply either a continuity correction to improve the approximation to the Chi-squared distribution, or an exact test based on a discrete distribution."

อ่านแล้วคงไม่งงครับ ผมลองยกตัวอย่างให้ง่ายเข้าก็เอาตาราง 2x2 ละกันครับ ในตาราง 2x2 ก็จะมี 4 cell แต่ละ cell แทนค่าจริง (observe) ที่เราเก็บข้อมูลมาได้ด้วย a b c d ตามลำดับ ส่วนค่าคาดหวัง (expected value) ผมแทนด้วย e f g h ตามลำดับเหมือนกัน โดยที่ e แทนค่าคาดหวังของ a ส่วน f แทนค่าคาดหวังของ b ไปเรื่อยๆ คือ ค่าจริง 1 ค่า ก็มีค่าคาดหวังของตัวมันเอง 1 ค่า แล้วค่าคาดหวังนี่คำนวณ อย่างไร ในสูตรเขาว่า  row total x column total/ grand total ให้เห็นภาพง่ายเข้า  a b อยู่แถวเดียวกัน c d อยู่แถวเดียวกัน row total ของ a คือ a+b และ row total ของ  b คือ a+b ส่วน column total ของ a คือ a+c และ coulmn total ของ b คือ b+d ไอ้เจ้า grand total คือ a+b+c+d
                                       a         |   b        |  a+b
                                       --------+---------+ --------------
                                        c       |   d         | c+d
                                        -------+---------+----------------
                                         a+c  |  b+d    | a+b+c+d

คำนวณดูว่าค่า e f g h มีค่าเป็นเท่าไร มีค่าใดที่ น้อยกว่า 5 หรือเท่ากับศุนย์ กี่ค่า คิดเป็นกี่ % ของค่าคาดหวังทั้งหมด ในที่นี้ ค่าคาดหวังทั้งหมดมี 4 ค่า ถ้าค่าคาดหวังเพียงค่าใดค่าหนึ่งใน 4 ค่า (e f g h) มีค่าน้อยกว่า 5 หรือเท่ากับศูนย์ นั่นแสดงว่า มีค่าคาดหวัง ที่น้อยกว่า 5 หรือเท่าศูนย์ คิดเป็น 25 % ของค่าคาดหวังทั้งหมด ซึ่งเกินกว่าที่ข้อความข้างต้นระบุว่า ต้องไม่เกิน 20 % (แปล กลับครับ ให้มันง่ายเข้า) เมื่อเป็นดังนี้ ก็ต้องบอกเหมือนที่ คนชายขอบ เล่าไว้ละครับ ว่า ไม่ต้องแปรผลที่ได้จากการคำนวณ chi-squared test จากโปรแกรมแล้ว ว่าจะเป็นอย่างไร ค่าที่สนใจคือค่า จาก การทำ continuity correction สำหรับการกระจายแบบ chi-squared ค่า correct ที่ว่านี้ก็คือค่า Yate's continuity correction for 2 by 2 table นั่นเอง "Y a t e ' s"  ส่วนวิธีการปรับค่าก็ไปค้นเอาละกันครับว่าคิดจากอะไร (summation of (|O - E|-1/2)^2 /E) หรือเราใช้ค่าของ Fisher's exact test แทนค่าจาการทดสอบ chi-squared test นั่นเอง ส่วนไอ้เจ้า ชาวประมงนั่นจะคำนวณ อย่างไร ก็เป็นเรื่องที่ต้องไปทำความเข้าใจกันอีก ให้ คนชายขอบ เล่าให้ฟังอีกทีละกันครับ สำหรับการยุบ rows หรือ columns นั้น ก็ทำได้เฉพาะที่ไม่ใช่ตาราง 2 x 2 แต่มีข้อแม้ว่า ยุบไม่ยุบนี่ ต้องดูว่า ยุบแล้ว ความหมายเปลี่ยนไปไหม ถ้าเปลี่ยนไปจากความหมายเดิม ก็คงต้องคิดหนัก เพราะจะกลายเป็นคนละประเด็นไป ผมไม่ขอยกตัวอย่างในเรื่องนี้ครับ เพราะฉนั้นถ้าไม่เขช้าตาม criteria ของ chi-squared test แล้ว คงต้องพิจารณาว่าจะยุบหรือไม่ยุบ rows/ columns ก่อน ถ้ายุบได้ ยุบ แต่ถ้ายุบแล้วยังไม่เข้า criteria ก้ หันหน้าเข้าหา Yate's correction หรือ fisher's exact test ครับ ผมน่าจะแปลภาษาอังกฤาด้านบนหมดแล้วนะครับ ยาวจริงๆ ยิ่งเขียนยิ่งงงเอง
หมายเหตุ: ข้อความภาษาอังกฤษ ผมคัดมาจาก An introduction to Medical Statistics โดย Martin Bland: 1991. Oxford University press.