เรียนสถิติด้วยภาพ ตอนที่ 4 พักยก... ทบทวนประเด็นที่ผ่านมา เรื่อง confidence interval, p-value, alpha, beta,...

ในตอนก่อน ๆ ผมพูดเรื่อง confidence interval, alpha level, beta level, power, significant difference (ดู link ข้างท้าย)

ผมลองเปิดประเด็นใหม่ ที่ใช้คำศัพท์เหล่านี้ เป็นโอกาสสำหรับการทบทวน

ประเด็นใหม่ที่ว่า คือเรื่อง evidence-based decision หรือการตัดสินใจโดยอิงหลักฐานเชิงประจักษ์

ฝรั่งเขาใช้หลักฐานเชิงประจักษ์กับเรื่องการรักษาสุขภาพกันเป็นเรื่องปรกติ คนไข้เถียงหมอโดยอิงหลักฐาน และหมอก็ยันกับคนไข้โดยหลักฐานที่ดีกว่า ใหม่กว่า เป็นเรื่องปรกติ

Sackett บุกเบิกเรื่องการใช้หลักฐานเชิงประจักษ์ และคิดคำว่า evidence-based medicine ขึ้น เมื่อไม่กี่สิบปีมานี้เอง และใช้กันไปทั่วโลก

ปัจจุบัน คนที่รักสุขภาพ ดิ้นรนสุดชีวิตทำโน่นทำนี่ให้สุขภาพดี บางที ฟังสูตร "ผีบอก" มีสิทธิโดนผีชวนไปอยู่ด้วย ประเภทที่ลือกัน บอกกันว่าให้กินนี่สิดี กินโน่นสิดี หากทำตาม อาจอายุสั้นกว่าคนที่อยู่สบาย ๆ ไม่ดิ้นรน

รักสุขภาพ อยากถนอมสุขภาพด้วยการทำโน่นกินนี่ จึงควรตรวจสอบหลักฐานเชิงประจักษ์เสียหน่อยว่า ที่ตัวเองจะทำหรือจะกินนั้น ล่าสุด เขาฟันธงว่าอะไร

จริง ๆ แล้ว เรื่องการใช้หลักฐานเชิงประจักษ์มาถกมายันกัน ในแวดวงการศึกษาก็ถือเป็นเรื่องปรกติ ในแวดวงอื่นเช่นในแวดวงการเมืองต่างประเทศ เดี๋ยวนี้ก็ทำกันเป็นเรื่องปรกติ (ตรงนี้ต้องขอขอบคุณคุณ Conductor ที่ช่วยเอื้อเฟื้อส่งหนังสือ Super Crunchers ไปให้ผมอ่าน ทำให้ได้เห็นประเด็นนี้)

แต่ก็ไม่ใช่ว่า แนวคิดเรื่องหลักฐานเชิงประจักษ์จะเพิ่งเกิดในยุคของเรา จริง ๆ แล้ว เกิดมานานมาก

ตัวอย่างที่เห็นชัด ๆ ในเรื่องที่เกี่ยวกับวิทยาศาสตร์ ก็มีกาลิเลโอ เป็นตัวอย่างของคนที่บุกเบิกพิสูจน์สิ่งต่าง ๆ ด้วยการทดลอง ตั้งแต่หลายร้อยปีก่อน

อีกตัวอย่างหนึ่งก็คงดี

สมัยโบราณ คนเชื่อว่าโลกหมุนรอบดวงอาทิตย์ แต่ปโตเลมีเสนอทฤษฎีว่าดวงอาทิตย์หมุนรอบโลกแบบไม่มีใครแย้งมานับพันปี จนภายหลังโคเปอร์นิคุมาสแย้งว่า โลกหมุนรอบดวงอาทิตย์ต่างหาก ทำให้เป็นประเด็นถกเถียงว่า โลกหมุนรอบดวงอาทิตย์ หรือดวงอาทิตย์หมุนรอบโลกกันแน่ ถกเถียงกันยังไง ก็ไม่มีฝ่ายชนะขาดสักที

เมื่อสี่ร้อยกว่าปีก่อน ไทโค บราห์ แม้เขาจะมีความเชื่อเรื่องดวงอาทิตย์หมุนรอบโลก แต่เขาก็มองว่า ถกตรรกศาสตร์กันให้ตายไปข้าง หากไม่มีข้อมูล ก็ไม่มีข้อสรุปอะไรงอกเงย ข้อมูลเท่านั้น คือสิ่งที่จะตัดสินให้รู้แพ้รู้ชนะ เขาเป็นนักดาราศาสตร์ที่มีชื่อเสียง ได้รับเกาะพระราชทาน เขาสร้างหอดูดาว เก็บข้อมูลสังเกตการณ์ทางดาราศาสตร์นานหลายปี เพราะเชื่อว่า สักวันหนึ่ง คงจะมีคนมีสติปัญญา มาใช้ข้อมูลจริงเหล่านี้พิสูจน์ ซึ่งการณ์ก็เป็นไปตามนั้น คือ เคปเลอร์ สามารถฟันธงว่าโลกโคจรรอบดวงอาทิตย์ได้ โดยใช้ข้อมูลดิบเหล่านี้เป็นหลักฐานประกอบ และยังสามารถตั้งเป็นกฎบรรยายการเคลื่อนที่ดังกล่าวได้ ซึ่งทำให้กฎแรงโน้มถ่วงของนิวตันในภายหลัง มีรากฐานมั่นคง เพราะใช้อธิบายกฎของเคปเลอร์ได้อย่างแม่นยำ

สิ่งที่นิยมทำกันก็คือ การตัดสินใจโดยอิงหลักฐานเชิงประจักษ์ในปัจจุบัน เขาใช้สถิติมาช่วยในการบอกว่า ทำอย่างนี้ แล้วจะแตกต่างจากอย่างโน้นไหม (ดูจาก confidence interval หรือ p-value ว่า แตกต่างไหม) เพื่อให้แน่ใจว่า ความแตกต่างที่เกิดขึ้น ไม่ใช่เป็นเพียงความบังเอิญของตัวเลข แต่เวลาใช้งาน เขาจะต้องดูความเหมาะสมในด้านอื่นประกอบด้วย

เขาจะเริ่มจากการแปลงคำถามในชีวิตจริง ให้กลายเป็นคำถามทางสถิติ

เช่น กินยา J นี่ดีไหม เขาก็แปลงเป็นคำถามทางสถิติที่เรียก null hypothesis ็(Ho

เขียนทำนองนี้ว่า        Ho: X=Y  เพื่อใช้ตัวชี้วัด X กับ Y มาเทียบกันเพื่อตัดสินว่า J ดีจริงหรือเปล่า

ความหมายของ = นี่ ไม่เหมือนที่ใช้ในชีวิตปรกติ คือต้องตีความว่า "X และ Y ใช้แทนกันได้ไหม"

เช่น X คือ ความสามารถในการใช้รักษาของยาชนิดที่ 1 และ Y คือ ความสามารถในการใช้รักษาของยาชนิดที่ 2

หรือจะตีความเครื่องหมาย = ว่า เป็นความสามารถแยกขาดจากกัน

"X และ Y แยกขาดออกจากกันได้ไหม?" (ลองดูรูป)

 Binarygalaxy100 

p-value

ระยะห่างระหว่างข้อมูลที่กำลังเปรียบเทียบ (ความแตกต่างทางปฎิบัติ) ไม่ได้เกี่ยวข้องกับการต่างกันทางสถิติ คือ สถิติอาจจะบอกว่า ไม่ต่าง (กรณีแรก) หรือ ต่าง (กรณีที่สอง) หรือ ต่างอย่างยิ่งยวด (กรณีที่สาม) ก็ได้

 

กรณีที่ทดสอบประเภท X = 0 เป็นการพิสูจน์ว่าอะไรสักอย่าง = 0 ทางสถิติ จึงมักมีความหมายแฝงว่า สิ่งนั้น จำเป็นต้องมีอยู่ไหม ? หรือ สิ่งนั้น มีอยู่จริงไหม ?

เช่น ถ้า X คือ ความดันที่เปลี่ยนไปเมื่อใช้ยา ถ้าพิสูจน์พบว่า X = 0 แสดงว่า ยาไม่ทำให้ความดันเปลี่ยน

แต่หากพิสูจน์แล้วพบว่า X ไม่เท่ากับศูนย์ (p = 0.003) ก็แสดงว่า ยาทำให้ความดันเปลี่ยนอย่างมีนัยสำคัญ

กรณีนี้ สถิติจะช่วยฟันธงเพียงว่า ตกลงว่า จริง ๆ แล้ว ความดันที่เปลี่ยนไป (X) จริง หรือ ไม่จริง

ต่างทางสถิติ เป็นคนละประเด็นกับ ดี หรือ ไม่ดี

ใครเอาสองประเด็นนี้ไปปนกัน แสดงว่า โดนสถิติ "สนตะพาย" ไปเรียบร้อย

ใช้สถิติอย่างฉลาด ควรดูอะไรบ้าง ?

 

สรุปจากที่เคยเขียนในตอนก่อนหน้า ก็มี

1. แตกต่างทางสถิติ (p-value ใกล้ศูนย์) เป็นคนละอย่างจาก แตกต่างทางปฎิบัติ ใช้แทนกันไม่ได้

ยาที่ลดความดันได้ 10 มิลลิเมตรปรอทอย่างมีนัยสำคัญทางสถิติ กล่าวได้ว่า ลดอย่างชัดเจนไม่ใช่เรื่องบังเอิญก็จริง แต่ลดได้แค่นี้มันน้อยไปจนไม่พอใช้งาน ดังนั้น ถ้าจะใช้งาน ต้องดูด้วยว่าลดความดันได้ 10 มิลลิเมตรปรอทนี่ น่าพอใจหรือเปล่า

2. แตกต่างทางสถิติเหมือนกัน แต่คุณภาพของความแตกต่าง อาจไม่เหมือนกัน
เวลาบอกว่าแตกต่างที่ p-value 0.000,001 (1 ใน ล้าน) นี่ ดูเผิน ๆ น่าประทับใจ เพราะเท่ากับบอกว่า ข้อมูลสองกองนี่ แยกขาดกันชัดเจนมาก มีโอกาสผิดแค่ 1 ในล้าน ค่านี้คือค่า alpha level แต่เราต้องดูให้ลึกลงไปอีกระดับว่า เอ๊ะ ตอนทดลองนี่ เขาทดลองในคนกี่ล้านคน หรือทดลองในแค่ 10 คน แล้วนำตัวเลขมาแทนค่าในสูตรแล้วได้ตัวเลข 1 ในล้านนี่ออกมา แบบนั้น ก็ไม่น่าไว้ใจ แม้ p-value จะ 1 ในล้านพอ ๆ กัน

สมมติว่าผมถ่ายรูปท้องฟ้ายามราตรี ถ้าผมถ่ายรูปโหมด 10 pixel แล้วสรุปว่า ผมเห็นดาวคู่ ด้วย p-value 0.000,001 กับอีกกรณีหนึ่ง ถ้าผมถ่ายรูปโหมด 20 ล้าน pixel แล้วสรุปว่า ผมเห็นดาวคู่ ด้วย p-value 0.000,001 แม้ทั้งคู่ มี p-value เท่ากัน แต่ความน่าไว้ใจ ไม่เหมือนกัน

Ci95binaryhighpower 

Ci95binarylowpower 

ทั้งสองรูป มี p-value เท่ากันก็จริง แต่รูปบน มีข้อมูลมากมหาศาลหนุนหลัง ไม่ต้องคาดคะเนขอบ เพราะใช้วิธีนับจุดเอาตรง ๆ ได้ รูปล่างมีข้อมูลจริงอยู่นิดเดียว เป็นการคาดคะเนเสียมาก

ไม่เชื่อก็ลองลบเส้นวงกลมออก ดูแต่จุดสิครับ รูปบนเห็นเป็นวงกลมสองหย่อม รูปร่างเห็นเป็นวงรีหย่อมเดียวด้วยซ้ำ

แบบนี้ แม้ alpha level (ระดับการแยกขาดของสองกองข้อมูล) เท่ากัน แต่ beta error ผิดกันไกล (ดูจากจำนวน pixel)

ดังนั้น เวลาฟังใครมากล่อมว่ายานี้ดี อาหารนี้เลิศ อย่างมีนัยสำคัญทางสถิติ ลองใช้หมัดฮุ๊คคาง คือถามกลับไปว่า ทดลองในคนหรือเปล่า ทดลองมาแล้วกี่คน ถ้าใครคางเหล็ก ทนการพิสูจน์ตรงนี้ แสดงว่า ของเขา ผ่านด่านแรก

แต่ดูแค่นี้พอไหม ตอบได้เลยว่า ไม่

มีเรื่องอื่นต้องดูอีกมากมาย ดูสถิติพวกนี้ ถือเป็นด่านทดสอบด่านแรกเท่านั้นเอง ถ้าตกด่านนี้ ก็ไม่ต้องเสียเวลาดูต่อ ถ้าผ่านด่านนี้ ก็ต้องมีเรื่องต้องดูอีกเยอะ เช่น การออกแบบการทดลอง ว่าออกแบบมาดีจริง ตอบโจทย์ได้ตรงไหม 

 

บทที่เกี่ยวข้อง

เรียนสถิติด้วยภาพ ตอนที่ 7 ความแปรปรวน

เรียนสถิติด้วยภาพ ตอนที่ 6 ความแตกต่างที่แตกต่าง

เรียนสถิติด้วยภาพ ตอนที่ 5 SD ปะทะ SE

เมื่อ "เท่ากับ" เป็นมากกว่านั้น

เรียนสถิติด้วยภาพ ตอนที่ 4 พักยก... ทบทวนประเด็นที่ผ่านมา เรื่อง confidence interval, p-value, alpha, beta,...

เรียนสถิติด้วยภาพ ตอนที่ 3 Confidence Interval, alpha & beta

เรียนสถิติด้วยภาพ ตอนที่ 2 Confidence Interval, alpha level & Statistical difference

เรียนสถิติด้วยภาพ ตอนที่ 1 Confidence Interval & alpha level

บันทึกนี้เขียนที่ GotoKnow โดย 

 หมายเลขบันทึก: 235833
 เขียน:  
 ความเห็น:  อ่าน: คลิก 
 สัญญาอนุญาต: สงวนสิทธิ์ทุกประการ
 แจ้งลบ
 
 แจ้งลบ

ความเห็น

krutoiting
เขียนเมื่อ Sat Jan 17 2009 23:07:26 GMT+0700 (ICT)

มาเรียนรู้ค่ะ

ใช้สถิติอย่างฉลาด

ขอบคุณค่ะ

wwibul
เขียนเมื่อ Sun Jan 18 2009 21:59:10 GMT+0700 (ICT)

คุณP  krutoi

 

  • ยินดีครับ
ครูน้อย
เขียนเมื่อ Sun Jan 25 2009 20:59:49 GMT+0700 (ICT)

ผมคงนอนดึกอีกหนึ่งวัน....ต้องอ่านงานที่อาจารย์เขียนให้จบก่อน....

ขอบคุณครับ

 อนุญาตให้แสดงความเห็นได้เฉพาะสมาชิก
 ไม่อนุญาตให้แสดงความเห็น
{{ kv.current_user.preferred_name }} - เพิ่มความเห็นเพิ่มความเห็น
 ใส่รูปหรือไฟล์