ผมทดลองใช้ภาษาภาพในการทบทวนสถิติให้กับคนที่เรื้อสถิติไปนาน ๆ แล้วพบว่าได้ผลดี ทุ่นเวลาได้มาก วันก่อน พูดเรื่อง EBM ให้ทีม UsableLabs ฟัง ต้องพาดพิงถึงสถิติ ก็ไปคุ้ยสไลด์สถิติที่เคยใช้สอนฟื้นความจำแบบเร่งรัดให้นักศึกษาฟังเวลาจะสอนเรื่องการทำวิจัย เป็นสไลด์ที่เน้นการเล่า concept ด้วยภาพ เพราะเคยใช้แล้วได้ผลดี คือคนฟังจะไม่ทำหน้าชราภาพก่อนวัยอันสมควรให้ดู

ตอนแรกนี้ เป็นเรื่องของ confidence interval

Confidence interval เป็นการบอกว่า ข้อมูลส่วนใหญ่ของเรา อยู่ในช่วงไหน โดยกรองทิ้งข้อมูลส่วนน้อยออกไป

ทำไมต้องกรองทิ้งข้อมูลส่วนน้อย ? ทำไมไม่ใช้ช่วงค่าสูงสุดต่ำสุดมาเป็นตัวบอก เก็บทุกอย่างไว้ทั้งหมด ?

นั่นเป็นเพราะข้อมูลส่วนน้อยที่สุดโต่ง เวลาสุดโต่งขึ้นมา จะผิดปรกติแบบเอาแน่ไม่ได้ ทำให้ช่วงค่าสูงสุดต่ำสุด จะผันผวนมาก

แต่ถ้าเล็มทิ้งส่วนที่สุดโต่งออก แล้วดูแต่แกนที่เหลือข้างใน จะมีเสถียรภาพกว่า

Rambutanconfidenceinterval
ลองดูเงาะรูปนี้

ต่อให้เป็นเงาะที่มาจากช่อเดียวกันที่คล้ายกัน หากวัดตั้งแต่ปลายขนด้านหนึ่งไปสุดปลายขนอีกด้านหนึ่ง เราจะพบว่า ขนาดที่นิยามแบบนี้ จะผันผวนมาก เพราะปลายขนเงาะ อาจมีเส้นที่ยาวผิดปรกติ เลือกขนผิดเส้น อาจทำให้วัดขนาดเงาะที่แตกต่างหลากหลายมาก

แต่ถ้าเรากล้อนขนออกไป เหลือแต่เปลือกแบบไม่มีขน เวลาวัดขนาด เราจะวัดได้น่าเชื่อถือกว่า

การใช้ confidence interval ก็เหมือนเป็นการที่เราทิ้งข้อมูลชายขอบ ซึ่งจะผันผวนได้รุนแรง เหลือข้อมูลส่วนแกน ซึ่งจะเสถียรกว่า

การใช้ confidence interval จึงเป็นการแกล้งมองข้ามข้อมูลสุดโต่ง

confidence interval ต้องหมายเหตุบอกด้วย ว่าเป็นของอะไร

ของข้อมูลดิบ ก็เป็นอย่างหนึ่ง

ของค่าเฉลี่ย ก็จะเป็นอีกอย่างหนึ่ง

ของค่ามัธยฐาน ก็เป็นอีกอย่างหนึ่ง

ของค่าความแปรปรวนก็เป็นอีกอย่าง

สรุปคือ ทุกอย่างที่เราสนใจ ต่างก็มี confidence interval ของตนเองได้หมด

แต่นิยมใช้ในความหมายว่า เป็น confidence interval ของค่าเฉลี่ย

เราไปเก็บข้อมูลมาครั้งหนึ่ง จับข้อมูลมาเฉลี่ย ก็ได้ข้อมูลหนึ่งรายการ

เก็บซ้ำหลาย ๆ ครั้ง ก็จะเห็นหลายรายการ

นำเสนอข้อมูลให้ถูก ต้องเป็นข้อมูลในหนึ่งมิติ แต่สมองคนเรามองไม่ค่อยเข้าใจ จึงนำเสนอเป็นภาพสองมิติแทน ด้านขวาเป็นบวก ด้านซ้ายเป็นลบ

ถ้าเอาค่าเฉลี่ยแต่ละครั้งมาพล็อต เราจะเห็นอย่างนี้


Ci-complete รูปแรก มีข้อมูลครบ 100 %

Ci-99pctรูปนี้ ตัดข้อมูลขอบทิ้งไป 1 %

Ci-90pctรูปนี้ ตัดข้อมูลขอบทิ้งไป 10 %

confidence interval 100 % ก็คือ การเอาข้อมูลทั้งหมดมาใช้ [รูปบน]

confidence interval 99 % ก็คือ การเอาข้อมูลแกนกลางมาใช้ 99 % ที่เหลือทิ้ง (ทิ้งด้านบนที่สูงผิดปรกติไป 0.5 % และทิ้งด้านล่างที่ต่ำผิดปรกติไป 0.5 %) [รูปกลาง]

confidence interval 90 % ก็คือ การเอาข้อมูลแกนกลางมาใช้ 90 % ที่เหลือทิ้ง (ทิ้งด้านบนที่สูงผิดปรกติไป 5 % และทิ้งด้านล่างที่ต่ำผิดปรกติไป 5 %) [รูปล่าง]

ส่วนที่ทิ้งไป เรียกว่า alpha level (α)

confidence interval 90 % ก็คือ ทิ้งด้านบนที่สูงผิดปรกติไป 5 % (=α/2) และทิ้งด้านล่างที่ต่ำผิดปรกติไป 5 % (=α/2)

ระวังเรื่องหน่วย

confidence interval นิยมใช้หน่วย % คือเทียบฐาน 100

แต่ alpha level นิยมใช้หน่วย probability scale คือ เทียบฐาน 1

สมมติว่า ผมสนใจ 99 % confidence interval ล่ะ ? α จะเป็นเท่าไหร่ ?

alpha (α) ก็ต้องเป็น 0.01 เพราะเก็บแกน 99 % ไว้ ก็ต้องเล็มทิ้งไป 1 % ซึ่งก็คือ 0.01 เมื่อเทียบจาก 1

กรณีนี้ α/2 จะเท่ากับ 0.005

alpha = 1 - (% confidence interval หาร 100)

Confidence interval และ alpha สำคัญอย่างไร โปรดติดตามตอนต่อไป


สนใจอ่าน เรียนสถิติด้วยภาพ แบบครบทุกตอน เข้าไปที่

http://www.gotoknow.org/posts?tag=เรียนสถิติด้วยภาพ<p></p>