หนังสือ The Art of Statistics : Learning from Data เขียนโดย David Spiegelhalter ศาสตราจารย์ด้าน Public Understanding of Risk in the Statistical Laboratory มหาวิทยาลัยเคมบริดจ์ และเป็นอดีตประธานของ Royal Statistical Society น่าอ่านมาก บอกทั้งคุณและโทษของสถิติ รวมทั้ง statistics literacy – ความฉลาดรู้เรื่องสถิติ
สถิติศาสตร์ช่วยการสื่อสารความเป็นจริง ให้เข้าใจได้ง่าย และเข้าใจในมิติที่ลึก และในขณะเดียวกัน ก็อาจมีคนอาศัยสถิติสื่อสารความลวง หรือสื่อสารสาระกึ่งจริงกึ่งเท็จ ความฉลาดรู้เรื่องสถิติจึงถือเป็นทักษะชีวิตในยุคปัจจุบันและอนาคต ที่จะไม่ถูกโลกยุคข้อมูลข่าวสารหลอกเอาง่ายๆ
หากไม่ระวัง ตัวเราเองก็อาจใช้สถิติอย่างผิดๆ กลายเป็นคนลวงโลกโดยไม่รู้ตัวก็ได้
วิชาสถิติพัฒนาขึ้นใช้ในวิทยาศาสตร์ แต่ปัจจุบันนอกจากใช้ด้านวิทยาศาสตร์แล้ว ยังใช้มากในด้านการเมือง และด้านสื่อมวลชน สถิติในวิทยาศาสตร์จึงเน้นใช้เพื่อความแม่นยำ แต่การใช้ในสองเป้าหลังอาจมีคนมุ่งใช้เพื่อบิดเบือนความเข้าใจหรือความเชื่อ นี่คือความฉลาดรู้ที่คนสมัยนี้ต้องมี
เมื่อวันที่ ๑๙ เมษายน ๒๕๖๓ ทีมงานของโรงเรียนลำปลายมาศพัฒนา เสนอร่างหน่วยบูรณาการเรื่อง สื่อ (Media) ในหลักสูตรฐานสมรรถนะที่กำลังพัฒนาขึ้นใช้ในปีการศึกษาหน้า สำหรับชั้น ม. ๑ และ ๒ ที่นับได้ว่าก้าวหน้ามาก ผมแนะนำว่า ครูน่าจะทำความเข้าใจเรื่องสถิติใน ๓ มิติการใช้งาน ตามในหนังสือเล่มนี้ สำหรับใช้ออกแบบการเรียนรู้ให้ครอบคลุม media literacy ยิ่งขึ้น
นักสถิติทำหน้าที่ตรวจสอบแบบแผนที่ข้อมูลแสดง (patterns in data) เพื่อแก้ปัญหาของสังคม
ข้อมูลไม่ใช่ “ความจริงแท้” (hard fact) แต่เป็นสิ่งที่มนุษย์สร้างขึ้น และอาจมีอคติ หรือข้อผิดพลาด เจือปนอยู่สารพัดแบบ รวมทั้งอาจเกิดจากมีการเปลี่ยนนิยามของเรื่องนั้นๆ คงจะจำกันได้ว่า ตอนที่โควิดกำลังระบาดหนักในเมืองอู่ฮั่น และมีการรายงานจำนวนผู้ติดเชื้อใหม่ในแต่ละวัน มีอยู่วันหนึ่งจำนวนกระโดดสูงขึ้นมากมาย โดยมีคำอธิบายแนบว่าทางการจีนเปลี่ยนนิยามของคำว่า ผู้ติดเชื้อ
ดังนั้น เมื่อรับข้อมูลเรื่องสถิติ สิ่งแรกที่ต้องทำคือทำความเข้าใจวิธีเก็บข้อมูล เพื่อทำความเข้าใจข้อจำกัดหรือความน่าเชื่อถือของสถิตินั้น เพื่อจะได้ไม่รับสารด้วยความเข้าใจผิดๆ ดังตัวอย่างจำนวนผู้ติดเชื้อโควิดรายใหม่ประจำวันที่ประกาศโดย สบค. ในช่วงปลายเดือนเมษายน ๒๕๖๓ ที่ตัวเลขอยู่ที่วันละสิบกว่าคน จนวันที่ ๒๕ รายงานกระโดดเป็น ๕๓ คน ซึ่งหากดูเฉพาะตัวเลขเราจะตกใจ แต่ข่าวตามมาด้วยคำอธิบายว่า ๔๒ คนอยู่ในกลุ่มแรงงานต่างด้าวที่จังหวัดนราธิวาสที่เมื่อถูกจับและตรวจโควิด ๑๙ พบได้ผลบวก ๔๒ คน ผู้รับสารก็จะทำความเข้าใจได้ว่าตัวเลขที่ควรนำมาเทียบกับวันก่อนๆ คือ ๑๑
วิธีเก็บข้อมูลที่ทำให้ได้ข้อมูลแตกต่างกันได้มากคือแบบสอบถาม คำถามที่ถามต่างกันนิดเดียว ผู้ตอบจะตอบต่างกันและทำให้นำเสนอสาระแตกต่างกันได้ในระดับที่ความหมายตรงกันข้าม
ถัดมาคือวิธีนำเสนอข้อมูล ซึ่งจะมีผลต่อ การตีความข้อมูล โดยเฉพาะสมัยนี้นิยมเสนอในรูปของ visualization ที่ทำให้มนุษย์รับรู้ความหมายผ่านทางสายตาเท่านั้น ไม่ต้องรับรู้ผ่านการคิดเชิงคณิตศาสตร์ เขาบอกว่าสมัยนี้นักสถิติจะทำงานร่วมกับนักจิตวิทยาเพื่อช่วยกันดูว่า เมื่อนำเสนอโดยวิธีการนั้นๆ แล้ว ผู้รับสารจะตีความว่าอย่างไร ตรงกับข้อมูลที่เป็นจริงหรือไม่เพียงไร โดยอาจต้องเปลี่ยนวิธีนำเสนอใหม่ ให้ผู้รับสารรับได้ตรงความหมาย
เขายกตัวอย่างการศึกษาอัตราตายของผู้ป่วยในโรงพยาบาล และทำตารางนำเสนอตัวเลขเปรียบเทียบอัตราตายในโรงพยาบาลจำนวนหนึ่ง ควรเริ่มจากอัตราตายน้อย หรืออัตราตายสูงดี โดยหากไม่ระวังหรือเตือนไว้ล่วงหน้า ผู้อ่านอาจตีความว่าเป็นการนำเสนอเรียงตามอันดับคุณภาพของโรงพยาบาล โรงพยาบาลที่อัตราตายต่ำคุณภาพสูง โดยที่ในความเป็นจริงแล้ว โรงพยาบาลที่อัตราตายสูงเป็นเพราะรับผู้ป่วยที่อาการหนักหรืออยู่ในระยะท้าย
การนำเสนอแบบ “ตีกรอบความคิด” (framing) เป็นการชักจูงการตีความของผู้รับสารให้คล้อยตามการชักจูง เขายกตัวอย่างคำโฆษณาของทางการรถใต้ดินที่ลอนดอนเมื่อนานมาแล้วว่า ร้อยละ ๙๙ ของผู้โดยสารวัยรุ่นของรถใต้ดินเป็นคนที่ไม่ก่อความรุนแรง ซึ่งหากใช้คำว่า ร้อยละ ๑ ของผู้โดยสารวัยรุ่นเป็นคนที่ก่อความรุนแรง ผู้รับสารจะตกใจหรือกังวลกว่า และหากใช้คำว่า มีวัยรุ่น ๑ หมื่นคนที่ใช้รถใต้ดินเป็นคนมีนัสัยก่อความรุนแรง คนก็จะยิ่งกังวล จะเห็นว่า ผู้สื่อสารตัวเลขสถิติมักใช้เทคนิคนี้เพื่อประโยชน์ของตนเอง
แม้กระทั่งรายงานผลการวิจัยทางวิชาการ ก็มี แนวโน้มจะรายงานผลบวก (positive bias) เนื่องจากระบบวารสารวิชาการนิยมรับตีพิมพ์ผลงานที่ได้ผลบวก มากกว่ารายงานที่ให้ผลลบ (positive reporting) นี่คืออคติที่วงการวิชาการรู้กันดี ในหลายกรณี ผลงานวิจัยที่ได้ผลลบ คือไม่เป็นไปตามสมมติฐานที่ตั้งไว้ อาจ มีความสำคัญยิ่งกว่าผลงานวิจัยที่ให้ผลบวก คือเป็นผลงานวิจัยที่เปิดมุมมองใหม่ทางวิชาการ
สื่อมวลชนนิยมรายงานเรื่องราว (storytelling) มากกว่าข้อมูล เพราะมีสีสันดึงดูดใจกว่า แต่อาจนำไปสู่การสื่อสารที่ด้อยความแม่นยำ หากใช้สถิติช่วยเสริม จะช่วยเพิ่มความชัดเจนในสาระที่ต้องการสื่อ แต่อาจยิ่งร้ายหนัก หากมีการบิดสถิติให้ช่วยเพิ่มความเร้าอารมณ์ของเรื่องเล่า เพื่อสร้างกระแสผิดๆ
การเสนอค่าเฉลี่ย โดยไม่ระบุว่าเป็นค่าเฉลี่ยแบบใด (mean, median, mode) อาจก่อความเข้าใจผิด หรือใช้กล่าวถ้อยคำที่เป็นควาจริงแต่ตลกขบขันได้ เช่น “คนเราส่วนใหญ่มีขามากกว่าค่าเฉลี่ย” เพราะมีคนที่ขาขาดหรือถูกตัดอยู่ด้วย ค่าเฉลี่ยของจำนวนขาของคนในประเทศโดยเฉลี่ยจึงไม่ถึง ๒ คนที่มี ๒ ขา จึงมีขามากกว่าค่าเฉลี่ย
ความสัมพันธ์ (correlation) ไม่ใช่ความเป็นสาเหตุ (causation) นี่คือความเข้าใจผิดที่เกิดขึ้นบ่อยมากในคนทั่วไป เมื่อได้รับทราบรายงานผลความสัมพันธ์ระหว่างสองสิ่ง เช่นการดื่มไวน์แดงเล็กน้อย กับ อุบัติการณ์โรคหัวใจที่ต่ำกว่าค่าเฉลี่ย คนจำนวนมากจะบอกตัวเองว่า ควรดื่มไวน์แดงสักแก้วสองแก้วกับอาหารเย็น เพื่อป้องกันโรคหัวใจ ซึ่งเป็นความเข้าใจผิด
คนทั่วไปมักตีความ “ความน่าจะเป็น” (probability) ผิดๆ ไม่น่าเชื่อว่าสมาชิกรัฐสภาอังกฤษจะมีความรู้เรื่องความน่าจะเป็นต่ำถึงเพียงนี้ เมื่อมีคนทดลองถามท่านเหล่านั้นว่าหากโยนเหรียญสองครั้ง โอกาสขึ้นหัวทั้งคู่เท่ากับเท่าไร พบว่า ๖๐ จาก ๙๗ คน ตอบไม่ได้หรือไม่ถูก ซึ่งคำตอบคือ ๑/๔ วิธีคิดคือ ๑/๒ x ๑/๒ = ๑/๔
ตัวอย่างความน่าจะเป็นที่ต้องการการคำนวณที่ซับซ้อน (ขึ้นนิดหน่อย) คือ ความน่าจะเป็นมะเร็งเต้านมของหญิงคนหนึ่งที่ผลการตรวจ mammography ให้ผลบวก โดยมีตัวเลขว่า ความแม่นยำของ mammogram เท่ากับร้อยละ ๙๐ และอุบัติการณ์ของมะเร็งเต้านมในประชากร (หญิง) เท่ากับร้อยละ ๑ ถามว่าความน่าจะเป็นมะเร็งเต้านมของหญิงคนนี้เท่ากับเท่าไร คำตอบคือ ร้อยละ ๘ คนที่เรียนสถิติจะเคยโดนสอบข้อสอบแบบนี้
ตัวอย่างของความเข้าใจผิดเรื่องความน่าจะเป็นที่พบบ่อยที่สุดอย่างหนึ่งพบในนักพนัน หากเล่นพนันโยนเหรียญหัวก้อย แล้วขึ้นหัวติดๆ กันสามครั้ง จะมีคนจำนวนมากแทงก้อยในครั้งต่อไป เพราะหลงคิดว่าคราวนี้น่าจะออกก้อยบ้าง หลักการสำคัญที่ผมท่องสมัยเรียนสถิติที่โรงเรียนเตรียมอุดมศึกษาเมื่อปี พ.ศ. ๒๕๐๒ คือ “ความน่าจะเป็นไม่มีความจำ”
โดยสรุป สถิติ เป็นสิ่งที่มนุษย์คิดขึ้นมาช่วยให้เข้าใจโลก เข้าใจความจริง ได้แม่นยำ และลึกซึ้งขึ้น แต่ในขณะเดียวกันมนุษย์ก็ใช้สถิติเพื่อบิดเบือนความจริงด้วย มนุษย์ในยุคนี้จึงต้องเรียนรู้ “ความฉลาดรู้เรื่องข้อมูล” (data literacy) ซึ่งก็คือความรู้เรื่องสถิตินั่นเอง
วิจารณ์ พานิช
๒๖ เม.ย. ๖๓