คือค่าสุดโต่งหรือค่าผิดปกติทั้งทางน้อยมากหรือสูงมาก เป็นจุดข้อมูลที่แตกต่างอย่างมากจากจุดข้อมูลส่วนใหญ่ ซึ่งค่าผิดปกติพวกนี้สามารถบิดเบือนค่าเฉลี่ยหรือทำให้ค่าเบี่ยงเบนมาตรฐานสูงเกินจริงได้
นักวิจัยจะต้องจัดการจัดการกับค่าผิดปกติเหล่านี้ก่อนทำการวิเคราะห์ข้อมูลโดยใช้วิธีการดังนี้
ขั้นตอนแรกคือการระบุค่าผิดปกติในข้อมูล ซึ่งสามารถทำได้ด้วยวิธีการดูจากเครื่องมือ เช่น กราฟกล่อง กราฟฮิสโตแกรม หรือแผนภาพการกระจาย หรือด้วยวิธีทางสถิติ เช่น วิธี Z-score หรือวิธี IQR
หากเจอค่าผิดปกติ นักวิจัยจำเป็นต้องเข้าใจว่าเหตุใดจึงเกิดขึ้น เป็นเพราะข้อผิดพลาดในการป้อนข้อมูล ข้อผิดพลาดในการสังเกตหรือไม่ หากเป็นข้อผิดพลาดให้ทำการแก้ไขหากเป็นไปได้
นักวิจัยสามารถพิจารณาปรับปรุงข้อมูลด้วยวิธีการหลากหลายดังต่อไปนี้
หากนักวิจัยมั่นใจว่าค่าผิดปกติได้มาอย่างถูกต้อง ซึ่งอาจจะเกิดจากกลุ่มตัวอย่างจำนวนหนึ่งมีความแตกต่างไปจากกลุ่มตัวอย่างจริง นักวิจัยอาจตัดสินใจเก็บค่าผิดปกติไว้ได้
หากค่าผิดปกติส่งผลกระทบต่อสมมติฐานของการวิจัย และผู้วิจัยรู้สึกว่าค่าเหล่านี้ไม่ได้เป็นตัวแทนของประชากร ก็สามารถเลือกที่จะลบออกได้ อย่างไรก็ตาม ควรทำด้วยความระมัดระวัง และการลบควรมีเหตุผลและบันทึกไว้ด้วย
ในบางกรณีการแปลงข้อมูลสามารถลดผลกระทบจากค่าผิดปกติได้ เช่น การแทนที่ค่าผิดปกติด้วยค่าเฉลี่ย ค่ามัธยฐาน หรือฐานนิยม
วิธีทางสถิติบางอย่าง เช่น ค่ามัธยฐานหรือค่าพิสัยระหว่างควอไทล์ จะไม่ไวต่อค่าผิดปกติ เรียกได้ว่าแข็งแกร่งเพียงพอสามารถใช้เพื่อสรุปและวิเคราะห์ข้อมูลได้
ไม่ว่าการตัดสินใจใดๆ เกี่ยวกับการจัดการค่าผิดปกติ สิ่งสำคัญคือต้องบันทึกการจัดการหรือการแก้ปัญหากับค่าผิดปกติอย่างชัดเจนถึงสิ่งที่ทำและเหตุผลเพื่อความโปร่งใสและการทำซ้ำ
สิ่งสำคัญคือที่นักวิจัยต้องจำไว้ว่าก่อนที่จะตัดสินใจแปลงหรือลบค่าผิดปกติ เราควรเข้าใจก่อนว่าเหตุใดจึงมีค่านี้อยู่ และพิจารณาผลกระทบที่อาจเกิดขึ้นจากการลบหรือการแปลงค่าผิดปกติ
ในงานวิจัยเรื่องผลกระทบของโปรแกรมกวดวิชาใหม่ต่อคะแนนสอบของนักเรียน กลุ่มตัวอย่างคือนักเรียน 100 คน หลังจากวิเคราะห์คะแนนสอบ พบว่านักเรียนสองคนมีคะแนนสูงมาก ซึ่ง มีค่าเบี่ยงเบนมาตรฐานสูงกว่าค่าเฉลี่ยมากกว่า 3 ค่า ค่าเหล่านี้ดูเหมือนจะเป็นค่าผิดปกติและอาจบิดเบือนผลการวิเคราะห์ได้
เพื่อแก้ไขปัญหานี้ ขั้นแรกเราได้ตรวจสอบบริบทของค่าผิดปกติเหล่านี้เพื่อทำความเข้าใจว่ามีเหตุผลที่เป็นไปได้สำหรับค่าที่มากเกินไปเหล่านี้หรือไม่
เราพบว่านักเรียนสองคนนี้มีประสบการณ์การเรียนพิเศษในเนื้อหาวิชานี้มาก่อน ซึ่งอาจมีส่วนทำให้ได้คะแนนสูงเป็นพิเศษ
และเนื่องจากการศึกษานี้มีวัตถุประสงค์เพื่อประเมินผลของโปรแกรมกวดวิชาใหม่กับนักเรียนที่ไม่มีประสบการณ์ในวิชานี้มาก่อน นักวิจัยจึงตัดสินใจนำค่าผิดปกติเหล่านี้ออกจากชุดข้อมูล
ไม่มีความเห็น