ความเบ้ (Skewness) และความโด่ง (Kurtosis) คืออะไร ใช้บอกอะไรได้บ้าง

ความเบ้ (Skewness)

ความเบ้ คือการวัดความไม่สมมาตรของการแจกแจงความน่าจะเป็นของตัวแปร พูดง่ายๆ ก็คือ ความเบ้สามารถบอกเราได้ว่าข้อมูลของเราเอนเอียงไปด้านใดด้านหนึ่งมากกว่ากัน ซึ่งมีสองรูปแบบ คือ เบ้ทางขวา (Positive skewness) และเบ้ทางซ้าย (Negative skewness)

ข้อมูลที่เบ้ขวา - ความสัมพันธ์ของ ค่าเฉลี่ย ค่ามัธยฐาน และ ฐานนิยม

ในการแจกแจงแบบเบ้ในเชิงบวกหรือเบ้ขวา ค่าเฉลี่ยมักจะมากกว่าค่ามัธยฐาน ซึ่งมากกว่าค่าฐานนิยมเสมอ (ค่าเฉลี่ย > ค่ามัธยฐาน > ฐานนิยม) เป็นเพราะค่าผิดปกติทางด้านขวาของการกระจาย (ตัวเลขที่มากกว่า) ดึงค่าเฉลี่ยขึ้น

ตัวอย่างเช่น การกระจายรายได้ หากเราต้องรวบรวมรายได้ต่อปีของทุกคนในประเทศหนึ่งๆ เราอาจพบว่าคนส่วนใหญ่มีรายได้ค่อนข้างน้อย ในขณะที่คนจำนวนน้อยมีรายได้มากกว่ามาก ทำให้การกระจายของข้อมูลส่วนใหญ่กระจุกตัวอยู่ทางซ้าย (รายได้ต่ำ) โดยมีหางยาวเหยียดออกไปทางขวา (รายได้สูง)

ข้อมูลที่เบ้ซ้าย - ความสัมพันธ์ของ ค่าเฉลี่ย ค่ามัธยฐาน และ ฐานนิยม

ในการแจกแจงแบบเบ้เชิงลบหรือเบ้ซ้าย ค่าเฉลี่ยมักจะน้อยกว่าค่ามัธยฐาน ซึ่งน้อยกว่าค่าฐานนิยมเสมอ ค่าเฉลี่ย < ค่ามัธยฐาน < ฐานนิยม) เพราะค่าผิดปกติทางด้านซ้ายของการกระจาย (ตัวเลขที่น้อยกว่า) ดึงค่าเฉลี่ยลง

ตัวอย่างเช่น คะแนนการสอบ นักเรียนส่วนใหญ่จะทำคะแนนได้เกือบ 100% โดยมีคะแนนต่ำกว่าอยู่เล็กน้อย สิ่งนี้สร้างการกระจายที่เบ้ไปทางซ้าย ข้อมูลส่วนใหญ่จะกระจุกตัวอยู่ทางขวา (คะแนนสูงกว่า) โดยมีหางยาวไปทางซ้าย (คะแนนต่ำกว่า)

แปลค่าความเบ้

หลักทั่วไปเวลาเราวิเคราะห์ค่าสถิติในตารางคือ

หากความเบ้อยู่ระหว่าง -0.5 ถึง 0.5 ข้อมูลจะค่อนข้างสมมาตร
หากความเบ้อยู่ระหว่าง -1 ถึง -0.5 หรือระหว่าง 0.5 ถึง 1 แสดงว่าข้อมูลมีความเบ้พอสมควร
หากความเบ้น้อยกว่า -1 หรือมากกว่า 1 แสดงว่าข้อมูลมีความเบ้มาก

ความโด่ง (Kurtosis)

ความโด่งเป็นการดูลักษณะของความสุดโต่งของชุดข้อมูล ดูลักษณะของค่าผิดปกติ ความโด่งสูงมากกว่าความโด่งของการแจกแจงปกติ (Leptokurtic Kurtosis) คือ หางข้อมูลหนัก ยอดสูง ตัวอย่างเช่น การแจกแจงคะแนนสอบเมื่อนักเรียนส่วนใหญ่ทำคะแนนได้สูงมากหรือต่ำมาก โดยมีคนที่ได้คะแนนปานกลางเพียงเล็กน้อย

ในทางตรงกันข้าม ความโด่งต่ำกว่าความโด่งของการแจกแจงปกติ (Platykurtic Kurtosis) คือ จะมียอดแบน และมีหางบาง ตัวอย่างคือการกระจายอายุในกลุ่มคนที่หลากหลาย ซึ่งมีช่วงอายุที่หลากหลายและไม่มีข้อมูลหนักอยู่กับช่วงอายุใดช่วงอายุหนึ่ง

ความโด่งมีประโยชน์มากสำหรับการระบุว่าชุดข้อมูลอาจมีค่าผิดปกติหรือไม่ ความโด่งสูงอาจบ่งชี้ถึงค่าผิดปกติจำนวนมาก และในบริบททางการเงินและการลงทุน ความโด่งสามารถช่วยประเมินความเสี่ยงได้ ความโด่งสูงอาจจะบ่งชี้ว่าความเสี่ยงที่สูงขึ้น

แปลค่าความโด่ง

โดยทั่วไปในการวิเคราะห์ค่าสถิติในตาราง

หากค่าความโด่งมากกว่า +1 แสดงว่า ค่าความโด่งสูง
ค่าความโด่งที่น้อยกว่า -1 บ่งชี้ว่าความโด่งแบนต่ำ
ค่าที่ใกล้เคียงกับ 0 แสดงว่ามีการแจกแจงแบบปกติ

ตัวอย่างค่าสถิติ ความเบ้ และ ความโด่ง

--------------------------------------------------------------
| Variable | n | Mean | SD | Skewness | Kurtosis |
--------------------------------------------------------------
| Math | 200 | 78.25 | 15.3 | -0.1 | -0.2 |
| English | 200 | 72.50 | 14.7 | 0.2 | 0.1 |
| Science | 200 | 68.00 | 16.0 | 0.3 | 0.4 |
--------------------------------------------------------------

ความเบ้

สำหรับวิชาคณิตศาสตร์ ความเบ้คือ -0.1 ซึ่งบ่งชี้ว่าเบ้ไปทางซ้ายเล็กน้อย
สำหรับภาษาอังกฤษและวิทยาศาสตร์ ค่าความเบ้คือ 0.2 และ 0.3 ตามลำดับ ซึ่งบ่งชี้ว่าเบ้ขวาเล็กน้อย

ความโด่ง

ความโด่งเป็นลบเล็กน้อยสำหรับวิชาคณิตศาสตร์ (-0.2) บ่งชี้ว่าหางที่เบากว่าเล็กน้อย กล่าวคือ ค่าผิดปกติน้อยกว่าการแจกแจงแบบปกติ
ค่าความโด่งในเชิงบวกเล็กน้อยสำหรับภาษาอังกฤษ (0.1) และวิทยาศาสตร์ (0.4) บ่งชี้ว่าหางที่หนักกว่าเล็กน้อย เช่น ค่าผิดปกติมากกว่าการแจกแจงแบบปกติ

Now we come to check if our data (sampling, collection) is good enough to apply statistics that are based on the Central Limit Theorem (eg. : Student test, t-test, z-test, anova,… are valid only when the data is reasonably ‘normally distributed’ or ‘bell shaped’). This is ‘type 0 error’ - where data ‘is’/’is not’ ‘normal’.

[Once upon a time, I looked at a few ‘class satisfaction’ measure statistics and learned that data samples are collected by or in presence of the teachers whose subjects are the objects of statistical measurement – that is a mouthful ;-) – so, data is ‘under influence’ or not independent and always too skewed to be valid for ‘95% confidence that such and such… How many decisions have been made with this skewed-up statistical measure? I don’t know. But we have had many specialist appointments because data skewness (from ‘normal’) was not checked.]

Type 3 errors usually come in to make the stats look ‘normal’. How often have this happened? Again, I don’t know. But I think those who validate ‘researches’ should first ‘validate’ data sampling and collection for normalcy, skewness and kurtosis before believing other [normal] statistical results.