ความเบ้ คือการวัดความไม่สมมาตรของการแจกแจงความน่าจะเป็นของตัวแปร พูดง่ายๆ ก็คือ ความเบ้สามารถบอกเราได้ว่าข้อมูลของเราเอนเอียงไปด้านใดด้านหนึ่งมากกว่ากัน ซึ่งมีสองรูปแบบ คือ เบ้ทางขวา (Positive skewness) และเบ้ทางซ้าย (Negative skewness)
ในการแจกแจงแบบเบ้ในเชิงบวกหรือเบ้ขวา ค่าเฉลี่ยมักจะมากกว่าค่ามัธยฐาน ซึ่งมากกว่าค่าฐานนิยมเสมอ (ค่าเฉลี่ย > ค่ามัธยฐาน > ฐานนิยม) เป็นเพราะค่าผิดปกติทางด้านขวาของการกระจาย (ตัวเลขที่มากกว่า) ดึงค่าเฉลี่ยขึ้น
ตัวอย่างเช่น การกระจายรายได้ หากเราต้องรวบรวมรายได้ต่อปีของทุกคนในประเทศหนึ่งๆ เราอาจพบว่าคนส่วนใหญ่มีรายได้ค่อนข้างน้อย ในขณะที่คนจำนวนน้อยมีรายได้มากกว่ามาก ทำให้การกระจายของข้อมูลส่วนใหญ่กระจุกตัวอยู่ทางซ้าย (รายได้ต่ำ) โดยมีหางยาวเหยียดออกไปทางขวา (รายได้สูง)
ในการแจกแจงแบบเบ้เชิงลบหรือเบ้ซ้าย ค่าเฉลี่ยมักจะน้อยกว่าค่ามัธยฐาน ซึ่งน้อยกว่าค่าฐานนิยมเสมอ ค่าเฉลี่ย < ค่ามัธยฐาน < ฐานนิยม) เพราะค่าผิดปกติทางด้านซ้ายของการกระจาย (ตัวเลขที่น้อยกว่า) ดึงค่าเฉลี่ยลง
ตัวอย่างเช่น คะแนนการสอบ นักเรียนส่วนใหญ่จะทำคะแนนได้เกือบ 100% โดยมีคะแนนต่ำกว่าอยู่เล็กน้อย สิ่งนี้สร้างการกระจายที่เบ้ไปทางซ้าย ข้อมูลส่วนใหญ่จะกระจุกตัวอยู่ทางขวา (คะแนนสูงกว่า) โดยมีหางยาวไปทางซ้าย (คะแนนต่ำกว่า)
หลักทั่วไปเวลาเราวิเคราะห์ค่าสถิติในตารางคือ
ความโด่งเป็นการดูลักษณะของความสุดโต่งของชุดข้อมูล ดูลักษณะของค่าผิดปกติ ความโด่งสูงมากกว่าความโด่งของการแจกแจงปกติ (Leptokurtic Kurtosis) คือ หางข้อมูลหนัก ยอดสูง ตัวอย่างเช่น การแจกแจงคะแนนสอบเมื่อนักเรียนส่วนใหญ่ทำคะแนนได้สูงมากหรือต่ำมาก โดยมีคนที่ได้คะแนนปานกลางเพียงเล็กน้อย
ในทางตรงกันข้าม ความโด่งต่ำกว่าความโด่งของการแจกแจงปกติ (Platykurtic Kurtosis) คือ จะมียอดแบน และมีหางบาง ตัวอย่างคือการกระจายอายุในกลุ่มคนที่หลากหลาย ซึ่งมีช่วงอายุที่หลากหลายและไม่มีข้อมูลหนักอยู่กับช่วงอายุใดช่วงอายุหนึ่ง
ความโด่งมีประโยชน์มากสำหรับการระบุว่าชุดข้อมูลอาจมีค่าผิดปกติหรือไม่ ความโด่งสูงอาจบ่งชี้ถึงค่าผิดปกติจำนวนมาก และในบริบททางการเงินและการลงทุน ความโด่งสามารถช่วยประเมินความเสี่ยงได้ ความโด่งสูงอาจจะบ่งชี้ว่าความเสี่ยงที่สูงขึ้น
โดยทั่วไปในการวิเคราะห์ค่าสถิติในตาราง
--------------------------------------------------------------
| Variable | n | Mean | SD | Skewness | Kurtosis |
--------------------------------------------------------------
| Math | 200 | 78.25 | 15.3 | -0.1 | -0.2 |
| English | 200 | 72.50 | 14.7 | 0.2 | 0.1 |
| Science | 200 | 68.00 | 16.0 | 0.3 | 0.4 |
--------------------------------------------------------------
Now we come to check if our data (sampling, collection) is good enough to apply statistics that are based on the Central Limit Theorem (eg. : Student test, t-test, z-test, anova,… are valid only when the data is reasonably ‘normally distributed’ or ‘bell shaped’). This is ‘type 0 error’ - where data ‘is’/’is not’ ‘normal’.
[Once upon a time, I looked at a few ‘class satisfaction’ measure statistics and learned that data samples are collected by or in presence of the teachers whose subjects are the objects of statistical measurement – that is a mouthful ;-) – so, data is ‘under influence’ or not independent and always too skewed to be valid for ‘95% confidence that such and such… How many decisions have been made with this skewed-up statistical measure? I don’t know. But we have had many specialist appointments because data skewness (from ‘normal’) was not checked.]
Type 3 errors usually come in to make the stats look ‘normal’. How often have this happened? Again, I don’t know. But I think those who validate ‘researches’ should first ‘validate’ data sampling and collection for normalcy, skewness and kurtosis before believing other [normal] statistical results.