ความเบ้ (Skewness) และความโด่ง (Kurtosis) คืออะไร ใช้บอกอะไรได้บ้าง


ความเบ้ (Skewness)

ความเบ้ คือการวัดความไม่สมมาตรของการแจกแจงความน่าจะเป็นของตัวแปร พูดง่ายๆ ก็คือ ความเบ้สามารถบอกเราได้ว่าข้อมูลของเราเอนเอียงไปด้านใดด้านหนึ่งมากกว่ากัน ซึ่งมีสองรูปแบบ คือ เบ้ทางขวา (Positive skewness) และเบ้ทางซ้าย (Negative skewness)

ข้อมูลที่เบ้ขวา - ความสัมพันธ์ของ ค่าเฉลี่ย ค่ามัธยฐาน และ ฐานนิยม

ในการแจกแจงแบบเบ้ในเชิงบวกหรือเบ้ขวา ค่าเฉลี่ยมักจะมากกว่าค่ามัธยฐาน ซึ่งมากกว่าค่าฐานนิยมเสมอ (ค่าเฉลี่ย > ค่ามัธยฐาน > ฐานนิยม) เป็นเพราะค่าผิดปกติทางด้านขวาของการกระจาย (ตัวเลขที่มากกว่า) ดึงค่าเฉลี่ยขึ้น 

ตัวอย่างเช่น การกระจายรายได้ หากเราต้องรวบรวมรายได้ต่อปีของทุกคนในประเทศหนึ่งๆ เราอาจพบว่าคนส่วนใหญ่มีรายได้ค่อนข้างน้อย ในขณะที่คนจำนวนน้อยมีรายได้มากกว่ามาก ทำให้การกระจายของข้อมูลส่วนใหญ่กระจุกตัวอยู่ทางซ้าย (รายได้ต่ำ) โดยมีหางยาวเหยียดออกไปทางขวา (รายได้สูง) 

ข้อมูลที่เบ้ซ้าย - ความสัมพันธ์ของ ค่าเฉลี่ย ค่ามัธยฐาน และ ฐานนิยม

ในการแจกแจงแบบเบ้เชิงลบหรือเบ้ซ้าย ค่าเฉลี่ยมักจะน้อยกว่าค่ามัธยฐาน ซึ่งน้อยกว่าค่าฐานนิยมเสมอ ค่าเฉลี่ย < ค่ามัธยฐาน < ฐานนิยม) เพราะค่าผิดปกติทางด้านซ้ายของการกระจาย (ตัวเลขที่น้อยกว่า) ดึงค่าเฉลี่ยลง 

ตัวอย่างเช่น คะแนนการสอบ นักเรียนส่วนใหญ่จะทำคะแนนได้เกือบ 100% โดยมีคะแนนต่ำกว่าอยู่เล็กน้อย สิ่งนี้สร้างการกระจายที่เบ้ไปทางซ้าย ข้อมูลส่วนใหญ่จะกระจุกตัวอยู่ทางขวา (คะแนนสูงกว่า) โดยมีหางยาวไปทางซ้าย (คะแนนต่ำกว่า)

แปลค่าความเบ้

หลักทั่วไปเวลาเราวิเคราะห์ค่าสถิติในตารางคือ 

  • หากความเบ้อยู่ระหว่าง -0.5 ถึง 0.5 ข้อมูลจะค่อนข้างสมมาตร 
  • หากความเบ้อยู่ระหว่าง -1 ถึง -0.5 หรือระหว่าง 0.5 ถึง 1 แสดงว่าข้อมูลมีความเบ้พอสมควร 
  • หากความเบ้น้อยกว่า -1 หรือมากกว่า 1 แสดงว่าข้อมูลมีความเบ้มาก

ความโด่ง (Kurtosis)

ความโด่งเป็นการดูลักษณะของความสุดโต่งของชุดข้อมูล ดูลักษณะของค่าผิดปกติ ความโด่งสูงมากกว่าความโด่งของการแจกแจงปกติ  (Leptokurtic Kurtosis) คือ หางข้อมูลหนัก ยอดสูง  ตัวอย่างเช่น การแจกแจงคะแนนสอบเมื่อนักเรียนส่วนใหญ่ทำคะแนนได้สูงมากหรือต่ำมาก โดยมีคนที่ได้คะแนนปานกลางเพียงเล็กน้อย

ในทางตรงกันข้าม ความโด่งต่ำกว่าความโด่งของการแจกแจงปกติ (Platykurtic Kurtosis) คือ จะมียอดแบน และมีหางบาง ตัวอย่างคือการกระจายอายุในกลุ่มคนที่หลากหลาย ซึ่งมีช่วงอายุที่หลากหลายและไม่มีข้อมูลหนักอยู่กับช่วงอายุใดช่วงอายุหนึ่ง

ความโด่งมีประโยชน์มากสำหรับการระบุว่าชุดข้อมูลอาจมีค่าผิดปกติหรือไม่ ความโด่งสูงอาจบ่งชี้ถึงค่าผิดปกติจำนวนมาก  และในบริบททางการเงินและการลงทุน ความโด่งสามารถช่วยประเมินความเสี่ยงได้ ความโด่งสูงอาจจะบ่งชี้ว่าความเสี่ยงที่สูงขึ้น

แปลค่าความโด่ง

โดยทั่วไปในการวิเคราะห์ค่าสถิติในตาราง 

  • หากค่าความโด่งมากกว่า +1 แสดงว่า ค่าความโด่งสูง 
  • ค่าความโด่งที่น้อยกว่า -1 บ่งชี้ว่าความโด่งแบนต่ำ 
  • ค่าที่ใกล้เคียงกับ 0 แสดงว่ามีการแจกแจงแบบปกติ

ตัวอย่างค่าสถิติ ความเบ้ และ ความโด่ง

--------------------------------------------------------------
| Variable |  n  | Mean  |  SD  | Skewness | Kurtosis |
--------------------------------------------------------------
| Math     | 200 | 78.25 | 15.3 |  -0.1    |  -0.2    |
| English  | 200 | 72.50 | 14.7 |   0.2    |   0.1    |
| Science  | 200 | 68.00 | 16.0 |   0.3    |   0.4    |
--------------------------------------------------------------
 

ความเบ้

  • สำหรับวิชาคณิตศาสตร์ ความเบ้คือ -0.1 ซึ่งบ่งชี้ว่าเบ้ไปทางซ้ายเล็กน้อย
  • สำหรับภาษาอังกฤษและวิทยาศาสตร์ ค่าความเบ้คือ 0.2 และ 0.3 ตามลำดับ ซึ่งบ่งชี้ว่าเบ้ขวาเล็กน้อย

ความโด่ง

  • ความโด่งเป็นลบเล็กน้อยสำหรับวิชาคณิตศาสตร์ (-0.2) บ่งชี้ว่าหางที่เบากว่าเล็กน้อย กล่าวคือ ค่าผิดปกติน้อยกว่าการแจกแจงแบบปกติ 
  • ค่าความโด่งในเชิงบวกเล็กน้อยสำหรับภาษาอังกฤษ (0.1) และวิทยาศาสตร์ (0.4) บ่งชี้ว่าหางที่หนักกว่าเล็กน้อย เช่น ค่าผิดปกติมากกว่าการแจกแจงแบบปกติ

 

หมายเลขบันทึก: 712806เขียนเมื่อ 17 พฤษภาคม 2023 21:20 น. ()แก้ไขเมื่อ 21 พฤษภาคม 2023 18:57 น. ()สัญญาอนุญาต: สงวนสิทธิ์ทุกประการจำนวนที่อ่านจำนวนที่อ่าน:


ความเห็น (1)

Now we come to check if our data (sampling, collection) is good enough to apply statistics that are based on the Central Limit Theorem (eg. : Student test, t-test, z-test, anova,… are valid only when the data is reasonably ‘normally distributed’ or ‘bell shaped’). This is ‘type 0 error’ - where data ‘is’/’is not’ ‘normal’.

[Once upon a time, I looked at a few ‘class satisfaction’ measure statistics and learned that data samples are collected by or in presence of the teachers whose subjects are the objects of statistical measurement – that is a mouthful ;-) – so, data is ‘under influence’ or not independent and always too skewed to be valid for ‘95% confidence that such and such… How many decisions have been made with this skewed-up statistical measure? I don’t know. But we have had many specialist appointments because data skewness (from ‘normal’) was not checked.]

Type 3 errors usually come in to make the stats look ‘normal’. How often have this happened? Again, I don’t know. But I think those who validate ‘researches’ should first ‘validate’ data sampling and collection for normalcy, skewness and kurtosis before believing other [normal] statistical results.

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท