สรุปจากการไปฟังบรรยายและฝึกอบรมเรื่อง – การประยุกต์สถิติเพื่อการวิจัยทางสารสนเทศศาสตร์ ซึ่งทางหลักสูตรสารสนเทศศาสตร์ มสธ. จัดขึ้น เมื่อวันเสาร์-อาทิตย์ที่ 25-26 พฤษภาคม 2556 โดยมี รศ.พวา พันธุ์เมฆา เป็นวิทยากรผู้สอน
[ เล่าต่อจาก ตอนที่ 1 ตอนที่ 2 และ ตอนที่ 3 ]
การหาความสัมพันธ์ของข้อมูล
ค่าสหสัมพันธ์ของเพียร์สัน : วัดความสัมพันธ์ของข้อมูล 2 รายการค่าสหสัมพันธ์ของสเปียร์แมน : ไม่ค่อยนิยมใช้การวิเคราะห์การถดถอย : วัดความสัมพันธ์ของข้อมูลมากกว่า 2 รายการ
การวิเคราะห์การถดถอย (Regression Analysis)
เป็นสถิติวัดความสัมพันธ์ระหว่างตัวแปร เพื่อต้องการทราบว่า ตัวแปรต้น (ตัวแปรอิสระ หรือตัวแปรพยากรณ์) มีผลต่อการเปลี่ยนแปลงของตัวแปรตามอย่างไร (สามารถใช้โปรแกรม SPSS หรือโปรแกรม OpenStat ในการวิเคราะห์) ถ้าศึกษาปัจจัยเดียว เรียกว่า Simple regression analysis แต่ถ้ามีหลายปัจจัย เรียกว่า การวิเคราะห์การถดถอยพหุคูณ (Multiple regression analysis)นิยมใช้มากในงานวิจัยทางธุรกิจ ตัวอย่างเช่น ต้องการวิเคราะห์ยอดขายของร้านค้า จำนวน 18 สาขา ว่าขึ้นกับปัจจัยอะไรบ้าง เช่น จำนวนพนักงานขาย ค่าโฆษณา ประสบการณ์ของผู้จัดการสาขา โดยทดสอบที่ระดับนัยสำคัญทางสถิติ 0.05การตั้งสมมุติฐาน จะตั้ง 2 ข้อ คือ 1. ความสัมพันธ์ (Correlation) 2. ส่งผล (Regression)ตัวแปรตาม (ยอดขาย) ต้องอยู่ในมาตรการวัดระดับ interval, ratio ขึ้นไป และต้องมีการแจกแจงแบบปกติ ตัวแปรต้นที่นำมาใช้พยากรณ์ไม่ควรมีความสัมพันธ์กันสูงเกินไป (>.80) เพราะถ้าเข้าใกล้ 1.00 แสดงว่าเกือบจะเป็นตัวแปรเดียวกัน ควรทดสอบตัวแปรต้นเป็นคู่ๆก่อน ด้วยคำสั่ง Bivariate correlation ในโปรแกรม SPSS
ขั้นตอนการวิเคราะห์ Regression analysis ด้วยโปรแกรม SPSS คือ
1. ตรวจสอบลักษณะความสัมพันธ์เบื้องต้นด้วยแผนภาพ Scatter Plot ระหว่างตัวแปรพยากรณ์ (แต่ละตัว) กับตัวแปรตาม โดยใช้ Spread Sheet
2. หาค่าสถิติเชิงพรรณนาของตัวแปรต่างๆ ได้แก่ ยอดขาย จำนวนพนักงานขาย ค่าโฆษณา ประสบการณ์ของผู้จัดการสาขา ตามต้องการ เช่น N, Mean, S.D., Kurtosis, Skewness, Range, Min, Max โดยใช้คำสั่ง Descriptive
3. ตรวจสอบความสัมพันธ์ระหว่างตัวแปรตาม และตัวแปรพยากรณ์แต่ละตัว โดยใช้คำสั่ง Bivariate correlation เปรียบเทียบค่า r กับตารางค่าวิกฤตของสหสัมพันธ์ของเพียร์สัน โดยนำจำนวนข้อมูล n ไปเปิดตารางที่ระดับนัยสำคัญ sig. (one-tailed) 0.05 หรือ 0.01 — ในที่นี้พบว่า ยอดขาย มีความสัมพันธ์กับจำนวนพนักงานขาย ค่าโฆษณา ประสบการณ์ของผู้จัดการสาขา อย่างมีนัยสำคัญทางสถิติ 4. หาความสัมพันธ์ระหว่างตัวแปรเพื่อการพยากรณ์ ด้วยคำสั่ง Linear regression อ่านผลการตรวจสอบ พบว่า ค่าความสัมพันธ์ระหว่างตัวแปรพยากรณ์ที่นำมาเข้าสมการกับตัวแปรตาม (Multiple Regression) = 0.87 ค่าสัมประสิทธิ์การทำนาย (R Square) = 0.76 ค่า Adjusted R Square = 0.72 (ปรับลดให้เหมาะสม เนื่องจาก N มีจำนวนน้อย) และจากตาราง ANOVA ทดสอบความสัมพันธ์ระหว่างตัวแปรตามกับตัวแปรพยากรณ์ทั้งสาม พบว่า Sig. = .00 จึงปฏิเสธสมมุติฐานหลัก H0 แสดงว่ามีตัวแปรพยากรณ์อย่างน้อย 1 ตัวที่นำมาพยากรณ์ยอดขายได้ ส่วนตาราง Coefficients พบว่า มีตัวแปรเดียวคือ จำนวนพนักงานขาย ที่มีค่า Sig. = .02 ดังนั้นจึงปฎิเสธสมมุติฐาน H0 — ให้นำไปเข้าสมการถดถอยใหม่อีกครั้ง5. นำตัวแปรพยากรณ์ (จำนวนพนักงานขาย) มาเข้าสมการถดถอยอีกครั้ง ได้ผลลัพธ์ดังนี้ Multiple R. = 0.83 R Square = 0.69 Adjusted R Square = 0.69 ตาราง ANOVA พบว่า Sig.=.00 จำนวนพนักงานขายมีความสัมพันธ์กับยอดขายอย่างมีนัยสำคัญ ตาราง Coeffients Sig.=.00 สรุปได้ว่า จำนวนพนักงานขาย สามารถนำมาพยากรณ์ยอดขายได้ โดยมีประสิทธิภาพของการพยากรณ์ (R Square) สูงถึง 69%
การตรวจสอบลักษณะของเส้นถดถอย (Regression line) ใช้คำสั่ง X Versus Y Plot ในโปรแกรม OpenStat ในการพยากรณ์ตัวแปรตาม (ยอดขาย) ด้วยการกำหนดค่าของตัวแปรพยากรณ์ (จำนวนพนักงานขาย) จากสมการถดถอยที่ได้ จะมีความแม่นยำเพียงใดนั้น ขึ้นอยู่กับข้อมูลที่รวบรวมมาว่ามีการกระจายไปจากเส้นถดถอยมากน้อยเพียงใด สถิติที่ใช้วัดการกระจายของข้อมูลรอบๆเส้นถดถอยนี้ เรียกว่า ความคลาดเคลื่อนมาตรฐานในการพยากรณ์ (Standard Error of Estimate : SEE) ถ้า SEE มีค่าน้อย แสดงว่ามีการถดถอยน้อย ถ้า SEE มากแสดงว่ามีการถดถอยมาก
[ อ่านต่อ ตอนที่ 5 ]