บทเขียนวิชาการ 2
ตามที่ผมตั้งใจว่าจะเขียนปริทัศน์หนังสือไปเรื่อยๆ แทรกกับบทเขียนที่สนใจนั้น พอดีวันนี้เขียนเสร็จอีกหนึ่งเรื่องคือความเขาใจที่สำคัญเกี่ยวกับการถดถอยพหุคูณ และเป็นบทเขียนที่ได้แนวคิดจากหนังสือหลายเล่ม จึงเขียนเป็นบทเขียนมากกว่า ปริทัศน์หนังสือ แต่ยังเขียนเป็นบทเขียนแล้วค่อย post เพราะเคยเขียนโดยตรง พอจะส่งขึ้นลบหายไปหมดครับ และวันนี้ทดลองแบบใหม่คือ copy มาวาง ซึ่งก็ใช้ได้ เอาแบบนี้อำนวยความสะดวแก่ผู้อ่านดีครับ
การวิเคราะห์การถดถอยพหุคูณ (Multiple Regression Analysis)
ศ. ดร. สมาน อัศวภูมิ (21 สิงหาคม 2567)
ที่มาของเรื่อง
สิ่งที่พบบ่อยในการอ่านงานวิจัยในประเทศไทยคือ เราให้คุณค่าและความสำคัญกับความถูกต้องของการใช้สถิติมากกว่าที่มาของข้อมูลที่นำมาใช้ในการคำนวณค่าสถิติ ซึ่งผมเห็นว่าเป็นอันตรายอย่างยิ่งในการบริโภคข้อค้นพบจากการวิจัยเพราะคนส่วนใหญ่จะเชื่อผลการวิจัยและค่าสถิติที่นำเสนอในผลการวิจัย โดยเฉพาะการวิจัยที่มีกานำใช้สถิติขั้นสูง ซึ่งจริงๆ แล้วค่าสถิติเป็นเพียงค่าตัวเลขที่ประมวลได้จากวิธีการทางสถิติตามวัตถุประสงค์ของสถติตัวนั้นๆ เท่านั้น หมายความว่าค่าสถิติที่คำนวณได้นั้นไม่ใช่หลักประกันในเชิงความถูกต้องและคุณค่าของผลการวิจัย หัวใจสำคัญของวิธีการทางสถิติอยู่ที่ข้อมูลที่นำมาป้อนเพื่อการคำนวณค่าสถิติว่าถูกต้องและน่าเชื่อถือหรือไม่เพียงใด ดังวลีเด็ดของการคำนวณค่าสถิติที่ว่า ‘Garbage in, Garbage out หรือเมื่อเราป้อนขยะข้อไปเพื่อคำนวณค่าสถิติ ผลออกมาก็คือได้ค่าสถิติที่เป็นขยะออกมา’ เท่านั้นเอง และบทเขียนนี้ เขียนขึ้นเพื่อเป็นข้อเตือนใจสำหรับลูกศิษย์และผู้สนใจให้ระมัดระวังเรื่องนี้เป็นพิเศษ ครับ หาไม่แล้วเราก็จะเป็นอีกคนที่เพิ่มขยะทางการวิจัยเข้าไปในชุมชนวิชาการ และที่สำคัญกว่านั้นก็จะทำให้เข้าใจผิดๆ ในผลข้อค้นพบในการวิจัยได้ครับ
ความเข้าใจเกี่ยวกับการถดถอยพหุคูณ
การวิเคราะห์ทดถอยพหุคูณเป็นวิธีการวิเคราะห์ทางสถิติที่นักวิชาการและนักวิจัยนิยมใช้เพิ่มคุณค่าของผลการวิจัยสหสัมพันธ์ คือหลังจากที่พบว่าตัวแปรที่ศึกษามีระดับความสำคัญกันค่อนข้างสูง ตามเกณฑ์ที่ตั้งไว้ ผู้วิจัยก็จะทำการวิเคราะห์การถดถอยพหุคูณต่อเพื่อการพยากรณ์ความสัมพันธ์ของตัวแปรที่เชื่อว่าเป็นตัวแปรที่มีอิทธิพลต่อตัวแปลผล และสร้างสมการพยากรณ์ผลดังกล่าว ซึ่งในการออกแบบการวิจัยนั้นผู้วิจัยอาจจะมีวัตถุประสงค์เพื่อการศึกษาปัจจัยที่มีอิทธิพลต่อตัวแปรผลตั้งต้นก็ได้ ถ้ามีข้อมูลเพียงพอที่จะตั้งวัตถุประสงค์ดังกล่าว หรือผู้วิจัยอาจจะเพิ่มวัตถุประสงค์ภายหลังที่พบกว่าตัวแปรที่ศึกษามีความสัมพันธ์กันสูง และเชื่อว่าตัวแปรตัวใดตัวหนึ่ง หรือหลายตัวน่าจะมีอธิพลต่อตัวแปรอีกตัว ซึ่งผู้วิจัยก็ควรศึกษาวรรณกรรมเพิ่มเพื่อสนับสนุนการเพิ่มวัตถุประสงค์ดังกล่าว ส่วนการวิเคราะห์ความสัมพันธ์ชิงสาเหตุว่าตัวแปรต้นจะเป็นสาเหตุของตัวแปรตามมากน้อยเพียงใดนั้นต้องออกแบบการวิจัยเป็นการวิจัยเชิงทดลอง หรือการวิจัยแบบสืบย้อนเท่านั้น เพราะความสัมพันธ์ที่พบจากการวิจัยหสัมพันธ์เบื้องต้น หรือสหสัมพันธ์พยากรณ์นั้นเป็นเพียงการแปรผันร่วมกันระหว่างชุดของตัวแปรที่ศึกษา ไม่ใช่ตัวแปรเชิงสาเหตุระหว่างกันแต่ประการใดครับ
ผมเคยเขียนและพูดไว้หลายครั้งแล้วว่าในการศึกษาหสัมพันธ์ (Correlation studies) ว่าวัตถุประสงค์หลักของการศึกษาสหสัมพันธ์คือการค้นหาความสัมพันธ์ระหว่างตัวแปรสองตัว หรือหลายตัวที่ศึกษา มีสองลักษณะใหญ่ๆ คือ การศึกษาหสัมพันธ์เชิงอธิบาย (Explanatory studies) กับการศึกษาสหสัมพันธ์เชิงพยากรณ์ คือนอกจากจะอธิบายความสัมพันธ์ระหว่างตัวแปรที่ศึกษาแล้วยังสร้างสมการพยากรณ์ตัวแปรที่เชื่อ่ว่ามีอิทธิพลต่อตัวแปรผล (Prediction studies) ด้วยการพยากรณ์อย่างง่าย คือการพยากรณ์ที่มีตัวแปรพยากรณ์ 1 ตัว (Single predictors) ซึ่งใช้การวิเคราะห์การถดถอยอย่างง่าย (Simple regression) กับการพยากรณ์ที่ซับซ้อนมากขึ้น คือมีตัวแปรพยากรณ์ 2 ตัวขึ้นไป (Multiple predictors) ซึ่งใช้วิธีการวิเคราะห์การถดถอยพหุคูณ (Multiple regression) ซึ่งเป็นหัวข้อของบทเขียนนี้นั่นเอง
ไม่ว่าจะเป็นการศึกษาสหสัมพันธ์แบบไหน หรือจะสร้างสมมการพยากร์อย่างง่าย หรือซับซ้อนก็ตาม นักวิชาการไม่นิยมเรียกตัวแปรที่เชื่อว่าจะมีอิทธิพลต่อตัวแปรผลว่า ‘ตัวแปรต้น หรือตัวแปรอิสระ (Independent variables)’ แต่จะเรียกว่า ‘ตัวแปรพยากรณ์ (Predictor variables)’ ส่วนตัวแปรที่เชื่อว่าจะแปรไปตามตัวแปรพยากรณ์ หรือตัวแปลผล (Outcome variables) ก็ไม่นิยมเรียกว่า ‘ตัวแปรตาม (Dependent variables)’ แต่จะเรียกว่า ‘ตัวแปรผล (Outcome variables หรือ ตัวแปรเกณฑ์ (Criterion variables)’ อย่างไรก็ตามก็มีหนังสือ หรือตำราวิจัยหลายเล่มใช้ ‘ตัวแปรต้น และตัวแปรตาม’ ซึ่งก็ไม่ผิดอะไร ขอเพียงให้เข้าใจว่าเป็นแค่ตัวแปรที่มีแบบแผนการแปรผันร่วมกันไปในทิศทางใดทิศทางหนึ่งเท่านั้น ไม่ใช่ ‘ตัวแปรเชิงสาเหตุ (Causal variables)’ ระหว่างตัวแปรต้นที่เป็นสาเหตุทำให้เกิดผลอย่างใดอย่างหนึ่งกับตัวแปรตาม ซึ่งถ้าผู้วิจัยสนใจจะการศึกษาปัจจัยเชิงสาเหตุแล้ว ต้องออกแบบการวิจัยเชิงทดลอง (Experimental research) หรืออย่างน้อยก็เป็นการวิจัยแบบสืบย้อน (Ex-post facto research) เท่านั้น ซึ่งจริงๆ แล้วนักวิชาการและนักวิจัยหลายท่านก็ยังเห็นว่าการวิจัยแบบสืบย้อนนั้นก็ยังไม่ใช่วิธีการวิจัยเชิงสาเหตุที่แท้จริงด้วย เพราะยังขาดการควบคุมตัวแปรอื่นที่อาจจะส่งผลต่อตัวแปรตาม แต่เป็นการศึกษาปัจจัยเชิงสาเหตุตามสภาพจริงที่เกิดขึ้นมาก่อนแล้วเท่านั้น
ในการวิจัยสหสัมพันธ์นั้น ไม่ว่าจะเป็นการศึกษาสหสัมพันธ์ทั่วไป หรือสหสัมพันธ์เพื่อการพยากรณ์ หรือสหสัมพันธ์เชิงสาเหตุก็ตาม หัวใจสำคัญคือ ‘ตัวแปรที่จะนำมาศึกษาความสัมพันธ์กันต้องเป็นตัวแปลของ หรือเกี่ยวข้องกับหน่วยวิเคราะห์เดียวกัน’ เช่น ความสูง และนำหนักตัวของ ของคนแต่ละคนที่เป็นกลุ่มตัวอย่างในการศึกษา หรือวิธีสอนของครูกับผลสัมฤทธิ์ทางการเรียนของนักเรียนแต่ละคนที่เรียนโดยวิธีสอนที่ทดลองสอน หรือ คะแนนเฉลี่ยระดับมัธยมศึกษาตอนปลาย ระดับการศึกษาของผู้ปกครอง และคะแนนความถนัดทางการเรียน กับคะแนนเฉลี่ยในการศึกษาระดับมหาวิทยาลัยของนักศึกษาแต่ละคนที่ใช้เป็นกลุ่มตัวอย่างในการศึกษา หรือ รายได้ประชาชาติของประเทศ รายได้จากการส่งออก และรายจ่ายในการนำเข้าสินค้าของแต่ละประเทศในช่วงไตรมาสแรกของปี กับความพึงพอใจของประชาชนต่อการบริหารประเทศ ของประเทศที่ใช้เป็นกลุ่มตัวอย่างในการศึกษา เป็นต้น ไม่ใช่ชุดตัวเลขสอง หรือสามชุด จากไหน หรืออะไรก็ได้ก็นำมาใช้ในการศึกษาสหสัมพันธ์กันได้
ที่พบบ่อยในการอ่านงานวิทยานิพนธ์ของนักศึกษา หรือผลงานวิชาการของคณาจารย์บางท่านคือมีปัญหาทั้งหน่วยวิเคราะห์ในการศึกษา และตัวแปรที่นำมาใช้ในการศึกษา เช่น หน่วยวิเคราะห์ในการศึกษาเป็นสถานศึกษา แต่ใช้ข้อมูลที่ได้จากการตอบแบบสอบถามของผู้ให้ข้อมูลแต่ละคนในการวิเคราะห์ นักศึกษาตั้งโจทย์การวิจัยว่า ‘ภาวะผู้นำการเปลี่ยนแปลงของผู้บริหารสถานศึกษากับความพึงพอใจในการปฏิบัติงานของครู’ ซึ่งถ้าหัวข้อในการวิจัยเป็นแบบนี้ หน่วยในการวิเคราะห์คือ ‘สถานศึกษา’ ส่วนผู้ให้ข้อมูลสำคัญของสถานศึกษาแต่ละแห่งจะประกอบด้วยใครบ้างก็แล้วแต่ผู้ออกแบบการวิจัยจะเห็นว่าจะเป็นผู้ให้ข้อมูลทั้งสองเรื่องได้ดีที่สุด ถ้าจากการทบทวนวรรณกรรมพบว่าในการศึกษาความสัมพันธ์ลักษณะนี้ผู้ให้ข้อมูลสำคัญที่ดีที่สุดคือผู้บริหารและครู ผู้บริหารและครูก็คือผู้ให้ข้อมูลสำคัญ และที่สำคัญกว่านั้นคือหลังจากที่ได้ข้อมูลมาแล้ว ผู้วิจัยต้องนำข้อมูลที่ได้มาหาค่าเฉลี่ยของแต่ละตัวแปรและของแต่ละโรงเรียนให้ตัวแปรแต่ละตัวมีค่าเดียว คือ ‘ภาวะผู้นำการเปลี่ยนแปลงของผู้บริหารตามการรับรู้ของผู้บริหารและครู กับความพึงพอใจในการรปฏิบัติงานของครูตามกับรับรู้ของผู้บริหารและครู’ แล้วค่อยนำค่าที่ได้ของทุกโรงเรียนไปวิเคราะห์ต่อไป แต่ถ้าผู้วิจัยต้องการศึกษาเฉพาะการรับรู้ของครูต่อภาวะผู้นำการเปลี่ยนแปลงของผู้บริหารกับความพึงพอใจในการปฏิบัติงานของครู ผู้ตอบแบบสอบถามเป็นครูที่ใช้เป็นกลุ่มตัวอย่างก็ได้ หน่วยวิเคราะห์คือ ‘ครู’ เพื่อศึกษาว่าความสัมพันธ์ระหว่างภาวะผู้นำการเปลี่ยนแปลงของผู้บริหารตามการรับรู้ของครูกับความพึงพอใจในการปฏิบัติงานของครูเป็นอย่างไร เป็นต้น
นี่คือจุดเริ่มต้นที่สำคัญของการทำวิจัยสหสัมพันธ์ ไม่ว่าจะเป็นสหสัมพันธ์ทั่วไป หรือสหสัมพันธ์พยากรณ์ก็ตาม ส่วนการวิจัยปัจจัยอาจจะใช้หลักเดียวกันกับการวิจัยสหสัมพันธ์ที่กล่าวมาข้างต้นก็ได้ ในกรณีที่ผู้วิจัยต้องการศึกษาปัจจัยเพื่ออธิบายผลในเชิงความสัมพันธ์กัน เช่น กรณีการศึกษาปัจจัยที่ส่งผลต่อความพึงพอใจของประชาชนต่อการบริหารประเทศของรัฐบาล แต่การวิจัยปัจจัยมีจุดมุ่งหมายที่แตกต่างไปจากการศึกษาหสัมพันธ์ ซึ่งผมเขียนเกี่ยวกับเรื่องนี้อีกครั้งหนึ่งครับ อย่างไรก็ตามการวิจัยปัจจัยนอกจากจะอธิบายปัจจัยของหน่วยวิเคราะห์เดียวกันแล้ว การวิจัยปัจจัยยังเปิดกว้างในมีการศึกษาตัวแปรอย่างไม่จำกัดเพื่อหาคำอธิบายความสัมพันธ์ของตัวแปรเหล่านั้น ทั้งที่เป็นตัวแปรที่สังเกตได้ และตัวแปรแฝง ซึ่งผมเรียกกาวิจัยแบบนี้ว่าเป็นการศึกษาปัจจัยเชิงทฤษฎี ผู้สนใจสมารถหาอ่านได้จากบทเขียนของผมใน GotoKnow บทก่อนๆ นี้ ครับ
สิ่งที่พึงระวังในการวิเคราะห์การถดถอยพหุคูณ
ซึ่งที่พึงระวังในการวิเคราะห์การถดถอยพหุคุณก็คล้ายกับการวิจัยสหสัมพันธ์แบบอื่น คือ ความสัมพันธ์ที่พบจากการวิเคราะห์ข้อมูลเป็นเพียงการแปรผันร่วมของตัวแปรที่ศึกษา ไม่ใช่ความสัมพันธ์เชิงสาเหตุ จึงไม่สามารถกล่าวอ้างได้ว่าตัวแปรพยากรณ์ (Predictor variables) เป็นสาเหตุทำให้เกิดผลในตัวแปรผล (Outcome หรือ Criterion variables)
อีกประการหนึ่งการทดสอบความมีนัยสำคัญของการวิเคราะห์การถดพหุคูณไม่ใช่ตัวบ่งชี้ว่าความสัมพันธ์ที่พบระหว่างตัวแปรพยากรณ์กับตัวแปรเกณฑ์นั้นมีความสำคัญมาก หรือน้อย หรือสมมการณ์พยากรณ์ที่สร้างขึ้นมีระดับความสำคัญมาก หรือน้อยตามระดับความสำคัญทางสถิติที่ทดสอบ แต่ระดับความมีสำคัญของการทดสอบความมีนัยสำคัญทางสถิติเป็นเพียงข้อมูลที่ชี้ว่า ‘ข้อค้นพบในการวิจัยโดยใช้กลุ่มตัวอย่างในการวิจัยครั้งนั้นมีความน่าจะเป็นร้อยละเท่าใด เช่น ถ้าระดับนัยสำคัญที่ทดสอบคือ .01 และผลการทดสอบพบว่ามีนัยสำคัญทางสถิติที่ .01 จริง ก็อนุมาณได้ว่าในการวิจัย 100 ครั้งน่าจะได้ผลเช่นนี้ร้อยละ 99 นั่นเอง
ประการสุดท้าย ตัวแปรผล (Outcome variables) หรือตัวแปรเกณฑ์ (Criterionvariable) ในการศึกษาจะมีเพียงตัวเดียว (Single variable) เท่านั้น แต่ผู้วิจัยอาจจะวัดค่าตัวแปรเกณฑ์ดังกล่าวจากหลายตัวแปรย่อยได้ แต่ผู้วิจัยต้องประมวลผลที่วัดได้ทั้งหมดเป็นค่าเดียวเพื่อใช้ในการหาความสัมพันธ์กับตัวแปรพยากรณ์ที่ศึกษา และเพื่อการสร้างสมมการณ์พยากรณ์ในการศึกษาครั้งนั้น แต่ถ้าผู้วิจัยสนใจจะศึกษาตัวแปรพยากรณ์หลายตัว กับตัวแปรเกณฑ์หลายตัว ต้องออกแบบวิธีวิจัยและเลือกวิธีวิเคราะห์ข้อมูลที่เรียกกว่า Cononical Analysis ครับ
บทสรุปและความเห็นท้ายเรื่อง
บทเขียนนี้นำเสนอความเข้าใจและข้อความระวังเบื้องต้นเกี่ยวกับการวิเคราะห์พหุคูณถดถอยเท่านั้น แต่ก็หวังว่าจะช่วยให้นักศึกษาและผู้สนใจมีความระมัดระวัง และทำการวิจัยสหสัมพันธ์ได้ถูกหลักวิชามากขึ้น และที่สำคัญคือเราจะได้เป็นอีกคนหนึ่งที่เพิ่มขยะทางการวิจัย และอาจจะสื่อผลการวิจัยที่ไม่ถูกต้อง ซึ่งอาจจะสร้างความเข้าใจผิดๆ หรือสร้างอันตรายต่อเนื่องอื่นๆ ได้ สำหรับท่านที่สนใจอาจจะศึกษาเพิ่มเติมจากหนังสือประกอบการค้นคว้าท้ายบทเขียนได้ครับ
หนังสือประกอบการค้นคว้า
Allison, P.D. (1999). Multiple Regression: A Primer. California: Pine Forge Press.
Ary, D. Jacobs, L.C. Razvieh, A. & Sorensen, C. (2006). Introctuction to Reasearch in Education. Australia: Thomson Wadsworth.
Creswell, J.W. (2008). Educational Research: Planning, Conducting, and Evaluating Quantitative and Qualitative Research, 3rd ed. New Jersey: McGrawhill.
Fraenkel, J.R. & Wallen, N.E. (2006). How to Design and Evaluate Research in Education, 6th ed. Boston: McGrawhill.
Petscher, Y., Schatscheneider, C. & Comton, D.L. (2013). Applied Quantitative Analysis in Education and the Social Science. New York: Routledge.
………….
May I show a sinful use of statistics in school (teaching) research?
เรียนเลข ม.๑ (เลขจำนวนเต็ม) https://www.gotoknow.org/posts/718933
It is unfortunate that this (use of statistics) is very common (albeit incorrect) and may be a template for promotion for researchers. I would be little surprised if this is a model for fast-lane career advancement that benefits no children nor communities.
ผมว่าคล้ายกับว่า…สิ่งนี้มี สิงนี้จึงมี มีเมฆ จึงมีฝน ไม่มีเมฆ ก็ไม่มีฝน วิธีการไม่ดี ผลทดลองก็ไม่ดี…วิโรจน์ ครับ