คนไม่เชื่อใจ AI ตัดสินชีวิต: งานวิจัยเผยประชาชนต้องการ 'มนุษย์' ชี้ขาดเมื่ออัลกอริทึมไม่ลงรอยกัน

คณะนักวิจัยด้านวิทยาการคอมพิวเตอร์จากมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก และมหาวิทยาลัยวิสคอนซิน-แมดิสัน ชี้ให้เห็นว่า การพึ่งพาโมเดลการเรียนรู้ของเครื่อง (ML) เพียงตัวเดียวที่ถูกพิจารณาว่า “ดีที่สุด” ในการตัดสินใจที่มีผลกระทบสูง — เช่น การพิจารณาสินเชื่อ หรือการตัดสินใจรับเข้าทำงาน — อาจนำไปสู่การรับรู้ว่าการตัดสินใจนั้นไม่เป็นธรรมในสายตาประชาชน งานวิจัยนี้ ซึ่งนำเสนอในการประชุม ACM CHI 2025 ศึกษาทัศนคติของประชาชนทั่วไปในสถานการณ์ที่โมเดลการเรียนรู้ของเครื่องหลายตัว ให้ผลลัพธ์แตกต่างกันสำหรับผู้สมัครรายเดียวกัน ทั้งที่แต่ละโมเดลมีความแม่นยำสูง และพบว่าผู้เข้าร่วมการสำรวจคัดค้านการเลือกใช้โมเดลเดียวโดยไม่มีการอธิบาย รวมถึงการแก้ไขปัญหาด้วยการสุ่มผลลัพธ์ โดยส่วนใหญ่แล้ว ผู้เข้าร่วมต้องการให้มีการสำรวจโมเดลที่หลากหลายมากขึ้น มีความโปร่งใส และให้มนุษย์เป็นผู้ชี้ขาดเมื่อโมเดลเกิดความขัดแย้ง รายงาน UC San Diego และบทความของผู้เขียนเรื่อง Perceptions of the Fairness Impacts of Multiplicity in Machine Learning (CHI 2025) นำเสนอผลการทดลองและคำแนะนำโดยละเอียด

ทำไมเรื่องนี้จึงสำคัญสำหรับคนไทย

ระบบ ML ถูกนำมาใช้ในภาคส่วนที่มีความสำคัญสูงในประเทศไทยแล้ว เช่น การให้กู้ยืมเงินดิจิทัล การให้คะแนนเครดิตอัตโนมัติ แพลตฟอร์มสรรหางาน และการให้บริการภาครัฐ โดยหน่วยงานกำกับดูแลด้านการเงินของไทยกำลังเร่งร่างแนวทางบริหารความเสี่ยงด้าน AI อยู่ในขณะนี้ ซึ่งธนาคารกลางของไทย ได้เปิดรับฟังความคิดเห็นสาธารณะเกี่ยวกับร่างแนวทางบริหารความเสี่ยงด้าน AI สำหรับผู้ให้บริการทางการเงิน เมื่อช่วงกลางปี 2025 ซึ่งถือว่าสอดคล้องกับประเด็นสำคัญที่งานวิจัยนี้ชี้ให้เห็น สรุปร่างแนวทาง ธปท. โดย Tilleke & Gibbins หากภาคการกำหนดนโยบายและภาคอุตสาหกรรมละเลยประเด็น “multiplicity” — คือโมเดลหลายชุดที่แม้จะมีความแม่นยำใกล้เคียงกัน แต่ก็ให้ผลลัพธ์ที่แตกต่างกัน — ผู้ขอสินเชื่อ หรือผู้สมัครงานในประเทศไทย อาจได้รับผลการตัดสินใจที่ไม่สอดคล้องกัน เพียงเพราะองค์กรเลือกใช้โมเดลชุดใดชุดหนึ่งในการประมวลผล

พื้นคิดทางวิชาการ: ปรากฏการณ์ “Rashomon” ใน ML

งานวิจัยนี้ต่อยอดงานวิจัยเดิมที่ชี้ให้เห็นว่าในระบบการเรียนรู้ของเครื่อง มักมีโมเดลหลายชุดที่ให้ความแม่นยำใกล้เคียงกัน แต่กลับให้ผลการคาดการณ์ที่แตกต่างกันสำหรับแต่ละกรณีเฉพาะ งานวิจัยก่อนหน้านี้ได้เตือนว่า ปรากฏการณ์ multiplicity อาจแฝงเร้นความลำเอียงและนำไปสู่ผลลัพธ์ที่ไม่เป็นธรรมได้ แต่สำหรับงานวิจัยที่นำเสนอในการประชุม CHI ครั้งนี้ ได้ก้าวไปอีกขั้นด้วยการสอบถามประชาชนโดยตรงว่า ต้องการให้องค์กรต่างๆ จัดการกับสถานการณ์ที่โมเดลให้ผลลัพธ์ไม่ตรงกันอย่างไร งานวิจัยที่เกี่ยวข้องเรื่อง multiplicity

ผลการศึกษาสำคัญที่ควรทราบ

จากการทดลองหลายชุดกับผู้เข้าร่วมหลายพันคนสรุปว่า:

ประชาชนมีแนวโน้มที่จะต่อต้านแนวปฏิบัติในปัจจุบัน ที่เลือกใช้โมเดลเพียงตัวเดียวโดยไม่มีคำอธิบายใดๆ เมื่อมีโมเดลหลายชุดให้ผลลัพธ์ที่ขัดแย้งกัน
ผู้เข้าร่วมปฏิเสธการตัดสินใจด้วยวิธีการสุ่ม (เช่น การเลือกผลลัพธ์จากโมเดลด้วยการโยนเหรียญ) โดยเห็นว่าไม่เป็นที่ยอมรับได้ในบริบทที่มีผลกระทบสูง เช่น การพิจารณารับเข้าทำงาน หรือการให้สินเชื่อ
ประชาชนสนับสนุนมาตรการที่สามารถนำไปปฏิบัติได้จริง เช่น การสำรวจโมเดลที่หลากหลายมากขึ้น เพื่อค้นหาโมเดลที่สอดคล้องกับวัตถุประสงค์ด้านความเป็นธรรม รวมถึงการให้มนุษย์เข้ามาเป็นผู้ชี้ขาดเมื่อเกิดความขัดแย้ง แทนที่จะปล่อยให้การตัดสินใจเป็นเพียงเรื่องของอัลกอริทึมในกล่องดำ รายละเอียดจากบทความ CHI

ผลข้างเคียงต่อแนวปฏิบัติทางวิชาการและอุตสาหกรรม

ผลงานวิจัยนี้ท้าทายแนวปฏิบัติบางประการในวงการ ML ซึ่งมักเลือกใช้โมเดลที่ถูกพิจารณาว่า “ดีที่สุด” โดยอิงตามเมตริกต่างๆ โดยไม่ได้มีการตรวจสอบอย่างรอบด้านก่อนนำไปใช้งานจริง แม้จะมีบางแนวคิดในวงการที่เสนอให้ใช้วิธีการสุ่มเป็นทางออกที่เป็นกลาง แต่ผลการศึกษาเผยว่า ประชาชนทั่วไปมองว่าวิธีการสุ่มนั้นไม่ยุติธรรมและไม่ชอบธรรม เมื่อใช้ในการตัดสินใจที่มีผลกระทบสูง และคาดหวังให้องค์กรต่างๆ แสดงความรับผิดชอบต่อกระบวนการ และให้มนุษย์เข้ามาตรวจสอบทบทวนเมื่อผลลัพธ์มีความแตกต่างกัน

ข้อเสนอเชิงนโยบายและแนวปฏิบัติที่แนะนำสำหรับไทย

นักวิชาการและนักวิจัยเสนอแนวทางที่องค์กรต่างๆ ในประเทศไทยสามารถนำไปปรับใช้ได้ทันที เช่น:

ขยายขอบเขตการสำรวจโมเดล: ไม่ควรยึดติดกับโมเดล “ตัวเดียวที่ดีที่สุด” เพียงชุดเดียว แต่ควรสำรวจชุดโมเดลที่หลากหลาย (หรือ Rashomon set) เพื่อตรวจสอบว่ามีโมเดลอื่นที่ให้ผลลัพธ์และการกระจายตัวของผลลัพธ์ที่แตกต่างกันหรือไม่
ดำเนินการตรวจสอบ ‘multiplicity’ ในกระบวนการพัฒนา: ควรมีการวัดความผันผวนของผลลัพธ์ และค้นหากรณีที่การเลือกใช้โมเดลส่งผลให้ผลการตัดสินใจเปลี่ยนแปลงไปอย่างสิ้นเชิง
กำหนดให้มีการชี้ขาดโดยมนุษย์สำหรับกรณีที่มีผลกระทบสูง หรือกรณีที่ผลลัพธ์มีความก้ำกึ่ง: ควรมีขั้นตอนการตรวจสอบทบทวนที่โปร่งใสและสามารถตรวจสอบย้อนหลังได้
บันทึกและเปิดเผยกระบวนการตัดสินใจ: ควรแจ้งให้ผู้ที่ได้รับผลกระทบทราบว่ามีการพิจารณาโมเดลหลายชุดหรือไม่ และมีวิธีการแก้ไขความขัดแย้งของโมเดลอย่างไร

การนำแนวทางเหล่านี้ไปปรับใช้จะสอดคล้องกับข้อเสนอแนะในบทความ CHI และแนวปฏิบัติสากลด้านการกำกับดูแล AI ที่มีประสิทธิภาพ [บทความ CHI และงานวิจัย multiplicity](https:>; <https:)

คำแนะนำสำหรับผู้บริโภคและผู้สมัครในไทย

หากคุณถูกปฏิเสธจากระบบอัตโนมัติเมื่อยื่นขอสินเชื่อ สมัครงาน หรือสมัครเรียน ควรพิจารณาดำเนินการตามแนวทางดังต่อไปนี้:

สอบถามว่ามีการใช้ระบบอัลกอริทึมในการตัดสินใจหรือไม่ และกระบวนการใดที่ถูกนำมาใช้เพื่อตัดสินผลลัพธ์เมื่อโมเดลไม่สอดคล้องกัน
ร้องขอให้มีการตรวจสอบทบทวนโดยมนุษย์ และขอคำอธิบายที่ชัดเจนถึงเหตุผลเบื้องหลังการตัดสินใจนั้น
ใช้ช่องทางรับฟังความคิดเห็นสาธารณะ เช่น การแสดงความคิดเห็นต่อร่างแนวทางของธนาคารกลาง เพื่อเรียกร้องการคุ้มครองเชิงนโยบายในประเด็น multiplicity สรุปร่างแนวทาง ธปท. โดย Tilleke & Gibbins

ข้อควรระวังและคำถามที่ยังเปิดอยู่

แม้ว่างานวิจัยนี้จะสะท้อนความคาดหวังของสังคมต่อความเป็นธรรม แต่ก็ไม่ใช่กฎเกณฑ์ทางเทคนิคที่จะรับประกันความเป็นธรรมได้เสมอไป การสำรวจโมเดลที่หลากหลายมากขึ้นอาจช่วยเปิดโอกาสให้พบทางเลือกที่ยุติธรรมกว่า แต่ก็อาจเพิ่มความซับซ้อนและความเสี่ยงอื่นๆ เช่น ปัญหา overfitting (การเรียนรู้ข้อมูลมากเกินไปจนใช้กับข้อมูลใหม่ได้ไม่ดี) หรือความเปราะบางในการใช้งานจริง การให้มนุษย์เข้ามาเป็นผู้ชี้ขาดแม้จะช่วยลดความเป็นอัตโนมัติลง แต่ก็มีความเสี่ยงที่จะเกิดอคติและความไม่สม่ำเสมอ หากไม่มีแนวทางและกลไกการตรวจสอบที่ดี นักวิจัยด้านความเป็นธรรมของ ML ยังคงเดินหน้าพัฒนาวิธีการวัด multiplicity การเลือกโมเดลโดยคำนึงถึงความเป็นธรรม และการออกแบบกระบวนการชี้ขาดที่ผสานรวมคำอธิบายจากอัลกอริทึมเข้ากับการตัดสินใจของมนุษย์ [งานวิจัยที่เกี่ยวข้อง](https:>; <https:)

แนวทางต่อไปสำหรับไทย

การผสมผสานระหว่างความคาดหวังของประชาชน ผลงานวิจัยเชิงเทคนิค และแนวทางการกำกับดูแลของประเทศไทย จะเป็นตัวกำหนดทิศทางในการจัดการกับปัญหา multiplicity อย่างไร การที่ธนาคารกลางได้เปิดพื้นที่รับฟังความคิดเห็น ถือเป็นสัญญาณที่ดีอย่างยิ่ง หากข้อกำหนดขั้นสุดท้ายเน้นย้ำถึงความโปร่งใส การกำกับดูแล และบทบาทของมนุษย์ในการร่วมตัดสินใจในกรณีที่มีความเสี่ยงสูง รวมถึงการกำหนดให้มีการบันทึกการเลือกโมเดลและการตรวจสอบ multiplicity อย่างเป็นระบบ ธนาคารไทยอาจก้าวขึ้นเป็นต้นแบบระดับภูมิภาคในการใช้งาน AI อย่างมีความรับผิดชอบได้ ผู้พัฒนาระบบและบริษัทผู้จำหน่ายเทคโนโลยีจำเป็นต้องปรับปรุงวิธีการพัฒนาให้มีมาตรวัด multiplicity และมีอินเทอร์เฟซที่เอื้อให้ผู้ชี้ขาดซึ่งเป็นมนุษย์ สามารถทำความเข้าใจและแก้ไขความขัดแย้งได้อย่างมีประสิทธิภาพ ขณะเดียวกัน ผู้บริโภคเองก็ควรได้รับการให้ความรู้เกี่ยวกับสิทธิและขอบเขตของการตัดสินใจโดยอัลกอริทึม

สรุป

งานวิจัยที่นำเสนอในการประชุม CHI 2025 ซึ่งนำโดยทีมจากมหาวิทยาลัยแคลิฟอร์เนีย ซานดิเอโก และมหาวิทยาลัยวิสคอนซิน ได้เน้นย้ำถึงมิติทางสังคมของ AI ยุคใหม่: นั่นคือ ผู้คนคาดหวังความรับผิดชอบ ไม่ใช่การสุ่ม เมื่ออัลกอริทึมให้ผลลัพธ์ไม่สอดคล้องกัน สำหรับประเทศไทย ซึ่งมีการประยุกต์ใช้การเงินดิจิทัล บริการภาครัฐ และแพลตฟอร์มหางานที่กำลังเปลี่ยนแปลงวิถีชีวิตประจำวันของประชาชน ข้อสรุปที่ได้มีความชัดเจนว่า หน่วยงานกำกับดูแล สถาบันการเงิน นายจ้าง และผู้ออกแบบระบบ ควรขยายการสำรวจโมเดล กำหนดให้การตรวจสอบ multiplicity เป็นมาตรฐาน ให้มนุษย์เข้ามาตรวจสอบทบทวนในกรณีที่มีข้อพิพาท และมีความโปร่งใสกับผู้ที่ได้รับผลกระทบ ผู้บริโภคเองก็ควรใช้สิทธิในการขอคำอธิบายและขอการตรวจสอบทบทวนจากมนุษย์ เมื่อนำมาตรการเหล่านี้มาประยุกต์ใช้ร่วมกัน ระบบการเรียนรู้ของเครื่องก็จะมีโอกาสเป็นเครื่องมือที่ช่วยสนับสนุนการตัดสินใจที่เป็นธรรม สามารถอธิบายได้ และสอดคล้องกับบริบททางวัฒนธรรมของไทยมากยิ่งขึ้น

แหล่งข้อมูล

รายงานข่าว UC San Diego เกี่ยวกับบทความ CHI (today.ucsd.edu)
บทความก่อนพิมพ์และการประชุม CHI สำหรับ Perceptions of the Fairness Impacts of Multiplicity in Machine Learning (arXiv abstract, ACM DL entry)
วรรณกรรมกว้างขึ้นเกี่ยวกับ Rashomon/multiplicity และความเป็นธรรม (arXiv multiplicity paper, NeurIPS analysis of the Rashomon effect)
การรายงานเกี่ยวกับร่างแนวทางการจัดการความเสี่ยง AI สำหรับภาคการเงินของธนาคารแห่งประเทศไทย (Tilleke & Gibbins summary)</https:></https:></https:></https:>