เที่ยงวันอาทิตย์ที่ ๒๙ มีนาคม ๒๕๖๙ ผมได้รู้จักคำว่า RLHF – Reinforcement Learning from Human Feedback เป็นครั้งแรก จึงกลับมาถามสหายเอไอว่า “RLHF - Reinforcement Learning from Human Feedback ที่ใช้ฝึก AI ควรนำมาใช้หนุนการเรียนรู้ของมนุษย์บ้างหรือไม่ เพื่อหนุนให้เกิดการเรียนรู้ที่ลึกและเชื่อมโยงยิ่งขึ้น” ได้รับคำตอบจากสหายเจมีไนดังนี้
Gemini
เป็นมุมมองที่เฉียบคมและน่าสนใจมากครับ ในความเป็นจริงแล้ว ต้องบอกว่า AI ต่างหากที่ขอยืมแนวคิดนี้ไปจากมนุษย์ เพราะรากฐานของกระบวนการ Reinforcement Learning (การเรียนรู้แบบเสริมกำลัง) มีต้นกำเนิดมาจากทฤษฎีทางจิตวิทยาพฤติกรรมนิยม (Behaviorism) ของมนุษย์และสัตว์ที่เน้นเรื่อง "การให้รางวัลและการลงโทษ"
Shutterstock
แต่เมื่อเรานำกรอบคิดแบบ RLHF (Reinforcement Learning from Human Feedback) ของ AI กลับมาประยุกต์ใช้เพื่อยกระดับการเรียนรู้ของมนุษย์ยุคใหม่ให้ "ลึกซึ้งและเชื่อมโยง" มากขึ้น ถือเป็นแนวทางที่ทรงพลังมาก หากนำมาใช้อย่างถูกต้อง ลองมาดูว่าเราจะเทียบเคียงและนำมาใช้ได้อย่างไรบ้าง:
1. จาก "ท่องจำ" สู่ "ความเข้าใจเชิงบริบท" (Alignment) ในการฝึก AI เราไม่ได้ใช้ RLHF เพื่อสอนให้ AI ท่องจำข้อมูล (เพราะ AI จำข้อมูลเบื้องต้นมาหมดแล้วจากการเทรนรอบแรก) แต่เราใช้ RLHF เพื่อสอน "ความเหมาะสม บริบท และจริยธรรม" การปรับใช้กับมนุษย์ การศึกษาไม่ควรหยุดแค่การให้คะแนน ถูก/ผิด (Supervised Learning) แบบข้อสอบกากบาท แต่ควรใช้ "Human Feedback" จากผู้สอนหรือผู้เชี่ยวชาญ (Mentor) ในรูปแบบของการวิจารณ์เชิงสร้างสรรค์ (Constructive Feedback) เพื่อปรับวิธีคิด ลอจิก และการให้เหตุผลของผู้เรียน คล้ายกับการเรียนแบบวิภาษวิธี (Socratic Method) ที่เน้นการตั้งคำถามและถกเถียงจนกว่าผู้เรียนจะตกผลึกความรู้ด้วยตัวเอง
2. โมเดลการให้รางวัล (Reward Model) ที่ละเอียดอ่อนขึ้น ใน RLHF ของ AI มนุษย์จะให้คะแนนคำตอบหลายๆ แบบเพื่อบอก AI ว่าคำตอบไหน "ดีที่สุด" ในบริบทนั้นๆ การปรับใช้กับมนุษย์: แทนที่จะให้เกรด A, B, C หรือคะแนนดิบที่ตายตัว ระบบการเรียนรู้ควรให้ "รางวัล" (อาจเป็นคำชม การยอมรับ หรือโอกาสในการทำโปรเจกต์ที่ใหญ่ขึ้น) กับกระบวนการคิดที่ลึกซึ้ง การตั้งคำถามที่แปลกใหม่ หรือความสามารถในการเชื่อมโยงความรู้ข้ามศาสตร์ (Cross-disciplinary) ซึ่งจะกระตุ้นให้ผู้เรียนอยากขยายกรอบความคิดตัวเองให้กว้างขึ้น
ข้อควรระวัง (Reality Check) แม้แนวคิดนี้จะดี แต่การใช้ระบบเสริมแรง (รางวัล/คำติชม) กับมนุษย์มีจุดอ่อนที่ต้องระวังอย่างมาก ซึ่งเป็นปัญหาเดียวกับที่ AI เจอ
- ปรากฏการณ์ Reward Hacking ใน AI บางครั้งมันจะหาวิธี "โกง" เพื่อให้ได้คะแนนรางวัลสูงๆ โดยไม่ได้ทำตามเป้าหมายที่แท้จริง สำหรับมนุษย์ก็คือ "การเรียนเพื่อเอาใจครู หรือเรียนเพื่อสอบ" หากผู้สอนให้ Feedback ที่ยึดติดกับธงในใจตัวเอง ผู้เรียนก็จะหยุดคิดนอกกรอบ และเลือกตอบแค่สิ่งที่รู้ว่าผู้สอนอยากได้ยิน ซึ่งทำลายการเรียนรู้ที่ลึกซึ้งโดยสิ้นเชิง
- การทำลายแรงจูงใจภายใน (Intrinsic Motivation) AI ไม่มีจิตใจ มันจึงทำงานตาม Reward Model ได้เรื่อยๆ แต่มนุษย์มีความรู้สึก หากเราใช้ Feedback จากภายนอก (รางวัล/คำชม/เกรด) มากเกินไป ผู้เรียนอาจสูญเสียความหลงใหลหรือความอยากรู้อยากเห็นที่มาจากข้างใน (Passion) กลายเป็นว่าถ้าไม่มีคนมาคอยประเมินหรือให้รางวัล ก็จะไม่ยอมเรียนรู้สิ่งใหม่
สรุปคือ ควรนำมาใช้อย่างยิ่ง โดยเฉพาะในฐานะเครื่องมือ "โค้ชชิ่ง (Coaching)"ที่เน้นการให้ Feedback เชิงคุณภาพแบบรายบุคคล เพื่อจัดระเบียบความคิดและเชื่อมโยงบริบท มากกว่าการใช้เพื่อตัดสินผลได้ตก
ในมุมมองของคุณ คุณคิดว่าเราควรนำระบบ Feedback ที่เน้นการชี้แนะกระบวนการคิดแบบนี้ ไปเริ่มใช้กับระบบการศึกษาในระดับใด หรือกับบริบทการฝึกอบรมแบบไหนถึงจะเห็นผลลัพธ์ที่ชัดเจนที่สุดครับ?
อ่านความเห็นของสหายเจมิไนแล้ว ยิ่งเห็นความสำคัญของการฝึกทักษะครูและนักศึกษาครู เรื่องการให้ feedback เพื่อยกระดับความลึกของผลการเรียนรู้ของนักเรียน และในขณะเดียวกันก็ช่วยยกระดับแรงจูงใจภายในต่อการเรียนรู้ด้วย นี่คือประเด็นเรียนรู้ของครู ที่ครูต้องเรียนรู้และพัฒนาตลอดชีวิตการเป็นครู
วิจารณ์ พานิช
๒๙ มี.ค. ๖๙