เที่ยงวันอาทิตย์ที่ ๒๙ มีนาคม ๒๕๖๙ ผมได้รู้จักคำว่า RLHF – Reinforcement Learning from Human Feedback เป็นครั้งแรก  จึงกลับมาถามสหายเอไอว่า   “RLHF - Reinforcement Learning from Human Feedback ที่ใช้ฝึก AI   ควรนำมาใช้หนุนการเรียนรู้ของมนุษย์บ้างหรือไม่  เพื่อหนุนให้เกิดการเรียนรู้ที่ลึกและเชื่อมโยงยิ่งขึ้น”   ได้รับคำตอบจากสหายเจมีไนดังนี้     

 

Gemini

เป็นมุมมองที่เฉียบคมและน่าสนใจมากครับ    ในความเป็นจริงแล้ว ต้องบอกว่า AI ต่างหากที่ขอยืมแนวคิดนี้ไปจากมนุษย์     เพราะรากฐานของกระบวนการ Reinforcement Learning (การเรียนรู้แบบเสริมกำลัง) มีต้นกำเนิดมาจากทฤษฎีทางจิตวิทยาพฤติกรรมนิยม (Behaviorism) ของมนุษย์และสัตว์ที่เน้นเรื่อง "การให้รางวัลและการลงโทษ" 

Operant conditioning psychology, AI generated

Shutterstock

แต่เมื่อเรานำกรอบคิดแบบ RLHF (Reinforcement Learning from Human Feedback) ของ AI กลับมาประยุกต์ใช้เพื่อยกระดับการเรียนรู้ของมนุษย์ยุคใหม่ให้ "ลึกซึ้งและเชื่อมโยง" มากขึ้น   ถือเป็นแนวทางที่ทรงพลังมาก หากนำมาใช้อย่างถูกต้อง     ลองมาดูว่าเราจะเทียบเคียงและนำมาใช้ได้อย่างไรบ้าง:

1. จาก "ท่องจำ" สู่ "ความเข้าใจเชิงบริบท" (Alignment)    ในการฝึก AI เราไม่ได้ใช้ RLHF เพื่อสอนให้ AI ท่องจำข้อมูล (เพราะ AI จำข้อมูลเบื้องต้นมาหมดแล้วจากการเทรนรอบแรก)    แต่เราใช้ RLHF เพื่อสอน "ความเหมาะสม บริบท และจริยธรรม"     การปรับใช้กับมนุษย์   การศึกษาไม่ควรหยุดแค่การให้คะแนน ถูก/ผิด (Supervised Learning) แบบข้อสอบกากบาท    แต่ควรใช้ "Human Feedback" จากผู้สอนหรือผู้เชี่ยวชาญ (Mentor) ในรูปแบบของการวิจารณ์เชิงสร้างสรรค์ (Constructive Feedback)    เพื่อปรับวิธีคิด ลอจิก และการให้เหตุผลของผู้เรียน คล้ายกับการเรียนแบบวิภาษวิธี (Socratic Method) ที่เน้นการตั้งคำถามและถกเถียงจนกว่าผู้เรียนจะตกผลึกความรู้ด้วยตัวเอง

2. โมเดลการให้รางวัล (Reward Model) ที่ละเอียดอ่อนขึ้น    ใน RLHF ของ AI มนุษย์จะให้คะแนนคำตอบหลายๆ แบบเพื่อบอก AI ว่าคำตอบไหน "ดีที่สุด" ในบริบทนั้นๆ     การปรับใช้กับมนุษย์: แทนที่จะให้เกรด A, B, C หรือคะแนนดิบที่ตายตัว ระบบการเรียนรู้ควรให้ "รางวัล" (อาจเป็นคำชม การยอมรับ หรือโอกาสในการทำโปรเจกต์ที่ใหญ่ขึ้น) กับกระบวนการคิดที่ลึกซึ้ง การตั้งคำถามที่แปลกใหม่ หรือความสามารถในการเชื่อมโยงความรู้ข้ามศาสตร์ (Cross-disciplinary) ซึ่งจะกระตุ้นให้ผู้เรียนอยากขยายกรอบความคิดตัวเองให้กว้างขึ้น

ข้อควรระวัง (Reality Check)    แม้แนวคิดนี้จะดี แต่การใช้ระบบเสริมแรง (รางวัล/คำติชม) กับมนุษย์มีจุดอ่อนที่ต้องระวังอย่างมาก ซึ่งเป็นปัญหาเดียวกับที่ AI เจอ

  1. ปรากฏการณ์ Reward Hacking    ใน AI บางครั้งมันจะหาวิธี "โกง" เพื่อให้ได้คะแนนรางวัลสูงๆ โดยไม่ได้ทำตามเป้าหมายที่แท้จริง     สำหรับมนุษย์ก็คือ "การเรียนเพื่อเอาใจครู หรือเรียนเพื่อสอบ" หากผู้สอนให้ Feedback ที่ยึดติดกับธงในใจตัวเอง  ผู้เรียนก็จะหยุดคิดนอกกรอบ และเลือกตอบแค่สิ่งที่รู้ว่าผู้สอนอยากได้ยิน ซึ่งทำลายการเรียนรู้ที่ลึกซึ้งโดยสิ้นเชิง
  2. การทำลายแรงจูงใจภายใน (Intrinsic Motivation)    AI ไม่มีจิตใจ มันจึงทำงานตาม Reward Model ได้เรื่อยๆ    แต่มนุษย์มีความรู้สึก หากเราใช้ Feedback จากภายนอก (รางวัล/คำชม/เกรด) มากเกินไป ผู้เรียนอาจสูญเสียความหลงใหลหรือความอยากรู้อยากเห็นที่มาจากข้างใน (Passion)     กลายเป็นว่าถ้าไม่มีคนมาคอยประเมินหรือให้รางวัล ก็จะไม่ยอมเรียนรู้สิ่งใหม่

สรุปคือ    ควรนำมาใช้อย่างยิ่ง โดยเฉพาะในฐานะเครื่องมือ "โค้ชชิ่ง (Coaching)"ที่เน้นการให้ Feedback เชิงคุณภาพแบบรายบุคคล เพื่อจัดระเบียบความคิดและเชื่อมโยงบริบท มากกว่าการใช้เพื่อตัดสินผลได้ตก

ในมุมมองของคุณ คุณคิดว่าเราควรนำระบบ Feedback ที่เน้นการชี้แนะกระบวนการคิดแบบนี้ ไปเริ่มใช้กับระบบการศึกษาในระดับใด หรือกับบริบทการฝึกอบรมแบบไหนถึงจะเห็นผลลัพธ์ที่ชัดเจนที่สุดครับ?

 

อ่านความเห็นของสหายเจมิไนแล้ว   ยิ่งเห็นความสำคัญของการฝึกทักษะครูและนักศึกษาครู เรื่องการให้ feedback เพื่อยกระดับความลึกของผลการเรียนรู้ของนักเรียน   และในขณะเดียวกันก็ช่วยยกระดับแรงจูงใจภายในต่อการเรียนรู้ด้วย    นี่คือประเด็นเรียนรู้ของครู  ที่ครูต้องเรียนรู้และพัฒนาตลอดชีวิตการเป็นครู

วิจารณ์ พานิช

๒๙ มี.ค. ๖๙