เรียนสถิติด้วยภาพ ตอนที่ 7 ความแปรปรวน


บทนี้อ่านอย่างระวัง เพราะเป็นการตีความแบบมองเป็นภาพตรง ๆ ไม่ใช่นิยามอย่างเป็นทางการทางคณิตศาสตร์ ต้องการให้เกิดภาพคร่าว ๆ ในใจ ไม่ได้ต้องการให้เห็นที่มาที่ถูกต้องทางประวัติศาสตร์ โดยเฉพาะที่มาของ standard error ซึ่งผมพยายามค้นว่า สูตรมีที่มาอย่างไร แต่หาไม่ได้ ใจจริงอยากได้ประวัติศาสตร์ท่อนนี้มาเล่าสู่กันฟังมากกว่ามาเรียบเรียงเอง ใครทราบช่วยบอกด้วยครับ

ความแปรปรวน เป็นสิ่งที่มีอยู่ทั่วไป แม้ในใจคน

ผมไปตลาดเกษตรตอนเย็น พบรุ่นพี่กับลูกชาย ผมก็ไหว้สวัสดีรุ่นพี่ก่อน

"เอ้า สวัสดีน้าเค้าสิ"

"หวัดดีคับ ลุง"

... เอ๊ะ มีแววแฮะ...

"เรียกน้าสิ" แม่บอกลูก "หรือเรียกอา"

...

"เรียกพี่ก็ได้" น้าบอกหลาน

"สวัสดีครับปู่"

-_-! โห เล่นแรงวุ้ย...

"อือม์ ต่อไปต้องเรียกคุณพ่อคุณแม่เราเป็นหลานผมซะแล้วล่ะ" เอาคืนหมัดต่อหมัด ^ ^

"ไปเถอะลูก" คุณแม่เร่งยิก ๆ

คุณลูกหันมาไหว้แผล็บก่อนเปิดแน่บ "สวัสดีครับพี่"

....

ถ้าเด็กคนนี้ แกล้งเรียกผมว่า เทียด

ผลคือ คุณพ่อคุณแม่ของเด็กคนนี้ ก็จะมีศักดิ์เป็น เหลน ของผมเท่านั้นเอง

ผลคือ ฟากของเด็กคนนี้ จะขาดทุนศักดิ์ศรีเรื่องวัยวุฒิอย่างยับเยิน

แต่ถ้าเขาเรียกผมว่า พี่ หรือศักดิ์รองจากนี้ ก็จะกลายเป็นผมขาดทุนศักดิ์ศรีเรื่องวัยวุฒิอย่างยับเยินด้วย เพราะเท่ากับว่า ผมลดตัวจากรุ่นน้องของคุณพ่อ-คุณแม่เขา มาเป็นรุ่นลูกของคุณพ่อ-คุณแม่เขา

ถ้าเอาเรื่อง การขาดทุนเรื่องศักดิ์ของวัยวุฒิมาเป็นตัวประเมิน ความสัมพันธ์ อา-หลาน หรือ น้า-หลาน จะทำให้การขาดทุน เกิดน้อยที่สุด เมื่อเทียบกับความสัมพันธ์ที่พิลึกพิลั่นอื่น

การขาดทุน ซึ่งเกิดจากการเบี่ยงเบนออกไปจากจุดอ้างอิงที่ควรเป็น จะมีค่าน้อยที่สุด เมื่อทุกอย่าง ถูกตรึงรอบ ๆ จุดอ้างอิงที่เหมาะสม

ความสัมพันธ์อันซับซ้อนและเปี่ยมพลวัตนี้ จะเสถียรที่สุด เมื่อจุดอ้างอิง ทำให้ความสัมพันธ์มีระดับความพิลึกพิลั่นโดนรวมมีค่าน้อยที่สุด

แปลเป็นภาษาไทยก็คือ ความสัมพันธ์นี้ จะเสถียรที่สุด เมื่อผมมีศักดิ์เป็นอา หรือน้า ของเด็กคนนี้

ก็เหมือนที่ผมเอาเปรียบกลายเป็นคุณปู่ หรือผมถูกเอาเปรียบ กลายเป็นคุณพี่นั่นแหละ ทั้งสองแบบ ความสัมพันธ์แกว่งเฉผิดปรกติไปด้านไหน รับรองมีการขาดทุนเกิดขึ้น

Relationshipsse2

ในทางสถิติ จุดอ้างอิงที่เหมาะสม ก็ก็คือ ค่ากลางทางสถิตินั่นเอง

ค่าเฉลี่ยทางสถิติ ก็คือค่าที่ทำให้ผลรวมของ (ความเบี่ยงเบนออกจากจุดอ้างอิง2) มีค่าน้อยที่สุด เป็นศูนย์ได้ยิ่งดี แต่ยังไงก็ไม่มีวันน้อยกว่าศูนย์ เพราะค่าที่ยกกำลังสอง ยังไงก็ไม่ติดลบอยู่แล้ว

ที่ยกกำลังสอง เพื่อให้แน่ใจว่า เบี่ยงเบนไปด้านไหนก็ตาม จะกลายเป็นการขาดทุนแน่ ๆ อย่างเป็นธรรมทั้งสองฟาก เพราะจะมีค่ามากขึ้นเสมอเมื่อเบี่ยงเบนมากขึ้น

ผลรวมของ (ความเบี่ยงเบนออกจากจุดอ้างอิงยกกำลังสอง) มีชื่อเรียกทางสถิติว่า sum squared error หรือย่อว่า SSE

SSE = ∑ ความเบี่ยงเบนออกจากจุดอ้างอิง2

Centershift2009

ความเบี่ยงเบนออกจากจุดอ้างอิง ว่าไปแล้ว ก็คือระยะห่างจากจุดศูนย์กลางนั่นเอง หรืออาจเทียบเท่าระยะห่างจากตำแหน่งต่าง ๆ ของประเทศ ว่าห่างจากเมืองหลวงเท่าไหร่ โดยเมืองหลวง อยู่ไหนก็ได้ เหนือ-ใต้-ออก-ตก แต่มีเฉพาะที่อยู่กลาง ๆ เท่านั้น ที่จะทำให้ต้นทุนการเดินทางโดยรวมระดับมหภาคประหยัดที่สุด

หากต้นทุนเพิ่มเร็วกว่าระยะทาง (เช่น ยิ่งไกล ยิ่งกันดาร ยิ่งไปยาก ยิ่งใช้จ่ายสูงผิดคาด) ก็อาจมองว่า นี่ก็เทียบเท่ากับให้ต้นทุน คือ ระยะห่างจากศูนย์กลาง จับมายกกำลังสอง นั่นเอง

ดูจากรูป จุดศูนย์กลางอยู่ตรงไหนก็ตาม ทุกอย่างก็พุ่งเข้าหา แต่ต้นทุนในการประสาน หากศูนย์กลางไม่อยู่ตรงกลางจริง ต้นทุนเรื่องการประสาน ก็จะสูงขึ้นโดยไม่จำเป็น

กรณีที่จุดศูนย์กลางอยู่นอกหย่อมข้อมูล จะสิ้นเปลืองที่สุด

กรณีที่ศูนย์กลางอยู่ข้างใน แต่ไม่อยู่ตรงกลางจริง ก็จะประหยัดขึ้นมาหน่อยนึง

ถ้าเป็นศูนย์กลางที่เป็นธรรมจริง ๆ จะประหยัดที่สุด

ต้นทุนเดินทางโดยรวมก็เทียบได้กับ SSE นั่นเอง เป็นต้นทุนแบบรวมทั้งหมดของทุกจุด

ถ้าคิดเป็นต้นทุนเฉลี่ยแบบว่ากันทีละจุด ว่าห่างจากศูนย์กลางแค่ไหน ก็เฉลี่ยค่า SSE เอา (SSE หารจำนวนจุดทั้งหมด)

ต้นทุนเฉลี่ยแบบว่ากันทีละจุด ทางสถิติก็จะเป็น mean squared error (MSE)

หากวัด MSE โดยศูนย์กลาง อยู่ในตำแหน่งที่ประหยัดที่สุด คือเป็นกลางจริง ๆ ไม่มีความลำเอียงเลย (=unbiased estimator) สถิติจะเรียกว่า variance หรือ "ความแปรปรวน"

MSE ในกรณีที่ประหยัดที่สุด (คือรูปสีฟ้า) = Variance

ส่วนรูปสีเหลืองและเขียว ไม่ประหยัดที่สุด จึงไม่เรียก MSE ในกรณีเหล่านั้นว่า variance แต่อย่างใด

การเลือกค่า x ที่ทำให้ SSE น้อยที่สุด เรียกว่า เป็นการหาจุดต่ำสุดของของ SSE (minimizing least square error)

ทีนี้ เมื่อต้นทุนเฉลี่ยแบบว่ากันทีละจุด เทียบเท่า mean squared error (MSE) หรือ variance ความหมายของตัวต้นทุนเฉลี่ยต่อจุด คือ ระยะห่างจากศูนย์กลาง จับมายกกำลังสอง

รากที่สองของ MSE ก็จะมีความหมายโดยอนุโลมถึง "ระยะห่างจากศูนย์กลางเฉลี่ย" ซึ่งสถิติเรียก standard deviation (sd)

แล้ว standard error เกี่ยวกับ standard deviation อย่างไร ?

ก่อนอื่น เราต้องกลับมามองเรื่อง การเฉลี่ย เสียใหม่ก่อน

ถ้าเรามีข้อมูลดิบ A หน้าตาแบบนี้

Seproof2009

การเฉลี่ยข้อมูลดิบ A นี้ทั้งหมด ก็คือการบีบอัดทุกอย่างเข้าสู่ศูนย์กลาง เพราะศูนย์กลางเป็นตัวดึงทุกอย่างเข้าหาตัว

การเฉลี่ย จึงไม่ได้ทำให้ข้อมูลดิบกลายเป็น จุด แต่เป็นการบีบอัดให้ข้อมูลดิบ กลายเป็น กระจุก

กระจุก จึงต้องมีรูปแบบการกระเจิงของมัน

การกระเจิงของค่าเฉลี่ย จึงกลายเป็น standard error ซึ่งแคบลง ในขณะที่ตัวข้อมูลดิบตั้งต้น กระเจิงแบบ standard deviation ซึ่งกว้างกว่าเสมอ

การเฉลี่ย บีบอัดจากข้อมูลหลากหลาย เข้าหาศูนย์กลาง และบีบอัดยังไง ก็ไม่กลายเป็นจุดเดียว เพราะขึ้นกับว่า เราเลือกจุดไหนมาบีบอัด

สมมติว่าเราสุ่มข้อมูลจาก A มา 3 จุด มาบีบอัด เพื่อสร้างตัวแทน เราก็จะได้จุด B หนึ่งจุด เมื่อทำซ้ำอีกที หยิบมาอีก 3 จุด บีบอัดอีกที ก็จะได้จุดอีกหนึ่งจุด ทำซ้ำไปเรื่อย ๆ ก็จะเกิดจุดที่เป็นไปได้หลากหลาย และมีรูปแบบคล้ายเริ่มต้น แต่จุดเหล่านี้จะเกาะกลุ่มกว่าข้อมูลดิบเริ่มต้น เห็นเป็นทำนองนี้ (จริง ๆ แล้วควรได้รูปแบบจุดที่ต่างไปจากเดิม แต่ผมขี้เกียจทำใหม่ ขอใช้ของเดิมมาลดขนาดกันดื้อ ๆ

Seproof2009 บีบอัด A 3 เท่า เกิด B ต้นทุนการเดินทาง ก็ลดลง 3 เท่าด้วย

บีบอัดแบบนี้ซ้ำ ๆ กันหลายครั้ง โดยสุ่มหยิบครั้งละ 3 จุด ทำให้เกิดรูปแบบคล้ายเดิม แต่เกิดในหย่อมที่กระจุกตัวกว่าเดิม

บีบอัด A 3 เท่า เกิด B ต้นทุนการเดินทางของ B ก็ลดลง 3 เท่าด้วย เมื่อเทียบกับ A

นั่นคือ Variance ของ A = 3 x Variance B

ถอดรากที่สอง จะได้

sd ของ A = √3 (sd ของ B)

sd ของ B มีชื่อเรียกเฉพาะว่า standard error of the mean เพราะเป็นการที่เราสุ่มข้อมูลดิบมาหาค่าเฉลี่ย (กรณีนี้สุ่ม A มาครั้งละ 3 หน่วย) ซึ่งค่าเฉลี่ยที่ได้นี้ ก็มีความไม่แน่นอนของมันเองด้วย เพราะขึ้นกับว่าเราไปสุ่ม A ที่ตรง 3 จุดไหนมา ซึ่งท้ายสุด ก็เหมือนเป็นการที่เราบีบอัดภาพดั้งเดิมให้เล็กลง ภาพดั้งเดิมมี sd ของมัน ภาพใหม่ก็จะต้องมีเฉพาะตัวแยกไปต่างหากด้วย

เขียนใหม่ จะได้ว่าในกรณีที่สุ่มมาครั้งละ 3 จุด

sd = √3 se หรือ se = sd/√3

ในกรณีที่สุ่มมาต่างจากนี้ เช่น n หน่วย ก็จะได้ความสัมพันธ์ทั่วไปว่า

se = sd/√n

ประเด็นของที่มาของ se ผมพยายามค้นว่า สูตรมีที่มาอย่างไร แต่หาไม่ได้ ใจจริงอยากได้ประวัติศาสตร์ท่อนนี้มาเล่าสู่กันฟังมากกว่ามาเรียบเรียงเอง ใครทราบช่วยบอกด้วยครับ

ในที่นี้ ขอให้ถือว่าเป็นการตีความภาพอย่างคร่าว ๆ ไม่ใช่นิยามอย่างเป็นทางการทางคณิตศาสตร์ เพราะจริง ๆ แล้ว อาจแย้งอีกอย่างว่า ทำไมไม่ใช้ se=sd/n ไปเลย โดยถือว่า กำลังบีบอัดสเกล sd โดยตรง แทนที่จะบีบอัดสเกล MSE อย่างที่ทำอยู่นี้ ?

นั่นสิ ทำไมถึงไม่ทำอย่างนั้น ? ผมไม่รู้ครับ

ทำอย่างนี้ อธิบายได้ไม่สาสมใจ เพราะเป็นการ reverse engineering ตีความจากสูตรขั้นสุดท้ายย้อนกลับไปหาความหมายที่มาตอนเริ่มต้น ยังไงก็ไม่สวยงามหมดจดเท่าการตั้งต้นจากความว่างเปล่าไปหาผลขั้นสุดท้ายอยู่แล้ว

แต่ถ้าตีความอย่างที่ผมทำอยู่นี้ จะทำให้ได้ผลสอดคล้องกับทฤษฎีและสอดคล้องกับการพิสูจน์โดยการทำ stochastic simulation ดังในตอนก่อนหน้าอย่างแน่นอน

ผมเชื่อว่าตรงนี้จะมีคำอธิบายทางคณิตศาสตร์ที่ดีและสวยงาม แต่หาไม่ได้ เพราะประวัติศาสตร์ตรงนี้เลือนไปจากตำราสถิติพื้นฐานที่ใช้กันอยู่ในปัจจุบัน

ภาคผนวก:

ทำไมค่าเฉลี่ยจึงทำให้ SSE น้อยที่สุด ?

ลองดูแบบตัวเลขก่อน ให้เริ่มคุ้น ๆ

สมมติว่ามีตัวเลขอยู่ 4 ตัว คือ 2.0, 2.5, 2.8, 3.1

กรณีนี้ ค่าเฉลี่ยที่เรารู้จัก คือจับบวกกันทั้งสี่รายการ หารสี่ ได้ 2.6

เหตุผลคือ เพราะ 2.6 จะเป็นค่าที่ทำให้ SSE น้อยที่สุด (และ MSE ก็จะน้อยที่สุดด้วย) [ดูพิสูจน์แนบท้าย]

ถ้าเรากำหนด x ใด ๆ ขึ้นมาเป็นจุดศูนย์กลาง

SSE = (x-2)2+(x-3.1)2+(x-2.5)2+(x-2.8)2

= 4 x2 - 20.8 x + 27.7

ซึ่งจะเป็นโค้งแบบแอ่งพาราโบลา และจุดต่ำสุดของกรณีนี้ (ที่ x ซึ่งจะทำให้ความชันเป็นศูนย์) เกิดขึ้นที่ x = 2.6 และ SSE เป็น 0.66

ใช้ x เป็นค่าอื่น จะไม่ทำให้ SSE ต่ำสุดอีก

คราวนี้ ลองดูแบบพีชคณิต พิสูจน์แบบเข้มข้นขึ้นมาอีกระดับ

สมมติเรามีจำนวนต่อไปนี้คือ a,b,c,... รวม N รายการ

ถ้าเราเลือก x เป็นตัวแทนศูนย์กลาง จะได้

SSE = (x-a)2 + (x-b)2 + (x-c)2 + ...

= (x2 - 2ax + a2) + (x2 - 2 bx + b2) + (x2 - 2 cx + c2) + ..

= N x2 - 2 (a+b+c+...)x + (a2 + b2 + c2 + ... )

ที่เทอมแรก ต้องคูณด้วย N เพราะรวม x2 ทั้งหมด N ครั้ง

ที่จุดต่ำสุดของ SSE ต้องทำให้ความชันเป็นศูนย์ (∂SSE/∂x = 0) หรือนั่นคือ ความชันจะเป็น

∂SSE/∂x = 2Nx - 2(a+b+c+...) = 0

แก้สมการจะได้จุดต่ำสุดของ x คือ

x = (a+b+c+...)/N

นั่นคือ กรณีที่ดีที่สุดของศูนย์กลาง จะได้จากการเฉลี่ย !

หญ้าปากคอกที่เราชินมาแต่เด็ก อัันที่จริง ที่มาก็ไม่ได้ตรงไปตรงมาเท่าไหร่

สนใจอ่าน เรียนสถิติด้วยภาพ แบบครบทุกตอน เข้าไปที่

http://www.gotoknow.org/posts?tag=เรียนสถิติด้วยภาพ

หมายเลขบันทึก: 274536เขียนเมื่อ 8 กรกฎาคม 2009 19:00 น. ()แก้ไขเมื่อ 19 มีนาคม 2015 13:33 น. ()สัญญาอนุญาต: สงวนสิทธิ์ทุกประการจำนวนที่อ่านจำนวนที่อ่าน:


ความเห็น (2)

 เป็นกำลังใจให้ครับ บทความดีๆอย่างนี้หายาก  คนที่ไม่ได้เขียนสถิติจริงๆจังๆ น้อยคนครับ ที่จะเข้าใจความหมายของสูตรต่างๆว่าหาทำไม รู้ว่าใช้กรณีไหน แต่ไม่เคยเข้าใจว่าทำไมถึงใช้

ขอบคุณสุดๆค่ะ คุณเป็นอัจฉริยะมาก

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท