การคำนวณค่าทางสถิติ Y-STR ในประชากรไทย


      การตรวจความสัมพันธ์ทางสายเลือดร่วมบรรพบุรุษสายบิดาเดียวกัน สามารถทำได้โดยการตรวจ Y-STR หากใช้น้ำยาสำเร็จรูปของ Applied Biosystems คือ Y-Filer ก็จะเป็นการตรวจ STR จำนวน 17 ตำแหน่ง

     โดยทั่วไป Y-STR แม้ว่าจะเป็นการตรวจ STR เหมือนกับใน autosomal chromosome แต่หากพิจารณาในเรื่องการถ่ายทอด จะพบว่า Y-STR มีความแตกต่างจาก autosomal STR แบบหนังคนละเรื่องเลยครับ

      autosomal STR บน autosome แต่ละโครโมโซมจะมีการถ่ายทอดแบบเป็นอิสระ แต่ละตำแหน่ง ไม่ขึ้นแก่กัน ในขณะที่ Y-STR อยู่บนโครโมโซมวาย ซึ่งมีการถ่ายทอดแบบไม่เป็นอิสระ หมายถึง ทั้ง 17 ตำแหน่งที่ตรวจนี้ ถ่ายทอดแบบ "มาด้วยกัน ก็ไปด้วยกัน" เหมือนกับไมโตคอนเดรียครับ เพราะฉะนั้น ถ้าพ่อมี 17 ตำแหน่งเป็นแบบไหน เจ้า 17 ตำแหน่งของพ่อ ก็จะส่งให้ลูกไปหมด แล้วลูกก็จะได้เจ้า 17 ตำแหน่งนี้ เหมือนของพ่อทุกอย่าง ดังนั้นการคำนวณ ก็เลยไม่ใช้วิธีการคำนวณแบบ product rule คือจับ PI ที่ได้ในแต่ละตำแหน่งมาคูณกันเหมือนใน autosomal ครับ แต่จะใช้การพิจารณาว่า เจ้า 17 ตำแหน่งนี้ เรียกว่าเป็น 1 รูปแบบ (haplotype) ถ้าตำแหน่งใดๆ ใน 17 ตำแหน่งนี้ มีอัลลีลเปลี่ยนแปลงไป ก็แสดงว่ามีรูปแบบไม่เหมือนกัน เรียกว่าเป็นคนละ haplotype เวลาคำนวณค่าทางสถิติ ก็ต้องมีฐานข้อมูลครับ ซึ่งเป็นที่รวมของข้อมูล Y-STR ทั้ง 17 ตำแหน่ง ของประชากรเชื้อชาติต่างๆ ในหลักการคำนวณ จะเป็นการค้นว่า รูปแบบดีเอ็นเอ 1 รูปแบบ (ประกอบด้วย 17 ตำแหน่ง) ที่เรียกเป็น 1 haplotype เมื่อไปค้นในฐานข้อมูลของประชากรแล้ว พบรูปแบบดีเอ็นเอนี้ ในฐานข้อมูลบ่อยแค่ไหน ซึ่งจะเรียกเป็น haplotype frequency หรือความถี่ที่จะพบรูปแบบดีเอ็นเอนี้ ในฐานข้อมูล ซึ่งข้อมูลความถี่นี้ สามารถนำมาคำนวณเป็นค่า likelihood ratio ได้ครับ ในหลักการก็มีอยู่เพียงเท่านี้

     เพราะฉะนั้น เมื่อเราตรวจ Y-STR จำนวน 17 ตำแหน่ง สิ่งที่เราต้องการต่อไปในการคำนวณค่าทางสถิติ ก็คือ ฐานข้อมูล Y-STR ในประชากรเชื้อชาติต่างๆครับ ซึ่งโชคดีอย่างยิ่งที่ เรามีฐานข้อมูล Y-STR ของประชากรต่างๆ อยู่บน website www.yhrd.org ครับ

     วิธีการก็เพียงเข้าไปที่เว็บไซด์ ตามลิงค์ แล้วลงทะเบียนชื่อไว้ครับ free of charge ครับ ไม่ต้องจ่ายตัง หลังจากลงทะเบียนเรียบร้อยแล้ว ก็เริ่มใช้งานได้เลยครับ

     เริ่มจากให้เลือก  search haplotypes ดังภาพครับ

     จากนั้นก็พิมพ์ข้อมูล Y-STR ที่ได้ ใส่เข้าไปในช่องครับ ทั้ง 17 ตำแหน่ง ก่อนที่จะกดปุ่ม Search ให้เหลือบมองดูในช่อง ฐานข้อมูลครับ ว่าเราค้นหาจาก whole database ซึ่งปกติจะถูกตั้งเป็นค่าเริ่มต้นอยู่แล้ว หากถูกต้อง ก็กดปุ่ม Search ได้เลยครับ

     จะได้ผลการค้นหาออกมาดังภาพข้างล่างนี้ครับ เวลาอ่านผล ก็ดูจาก metapopulation หมายถึงค้นจากประชากรทั้งหมด ในที่นี้รวมทั้งสิ้น 282 กลุ่มประชากร รวมจำนวน 40,987 คน พบ 0 ก็คือหมายถึง ไม่พบรูปแบบดีเอ็นเอ (haplotype) นี้ เลย  แต่ถ้าเราระบุประชากรที่เราต้องการค้นหาได้ เราก็เลือกกลุ่มประชากรที่จำเพาะหรือตรงกับประชากรของเรา จะให้ผลการคำนวณที่ถูกต้องมากกว่า อย่างเช่น ค้นหาในคนไทย เป็นต้น แต่การค้นรูปแบบดีเอ็นเอ 17 ตำแหน่ง ในประชากรไทย พบว่าเจอ 0 คน หมายถึงไม่เจอเลย ในจำนวนประชากรรวมทั้งสิ้น 32 คน ซึ่งน้อยเกินไปครับ ที่จะนำไปคำนวณค่าทางสถิติเพราะตัวเลขค่า likelihood ratio เท่ากับ 11 ซึ่งน้อยกว่า 99 ครับ ซึ่งผลที่ได้จะไม่สามารถสรุปผลได้ วิธีการที่เราสามารถทำได้ คือการถอยหลังออกมา 1 ก้าวครับ กล่าวคือ คนไทยมีต้นกำเนิดมาจากไหน หากศึกษาจากดีเอ็นเอ คนไทยจะมีต้นกำเนิดมาจากคนจีนตอนใต้ ซึ่งคนจีนเหล่านี้จะมีการกระจายตัวอยู่ในแถบเอเซียตะวันออกครับ ดังนั้น เราก็ค้นรูปแบบดีเอ็นเอที่ได้ในประชากรเอเซียตะวันออก ซึ่งในฐานข้อมูลปัจจุบัน (16 สิงหาคม 2555) มีอยู่รวม 12,674 คน ปรากฎว่า ไม่พบรูปแบบดีเอ็นเอนี้เลย

     ดังนั้นเราก็เอาข้อมูลนี้ไปแทนค่าในสูตรการคำนวณ แบบที่ค้นในฐานข้อมูลแล้วไม่พบรูปแบบดีเอ็นเอ คือสูตร

          ความถี่ = 1 –(0.05)1/n

ดูรายละเอียดสูตร และอ่านเพิ่มเติมได้จากบันทึกนี้ครับ 

     แทนค่าในสูตรแล้วจะได้ ความถี่ = 0.0002363404 แล้วนำค่านี้มาคำนวณเป็นค่า likelihood ratio ครับ

          likelihood ratio  = 1/freq

                                =  1/0.0002363404

                                = 4,231

     เมื่อค่า LR มากกว่า 99 เท่า ก็แสดงว่ามีความน่าเชื่อถือมากเพียงพอครับ

หรืออาจจะนำค่า LR ไปคำนวณเป็นค่า Posterior Prob ก็ได้ครับ โดยใช้สูตร

     Post Prob = LR/(LR+1) ซึ่งต้องทำความเข้าใจก่อนว่า การใช้สูตรนี้เป็นการใช้โดยสันนิษฐานค่า prior prob = 0.5 ครับ

     Post Prob = 4,231/4232

                   = 99.97637157% 

กรณีที่ค้นในฐานข้อมูลแล้วพบว่ามีรูปแบบดีเอ็นเอนี้อยู่ในฐานข้อมูลอยู่แล้ว เช่น พบ 5 ใน 12,674 รายในฐานข้อมูลประชากรเอเซียตะวันออก

     ความถี่ = x/n  เมื่อ x = จำนวนนับของข้อมูลที่พบในฐาน ; n เป็นจำนวนข้อมูลประชากรทั้งหมด

     ความถี่ = 5/12,674

               = 0.0003945

จากนั้นก็นำมาคำนวณค่า upper bound ที่ระดับความเชื่อมั่น 95%  ตามสูตรนี้

                    

  เมื่อ p = ความถี่ที่คำนวณได้จากข้างบน และ n = จำนวนข้อมูลประชากรทั้งหมด

  = 0.0003945 + 1.96 x SQRT[(0.003945)(1-0.003945)/12674]
 

   = 0.0007402

จากนั้นคำนวณค่า likelihood ratio = 1/freq

                                             = 1351

หรือคำนวณเป็นค่า post prob  = LR/(LR+1)

                                        = 1351/1352

                                        = 99.92603550%

 

     เพียงแต่ตอนรายงานผล มีข้อควรระวังไว้ครับ ได้แก่

     1. ในการตรวจพิสูจน์เอกลักษณ์บุคคล หรือการตรวจจากวัตถุพยานเพื่อหาว่าวัตถุพยานนี้เป็นของใคร ความหมายของการตรวจ Y-STR แล้วได้รูปแบบดีเอ็นเอ ตรงกัน มีความหมายว่า วัตถุพยานนี้ เป็นของเจ้าตัว หรือ เป็นของญาติร่วมบรรพบุรุษสายบิดาเดียวกัน

     2. สมมุติว่าเป็นการตรวจ ลุง-หลาน ในการรายงานผล ไม่ควรระบุลงไปชัดเจนว่า ความเชื่อมั่นที่จะเป็นลุง-หลาน เท่ากับร้อยละ 99.97637157 เพราะการรายงานผลแบบนี้ ทำให้เสี่ยงที่ผู้อ่านผลจะเข้าใจผิดได้ว่า ความเชื่อมั่นที่จะเป็นลุง-หลานกันสองคนนี้เท่ากับร้อยละ 99.97637157 ซึ่งในความเป็นจริงแล้ว การที่ รูปแบบดีเอ็นเอ Y-STR ตรงกัน ไม่ได้หมายความว่า สองคนนี้มีรูปแบบดีเอ็นเอตรงกันเท่านั้น แต่ยังมี คุณปู่ คุณอา คุณปู่ทวด .....และอีกมากมายที่เป็นญาติสายพ่อ แล้วเป็นผู้ชาย จะมีรูปแบบดีเอ็นเอ Y-STR ตรงกัน ดังนั้นข้อความที่ดูเหมือนว่าจะปลอดภัยในการรายงานผล และสื่อความได้ค่อนข้างตรงกับความเป็นจริง น่าจะเป็น คำว่า "ความเชื่อมั่นที่ นาย........เป็นญาติร่วมบรรพบุรุษสายบิดาเดียวกัน กับ นาย....... เท่ากับ ร้อยละ 99.97637157 "  ซึ่งเมื่อต้องอธิบายเพิ่มเติมแล้ว จะหมายถึงว่า นอกจากสองคนนี้แล้ว ยังมีญาติร่วมสายพ่อคนอื่นๆ ที่เป็นผู้ชาย จะมีรูปแบบดีเอ็นเอ Y-STR ตรงกันอีกครับ

     3. การรายงานค่าทางสถิติเป็น Posterior Prob จากสูตร LR/(LR+1) เป็นการคำนวณจากการสันนิษฐานค่า prior prob = 0.5 ดังนั้นควรระบุค่าสันนิษฐานนี้ไว้ด้วยในใบรายงานผลครับ เพราะถ้าประมาณการ prior prob ไม่เท่ากับ 0.5 แล้ว ค่า post prob ก็จะเปลี่ยนแปลงไปจากนี้ครับ

     4. การใช้ฐานข้อมูลประชากรจากคนเชื้อชาติไหน หรือฐานข้อมูลจากที่ไหน ควรระบุแหล่งที่มาของประชากร และฐานข้อมูลไว้ด้วยครับ

หมายเลขบันทึก: 498825เขียนเมื่อ 16 สิงหาคม 2012 09:35 น. ()แก้ไขเมื่อ 17 สิงหาคม 2012 10:09 น. ()สัญญาอนุญาต: ครีเอทีฟคอมมอนส์แบบ แสดงที่มา-ไม่ใช้เพื่อการค้า-อนุญาตแบบเดียวกันจำนวนที่อ่านจำนวนที่อ่าน:


ความเห็น (1)
พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท