คำอธิบายเรื่องหลุมพรางของการค้นข้อมูลดีเอ็นเอแบบพ่อ-ลูกหรือแม่-ลูกในฐานข้อมูล


     จากบันทึก่อนหน้านี้ ที่เล่าสู่กันฟังเรื่องที่ผมลองเอารูปแบบดีเอ็นเอของคนในห้องแล็ํบ จำนวน 5 คน ค้นเข้าไปในฐานข้อมูล แล้วพบว่า ประมาณ 4 ใน 5 คน ที่เมื่อค้นเข้าไปในฐานข้อมูลแล้ว จะพบว่ามีรูปแบบดีเอ็นเอที่เข้าได้โดยบังเอิญกับคนในฐานทั้ง 15 ตำแหน่ง แบบที่เรียกว่า เป็นพ่อ-ลูก หรือแม่-ลูกกันได้เลย

     ลองคิดดูสิครับว่า ถ้าตัวอย่างนี้ เป็นการค้นข้อมูลในฐานข้อมูลคนหาย .....แล้วจะเกิดอะไรขึ้น....ความน่ากลัวประการหนึ่ง ถ้าใช้เฉพาะข้อมูลดีเอ็นเอโดยไม่ใช้หลักฐานอื่นประกอบ นั่นหมายความว่า เราอาจจะส่งเด็กคืนให้พ่อ-แม่ผิดคนก็ได้.....นี่คือหลุมพรางของการค้นข้อมูลดีเอ็นเอในฐานข้อมูล

     ปัญหานี้ หลายคนอาจจะตั้งคำถามว่า ถ้างั้นเราก็เพิ่มค่า cut off ของ Likelihood ratio หรือ posterior probability ให้สูงขึ้นได้ไหม ปัญหานี้จะลดลงไหม

     เรื่องนี้เป็นปัญหาที่น่าจะหาคำตอบได้ครับ โดยการทำวิจัย ตอนนี้ผมกำลังพยายามหาคำตอบเรื่องนี้อยู่ แต่ถ้าตอบในเบื้องต้น ก็บอกได้ว่า

     การค้นข้อมูลรูปแบบดีเอ็นเอ กับข้อมูลในฐานข้อมูล แล้วเข้ากันได้แบบพ่อ-ลูก หรือ แม่-ลูก เป็นการเข้ากันได้โดยบังเอิญ แม้ว่าจะมีตำแหน่งที่เข้ากันได้สูงถึง 15 ตำแหน่ง จากที่ทดสอบรวม 15 ตำแหน่ง ความที่มันเข้ากันได้โดยบังเอิญ ก็มักเจอว่าส่วนใหญ่มักเป็นอัลลีลที่พบบ่อยในตำแหน่งนั้นๆ ดังนั้น ส่วนใหญ่แล้ว ค่า LR มักไม่สูงมาก (ไม่เกิน 1000 เท่า) แต่ Post Prob เกินกว่า 99% ครับ แต่มีส่วนน้อย ที่ค่า LR มีค่าสูงเกินกว่า 1000 เท่า หรือ Post Prob มากกว่า 99.9% ซึ่งส่วนน้อยนี้แหละที่ทำให้เราสลัดไม่หลุด ไม่ว่าจะใช้ LR หรือ Post Prob สูงขนาดไหนก็ตาม มันก็ยังมีโอกาสเกิดขึ้นเสมอ ยกตัวอย่างว่า ผมเจออย่างน้อย 1 ราย ที่มีค่า LR สูงกว่า 10,000 เท่า หรือ Post Prob มากกว่า 99.99% ซึ่งถือว่าสูงมากครับสำหรับ case พ่อ-ลูก หรือ แม่-ลูก แบบนี้ (ถ้าตอบทางภาษาวิทยาศาสตร์ คือ การเพิ่มค่า cut off ให้สูงขึ้น ช่วยลด false positive rate ให้ต่ำลง ทำให้ ค่า specificity สูงขึ้นครับ)

     ผมลองเล่นๆ โดยการค้นข้อมูลแบบสุ่มประมาณ 20 คน ในฐานข้อมูล ก็มีทั้งเข้ากันได้หมดทุกตำแหน่ง หรือเข้ากันได้บางตำแหน่ง หรือเข้ากันไม่ได้เลย แต่ในภาพรวม ตัวที่เราสนใจคือ ประเภทที่เข้ากันได้ทั้ง 15 ตำแหน่งที่ตรวจ มีประมาณ ร้อยละ 0.45 เมื่อเทียบกับคนในฐาน หรือคิดเป็นประมาณ 1 ใน 250 คน คือทุกๆ 250 คนในฐานข้อมูล จะมีคนที่มีรูปแบบดีเอ็นเอเข้ากันได้โดยบังเอิญ (15 ตำแหน่ง) ชนิดที่แปลผลได้ว่าเป็นพ่อ-ลูก หรือ แม่-ลูก จำนวน 1 คน  ผมขอย้ำไว้ก่อนนะครับ ว่าข้อมูลนี้มีข้อจำกัดในการใช้ เนื่องจาก ฐานข้อมูลที่ผมใช้อยู่ มีขนาดเพียง 3000 records และสุ่มตัวอย่างมาเพียง 20 ตัวอย่างเท่านั้น  เพียงแต่น่าจะบอกทิศทาง หรือแนวโน้มได้ครับ

     คำถามที่ตามมา คือถ้า 15 ตำแหน่งที่เราตรวจโดยทั่วไป ยังมีความเสี่ยงที่อาจส่งคืนเด็กให้กับพ่อ-แม่ผิดคนได้ ถ้าอย่างนั้น เราต้องตรวจอย่างน้อยกี่ตำแหน่ง....นี้ก็เป็นคำถามที่น่าจะต้องหาคำตอบเช่นเดียวกันครับ  และผมก็พยายามหาวิธีการในการตอบคำถามนี้ 

     เรื่องเหล่านี้ต้องใช้เวลาครับ เพราะการค้นหาข้อมูล 1 คน ในฐานข้อมูล ทุกๆ 1 ตำแหน่งที่ค้น ใช้เวลา 15 นาที แล้ว 1 คน ต้องค้นทั้ง 15 ตำแหน่ง  ทุก 1 คนที่ค้นต้องใช้เวลาเกือบ 4 ชั่วโมง ผมนั่งเล่นอยู่ประมาณอาทิตย์หนึ่ง ค้นข้อมูลได้เพียง 20 คน เท่านั้นเอง แค่นี้ ก็แทบจะไม่ต้องทำแล็บแล้วครับ วันๆ นั่งอยู่หน้าเครื่องคอม....

     ส่วนการที่บอกว่า เราก็คำนวณ posterior prob โดยการใช้ prior prob ให้เท่ากับจำนวนข้อมูลในฐานข้อมูล แล้วจะได้ posterior prob ต่ำกว่า 99% เอง โดยที่มี LR สูงกว่า 99 เท่าก็ได้  .......วิธีนี้ ก็เป็นทางเลี่ยงในแง่ของสถิติครับ แต่ความหมายของการเลี่ยงแบบนี้ คือ แม้ว่าจะค้นเจอว่ามีรูปแบบดีเอ็นเอเข้าได้เป็นพ่อ-ลูก หรือแม่-ลูกกับบุคคลในฐาน แต่.....ฉันไม่กล้าฟันธง....ว่าใช่หรือไม่....  ซึ่งถ้าเป็นอย่างนั้น ก็ไม่รู้ว่าจะรายงานผลไปทำไม  อ้าว....แล้วอย่างนี้ จะมีประโยชน์เหรอ ก็ต้องตอบว่า การค้นข้อมูลในฐานข้อมูลคนหาย ถ้าค้นไม่เจอ ก็แน่ใจได้เลยครับว่า คนที่เราค้นนั้น ไม่ได้เป็นญาติกับคนในฐานข้อมูล แต่ถ้าค้นเจอ....ก็ยังสรุปไม่ได้ครับว่าจะใช่หรือไม่ใช่ เพราะไอ้ที่ว่าใช่นั้น อาจเป็น่ใช่จริง หรือเป็นเพียงการใช่โดยบังเอิญ ซึ่งยังจำเป็นต้องใช้หลักฐานอื่นๆ เข้ามาประกอบการพิจารณาร่วมด้วยครับ ข้อมูลด้านดีเอ็นเอ เป็นเพียงหลักฐานหนึ่งที่ใช้ประกอบการพิจารณาเท่านั้นเอง.......เฮ้อ.....

     อ้อ .....เพื่อความกระจ่างชัด เดี๋ยวจะเป็นเรื่อง....

     ผมคงต้องบอกก่อนครับว่า....เรื่องนี้ เป็นคนละเรื่องกับการที่มี คนจูงมือกันมากตรวจพิสูจน์ความเป็นพ่อ-ลูก หรือ แม่-ลูก หรือ พ่อ-แม่-ลูกพร้อมกันนะครับ  เรื่องนั้นยังคงมีความน่าเชื่อถือของการรายงานผลการตรวจพิสูจน์ดีเอ็นเอเช่นเดิม และส่วนเรื่องที่น่าปวดหัวนี้ เป็นเรื่องของการค้นรูปแบบดีเอ็นเอเข้าไปในฐานข้อมูลคนหาย เพื่อดูว่า คนนี้น่ะเป็นลูกใคร หรือเป็นพ่อใคร หรือเป็นแม่ใครได้บ้าง......เข้าใจตรงกันแล้วนะคร้าบบบบบบ

หมายเลขบันทึก: 536512เขียนเมื่อ 20 พฤษภาคม 2013 09:57 น. ()แก้ไขเมื่อ 20 พฤษภาคม 2013 10:16 น. ()สัญญาอนุญาต: ครีเอทีฟคอมมอนส์แบบ แสดงที่มา-ไม่ใช้เพื่อการค้า-ไม่ดัดแปลงจำนวนที่อ่านจำนวนที่อ่าน:


ความเห็น (0)

ไม่มีความเห็น

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท