
ผมกำลังทำงานในโปรเจ็คที่ศึกษาเกี่ยวกับ Copy Number Variation (CNV) ซึ่งเป็นความหลากหลายทางพันธุกรรมแบบหนึ่งที่ครอบคลุมเกือบ 10% ของ human genome ทั้งหมด โดยอาศัยข้อมูลที่ได้จาก SNP Array ซึ่งเป็นเครื่องมือการตรวจหา genetic marker แบบ high-throughput ชนิดแรกๆ ที่เริ่มใช้กันอย่างแพร่หลายในโลก
ขั้นตอนการทำงานที่แพลนไว้เบื้องต้นนี้ก็ไม่ได้ซับซ้อนอะไรมาก ไม่ได้วางแผนว่าจะต้องเขียนโปรแกรม หรือ software ใหม่เพื่อมาตอบคำถามที่เราต้องการทราบ คือ ความถี่ของ CNV ที่เจอได้ในประชากรไทย มีมากหรือน้อยเพียงไร
software ที่ผมเลือกใช้คือ โปรแกรมชื่อ PLINK (พลิ้งค์) -- ออกเสียงต่างจากโปรแกรม พีลิ้งค์ (Plink -- Putty Link ที่ใช้ในการเชื่อมต่อคอมพิวเตอร์ลูกข่ายเข้ากับแม่ข่าย) จาก Massachusette Genearl Hospital ของ Harvard University
ถามว่า หลังจากได้ข้อมูลจาก SNP array มาแล้ว สามารถเอามาใช้ได้หรือไม่ เพราะอะไร
ถ้าจะตอบแบบง่ายๆสั้นๆก็คือ พอใช้ได้ ด้วยความระวัง เพราะข้อมูลที่ยังไม่ได้ผ่าน quality control นั้น อาจมีข้อมูลที่ผิดพลาดมากมาย ซึ่งหลังจากที่เสียเวลาไปวิเคราะห์ข้อมูลไปเป็นปีแล้ว อาจจะพบที่หลังว่า ข้อมูลดังกว่าวมีปัญหาไม่ถูกต้อง
ซึ่งกระบวนการ quality control หรือกระบวนการควบคุมคุณภาพของข้อมูลนี้ สามารถป้องกันข้อผิดพลาดเหล่านี้ ไม่ให้ก่อให้เกิดปัญหาต่อไปข้างหน้าได้
รายละเอียดเกี่ยวกับ Quality control ของ GWAS data สามารถอ่านเพิ่มเติมได้จากบทความนี้ http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3066182/ ซึ่งผมคิดว่าผู้เขียนสรุปรวบรวม ได้ดี