ผมกำลังทำงานในโปรเจ็คที่ศึกษาเกี่ยวกับ Copy Number Variation (CNV) ซึ่งเป็นความหลากหลายทางพันธุกรรมแบบหนึ่งที่ครอบคลุมเกือบ 10% ของ human genome ทั้งหมด โดยอาศัยข้อมูลที่ได้จาก SNP Array ซึ่งเป็นเครื่องมือการตรวจหา genetic marker แบบ high-throughput ชนิดแรกๆ ที่เริ่มใช้กันอย่างแพร่หลายในโลก

ขั้นตอนการทำงานที่แพลนไว้เบื้องต้นนี้ก็ไม่ได้ซับซ้อนอะไรมาก ไม่ได้วางแผนว่าจะต้องเขียนโปรแกรม หรือ software ใหม่เพื่อมาตอบคำถามที่เราต้องการทราบ คือ ความถี่ของ CNV ที่เจอได้ในประชากรไทย มีมากหรือน้อยเพียงไร 

software ที่ผมเลือกใช้คือ โปรแกรมชื่อ PLINK (พลิ้งค์) -- ออกเสียงต่างจากโปรแกรม พีลิ้งค์ (Plink -- Putty Link ที่ใช้ในการเชื่อมต่อคอมพิวเตอร์ลูกข่ายเข้ากับแม่ข่าย) จาก Massachusette Genearl Hospital ของ Harvard University 

ถามว่า หลังจากได้ข้อมูลจาก SNP array มาแล้ว สามารถเอามาใช้ได้หรือไม่ เพราะอะไร

ถ้าจะตอบแบบง่ายๆสั้นๆก็คือ พอใช้ได้ ด้วยความระวัง เพราะข้อมูลที่ยังไม่ได้ผ่าน quality control นั้น อาจมีข้อมูลที่ผิดพลาดมากมาย ซึ่งหลังจากที่เสียเวลาไปวิเคราะห์ข้อมูลไปเป็นปีแล้ว อาจจะพบที่หลังว่า ข้อมูลดังกว่าวมีปัญหาไม่ถูกต้อง 

ซึ่งกระบวนการ quality control หรือกระบวนการควบคุมคุณภาพของข้อมูลนี้ สามารถป้องกันข้อผิดพลาดเหล่านี้ ไม่ให้ก่อให้เกิดปัญหาต่อไปข้างหน้าได้

รายละเอียดเกี่ยวกับ Quality control ของ GWAS data สามารถอ่านเพิ่มเติมได้จากบทความนี้ http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3066182/ ซึ่งผมคิดว่าผู้เขียนสรุปรวบรวม ได้ดี

จากเปเปอร์นี้ จะเห็นได้ว่ากระบวนการทำ QC มีหลายขั้นตอน แต่หลักๆแล้ว เราต้องการ
1. Check Sample Quality
    1.1 Sex inconsistencies & chromosomal abnormalities
    1.2 Sample relatedness 
    1.3 Population substructure
    1.4 Genotyping efficiency (call rate per sample)
2. Marker Quality
    2.1 Genotyping efficiency (call rate per SNP)
    2.2 Control sample reproducibility (Check consistency with Hapmap control sample)
    2.3 Minor allele frequency
    2.4 Hardy-Weinberg Equilibrium (HWE) 
3. Check for Batch Effects 
 
วันนี้คงขอจบแค่นี้ ยังไม่ได้กล่าวถึงกันว่า quality control ใน CNV data สามารถตรวจเช็คอะไรกันได้บ้างครับ