วิจัยทางคลินิกแบบบ้านๆ : บิดเบือน..Bias

Bias คือ systematic error เป็นการ "บิดเบือน" ด้วยความตั้งใจ หรือไม่ตั้งใจ ในขณะที่ Chance มักแสดงไว้ในรูปสถิติตรวจสอบได้ แต่ bias เป็นเรื่องที่ต้องอาศัยความรู้ทางการแพทย์และการพิเคราะห์ของผู้อ่าน
มีการแบ่งประเภท Bias ไว้มากมาย แต่ Szklo and Nieto, 2008 แบ่งแค่สองตระกูลใหญ่ๆ คือ Slection กับ Information bias

Selection bias ส่งผลใหเกิด Over หรือ Under represent
แบ่งได้เป็นสองส่วนคือ
1. "วิธีการคัดเลือก" (Recruit / Front end)กลุ่มตัวอย่างเข้าสู่การศึกษา ว่ามีผลให้ disease-exposure combination ใด เข้ามาน้อยเพราะถูกสกัด หรือเข้ามามากหรือถูกชักจูง จนทำให้เขวจากสภาพเป็นจริงในประชากรที่ต้องการศึกษาหรือไม่

2. การติดตาม(Retain /Back end) การ lost follow up ก็จัดเป็น selection bias เพราะผลลัพท์ของมันมีผลคือ under หรือ over represent ได้หาก
- คนที่ lost follow up ไปน่าจะมีสัดส่วนผู้เป็นโรค (Incidence) ต่างจากคนที่เหลือ เช่น เป็นโรคแล้วป่วยหนักจนมาติดตามที่ รพศ. ไม่ได้ เป็นการ lost follow up ที่มีความหมายเพราะทำให้ผลสุดท้ายไขว้เขวได้ จังเรียกว่า "Informative censoring"
- "และ" เปอร์เซ็นต์ผู้ที่ lost follow up แตกต่างระหว่างกลุ่ม exposure

พูดง่ายๆ ก็คือการ lost follow up หนักไปใน "Exposure-disease" ช่องใดช่องหนึ่งในสี่ช่อง ดังตัวอย่างด้านล่าง จะเห็นว่า ผู้ที่ smoking-cirrhosis หายไปถึง 10 ในที่หายไปทั้งหมด 16 คน

	Cirrhosis	No Cirrhosis
Smoking	20	80
No smoking	10	90

	Cirrhosis	No Cirrhosis
Smoking	10	75
No smoking	9	90

Information bias ส่งผลให้เกิด Misclassification
แบ่งได้เป็นสองส่วนคือ
1. ที่เกิดจากวิธีการวัด คุณสมบัติการจำแนก (discrimination) ของเครื่องวัดคือ sensitivity (detect who have) และ specificity ที่ไม่สมบูรณ์ 100% ย่อมทำให้เกิด misclassified ได้ เช่น การใช้แบบสอบถามประเมินความเครียด อาจไม่สามารถวินิจฉัยผู้มีโรคเครียดได้ทั้งหมด (sensitivity ไม่ 100%) และอาจ overdiagnosis บางคน ( specificity ไม่ 100%) เนื่องจากเป็นการ misclassified แบบถ้วนหน้าไม่เลือกที่รักมักที่ชังจึงเรียกว่า " Nondifferential misclassification" ผลจะทำให้ association อ่อนลง
...ผู้วิจัย เลยไม่ค่อยกังวลมากนัก เพราะถ้าใครแย้ง bias ตัวนี้มา ก็จะได้บอกกลับไปว่า "นี่ขนาดมี Nondiff-misc ยังได้ RR เท่านี้ ถ้าไม่มี มิยิ่งชัดกว่านี้อีกหรือ หุๆ"

2. ที่เกิดจากการเลือกที่รักมักที่ชัง "Differential misclassification" ผลลัพท์ที่ subjective มักเกิด bias ได้ง่ายกว่าผลลัพท์ที่ objective
การประเมิน exposure: เกิดใน case-control study ที่เรารู้จักกันดี เช่น Recall bias ที่ผู้เป็นโรค มักกล่าวถึง Risk exposure เกินจริง
การประเมิน outcome : เกิดได้ในทุก study design จากทั้ง care provider และผู้ประเมิน (observer bias)

-----------------------------------------------------------------------------------------

มีคนเปรียบว่า Bias เหมือนการเดาตัวละครในหนัง คนที่ดูหนังเกาหลีบ่อยๆ อาจเดาได้เร็วและได้ตรงกว่าคนที่ไม่เคยดูมาก่อนเลย
จึงขอยกตัวอย่าง Bias ที่เรียกชื่อเฉพาะที่พบบ่อยใน งานวิจัยประเภท Diagnostic test คะ

ความเชื่อถือของคำตอบงานวิจัยเกี่ยวกับ Diagnosis test อาจแบ่งได้เป็นสองส่วคือ

1. การทำ diagnostic test นั้นมีประโยชน์ทางคลินิก (early treatment, prolong life) จริงหรือ?

เป้าหมายของการทำ test แท้จริง คือนำไปสู่การรักษาที่เหมาะสม เช่นเดียวกับการเล่นหวย เป้าหมายไม่ได้หยุดแค่ให้ถูกตามเฉลย แต่อยู่ที่รางวัลต่างหาก

มีสิ่งใดบ้างที่ทำให้ดู test นั้นมีคุณค่าทางคลินิกเกินจริง (โฆษณารางวัลไว้สูงเกินจริง)

Selection bias: ในกรณีหา sample ด้วยวิธีประกาศหาอาสาสมัคร..สิ่งที่ตามมา คือ อาจได้แต่คนที่ใส่ใจสุขภาพสูงงง (Health concious) กินดี อยู่ระวัง ผลคือ ผู้ที่ได้รับการ screening test นี้มีอายุยืนยาว กว่าผู้ไม่ได้รับการ test เห็นๆ สิ่งนี้เรียกว่า Volunteer bias

Information bias:
การพิจารณา survival หลังจากได้รับการวินิจฉัย (postdiagnosis survival) เปรียบเทียบระหว่าง กลุ่มที่เจอโรคด้วยตัวเองจากมีอาการ กับ กลุ่มที่เจอจาก test ก่อนมีอาการ ...สมมติปล่อยให้ทั้งสองกลุ่มถูกฟ้ากำหนดให้เสียชีวิตพร้อมกัน ผลที่เจอคือ
กลุ่มที่ทำ test ก็ดูเหมือน survival ยาวกว่า แม้ให้การรักษาไม่ต่างกันเลย
เพราะ...เจอก่อน รู้ตัวก่อน (และทุกข์ก่อน) จึงเรียกว่า Lead time bias

ในกรณี โรคเดียวกันมีความรุนแรงต่างกัน ยกตัวอย่าง มะเร็ง ซึ่งมีทั้งแพร่กระจายเร็ว และชนิดอยู่เงียบๆ หงิมๆ หลายสิบปีไม่มีอันตราย มะเร็งชนิดไหน มี"โอกาส" ให้ screening เจอมากกว่ากัน..หากคิดว่า การทำ screening test ก็เหมือนการที่ตำรวจเข้าตรวจค้น ถ้าผู้ร้ายว่องไวมาแป๊บเดียวขนหมดบ้าน กับ ผู้ร้ายเชื่องช้านั่งๆ นอนๆ ในบ้านทั้งคืน แบบไหนมีโอกาสโดนตรวจเจอมากกว่ากัน? ผลคือ คนที่ตรวจ"เจอ"โดย screening test ก็มี prognosis ดีโดยปริยาย เพราะที่ตรวจ"ไม่เจอ" ก็เพราะมีช่วงเวลานาทีทองสั้นเหลือเกิน เห็นอยู่หลัดๆ ด่วนไปสวรรค์ซะแล้ว จึงเรียกว่า Length time bias

วิทยาการของเครื่องมือในการตรวจวินิจฉัยที่ Sensitive มากขึ้น ทำให้สิ่งที่เรียกว่า "Stage I"ปัจจุบันต่างจากเมื่อ 20 ปีก่อน สมมติ นาย ก. มี lesion 0.5 mm เมื่อ 20 ปีก่อนตรวจไม่เจอ ต้องรอให้ lesion ใหญ่ 2 cm จึงตรวจเจอและเรียก "stage I"
แต่ปัจจุบัน นาย ก. สามารถตรวจเจอ lesion 0.5 mm. แล้วเรียกว่า "stage I"
ดังนั้น โดยพยาธิสภาพ stage I ณ ปัจจุบันจึง mild กว่าตั้งแต่ต้น..ดังนั้น การเปรียบเทียบ stage specififice survival ของการ test วิธีใหม่เทียบกับอดีต จึงต้องดูรายละเอียด เพื่อระวังสิ่งที่เรียกว่า Stage migration bias

Disease ตามหลักการน่าจะเป็น pathology -> morbidity->illness แต่ในโลกเทคโนโลยี การให้ความสำคัญกับ pathology อย่างสุดโต่ง ทำให้บางครั้งกลายเป็น Pathology-> illness -> morbidity (ทำไม LDL ตั้ง 71 !! เครียดๆๆ) ก็เป็นได้
บางพยาธิสภาพเกิดขึ้นมาแล้วหายเองได้ เมื่อได้รับการอุปโลกน์ว่า นี่แหละคือโรคร้าย เมื่อได้รับการตรวจ รักษาแล้วหายทั้งนั้น (จริงๆ คือไม่รักษา ก็ไม่เป็นไร- Pseudodisease) ก็ก่อให้เกิดความประทับใจ ว่าตรวจพบ incident โรคนี้ได้เยอะขึ้น แต่..เอ..ทำไม่ Mortality ไม่ลด ก็จะลดได้อย่างไร ในเมื่อเดิมก่อนถูกอุปโลกน์ขึ้นมา มันก็ไม่ทำให้เสียชีวิตอยู่แล้ว..ดีไม่ดี เสียชีวิตจากความเครียดหรือหัตถการเพิ่มขึ้นไปอีก

ด้วยเหตุว่า Lead time, Length time และ stage migration bias ทำให้เกิด bias เมื่อนับเวลาตั้งแต่ " แรกวินิจฉัย- survival" จึงนิยมใช้ Cause-specific mortality เป็นตัววัด อย่างไรก็ตาม ปัญหายังมีอยู่จากการลงความเห็นสาเหตุการตาย เช่นผู้ที่ได้รับ screening พบ CA cervix ระยะแรก ปรากฎว่าเกิดสำลักเสียชีวิตกะทันหัน แล้วลงทะเบียนสาเหตุการตายจากมะเร็ง (Sticky diagnosis bias) ทำให้ผลของ screening ดูแย่ ตรงกันข้าม หากการลงความเห็นว่าเสียชีวิตจาก iatrogenic ที่เป็นผลตามมาจาก screening อาจน้อยกว่าจริง (Slippery linkage bias) ก็บดบังผลเสียของ screening

สรุปผลของ bias ต่อ survival/mortality ของ screening test

Bias	Survival	Mortality	Comment
Volunteer	เพิ่ม	ลด	ส่วนมากจะลด เพราะมักเป็น Healthy/Health concious volunteer
Sticky diagnosis	ไม่มีผล	เพิ่ม
Slippery lingage	ไม่มีผล	ลด
Lead time	เพิ่ม	ไม่มีผล	* เหตุผล คือ "survival" study base คือผู้ที่ "ได้รับการวินิจฉัย" ในขณะที่ "mortality rate" study base คือผู้ที่ "ได้รับการ screening"
Length time	เพิ่ม	ไม่มีผล
Stage migration/ Pseudodisease	เพิ่ม	ไม่มีผล

2. test นั้นแม่นยำ (Sensitivity, specificiity จริงหรือ)

มี bias ต่อการประเมินความแม่นยำ อยู่ 4 ตัวสำคัญ คือ spectrum , Verification , Double gold standard bias และ Incoporation มีรายละเอียดดังนี้คะ

Selection bias : ประชากรกลุ่มที่ศึกษานั้นมีระดับความแตกต่างของความรุนแรงโรคนั้นอย่างไร แม้ทางทฤษฏี เวลาเราทำ 2X2 table จะใส่ D+, D- แต่ในชีวิตจริงไม่ได้มีแค่ขาวกับดำ แดงกับเหลือง(อุ๊บส์) แต่มีเฉดสีไล่กันไป

เช่น การวินิจฉัยกระดูกหักที่ต้ดสินจากฟิล์มเอกซเรย์ มีตั้งแต่ เด็กป.4 เห็นก็รู้ (obvious) ไปจนถึง พระเจ้าเท่านั้นที่รู้ ดังนั้นหากประชากรที่ศึกษามีแต่ obvious abnormal วินิจฉัยถูกว่าผิดปกติก็ย่อมสูง (high sensitivity) หรือมีแต่ obvious normal การวินิจฉัยถูกว่าปกติก็ย่อมสูง (high specificity) ไม่เหมือนผู้ป่วยในโลกแห่งความจริงมี spectrum of severity ต่างไป เรียกว่า spectrum bias
อย่าง secondary care อาจไม่ให้ sensitivity สูงแบบการศึกษาในผู้ป่วย tirtiary care หรือ specificity สูงแบบที่ศึกษาในผู้ป่วย primary care ไม่ใช่เพราะ Prevalence ที่ต่าง แต่เพราะ Clinical severity ที่แตกต่าง

การศึกษา diagnostic test ของ Congestive heart failure ใน Primary care (lower severity) -> good specificity

	Dis +	Dis -
Test +	TP little effect	FP little effect
Test -	FN decrease	TN increase

การศึกษา diagnostic test ของ Congestive heart failure ใน cardiology clinic (high severity) -> good sensitivity

	Dis +	Dis -
Test +	TP increase	FP decrease
Test -	FN little effect	TN little effect

diagnostic test ที่สนใจจะทดสอบ เราเรียกว่า Index test และวิธีการหรือเครื่องมือที่ใช้เป็นตัวตัดสิน เราเรียกว่า gold standard โดยหลักการแล้ว ทุกๆ คนที่ทดสอบ index test ควรได้รับการตัดสินด้วย gold standard แต่..ชีวิตจริง เมื่อ screening test negative เราจะอยากทำ confirmation test ต่อไหม? สิ่งที่เกิดขึ้นคือ กลุ่มคน negative index test เสมือนถูกกีดกันจากการวินิจฉัยด้วย gold standard ซึ่งมีสองกรณีคือ

- กีดกันโดยสิ้นเชิง เรียกว่า Verification bias เช่นการศึกษา plain film วินิจฉัยมะเร็งปอด ที่ตั้งต้นด้วยการ include เฉพาะผู้มีผล CT (gold standard) เท่านั้น คิดดูว่าในกลุ่มผู้มีผล CT นั้นจะเป็นผู้มี plain film (index test) negative สักกี่ราย? คิดกลับกัน กลายเป็นว่าคนที่ plain film negative แทบไม่มีโอกาสได้วินิจฉัยเลย
การที่ผู้มี index test negative ได้รับการตัดสินผลน้อยกว่า (underrepresent)
ผลคือ sensitivity high (แบบปลอมๆ ที่เกิดจากการปิดกั้น ไม่ให้ index test negative มีปากมีเสียงฟ้องว่า ฉันนี้แหละ false negative) แต่ specificity low (เพราะไม่มีโอกาสแจ้งเกิด True negative)

Information bias
- ไม่ปิดกั้น แต่ใช้ gold standard คนละอย่าง เรียกว่า Double gold standard bias (verification bias II) Diagnostic study ต้องการ "Current association" ระหว่าง index test กับ gold standard ปัญหาจึงอาจเกิดได้เมื่อนำการ follow up มาเป็นตัวตัดสิน
การใช้ follow up เป็น gold standard ต้องตั้งบนสมมติฐานว่าโรคนั้น ไม่เปลี่ยนไปตามกาลเวลา
กรณีโรคเกิดขึ้นใหม่ได้ระหว่าง Follow up
เช่น การตรวจหามะเร็งปอดด้วย CXR ถ้าแบ่งแยก ให้คนที่ CXR ผิดปกติได้รับ CT แต่คนที่ CXR ปกติ follow up แต่อย่าลืมว่า บางคนที่ ณ ตอนนั้นไม่มีจุดอะไรในปอดจริงๆ (true negative) 3 เดือนถัดมา เซลล์มะเร็งตัวแรกอาจอุบัติขึ้นมาก็ได้ ดังนั้นเมื่อวัดผลตอน follow up 1 ปี จาก true negative ได้แปรสภาพเป็น false negative โดยไม่ใช่ความผิดพลาดของ CXR เมื่อ 1 ปีก่อนเลยแม้แต่นิด
การ "migrate" เปลี่ยนข้างของเคสนี้ ส่งผลให้ทั้ง sensitivity และ specificity ของ CXR "โดนใส่ความ" ว่าแย่

	Dis +	Dis -
Test +	TP	FP
Test -	FN : increase	TN : decrese

ในกรณีโรคที่หายเองได้ระหว่าง follow up
เช่น mild viral bronchitis หาก x-ray เจอรอยโรค แล้ววันต่อมา ก็หายเอง..กรณีแม้ ณ ตอนนั้นแม้ไม่เห็นจุดในปอด ทั้งๆ ที่อาจมีอยู่(False negative) แต่เมื่อใช้ clinical follow up คนไข้ไม่มีอาการกลับเป็นปกติ กลายเป็น True negative sens และ spec ในกรณีนี้จึงได้อานิสงค์เพิ่มขึ้น..
ลองคิดง่ายๆว่า ผู้ป่วยอาจแค่ไอเล็กๆน้อยๆ CXR ปกติ แต่หากทำ CT เจอรอยโรคก็ต้องให้ยาทั้งที่ไม่จำเป็นต้องให้ยา ดังนั้นการติดตามอาการอย่างเหมาะสมกลับมีเหตุผลกว่า

	Dis +	Dis -
Test+	TP	FP
Test-	FN:decrease	TN:increase

- เมื่อ gold standard ต้องอาศัยความเห็น จริงๆก็ส่วนใหญ่..เมื่อถามว่าอะไรคือ gold standard วินิจฉัยโรคคืออะไร เรามักตอบ "ผล patho" เมื่อคิดต่อไป ก็ต้องใช้คนตัดสิน..
เคยสังเกตไหมว่า เรามักมองเห็นรอยโรคในฟิล์มชัดเจนขึ้น หลังจากฟังได้ยิน crepitation ในปอด..หรือ EKG elevate ชัดขึ้นเมื่อรู้ผล Trop T positive
นั้นเองที่เรียกว่า Incoporation bias เกิดจาก ผู้ตัดสินว่าเป็นโรคไม่เป็นโรค ทราบผลจาก index test ก่อน ผลคือกรรมการเข้าข้าง ทำให้ test ดูแม่นยำขึ้น

สรุป ผลของ bias ต่อ sensitivity และ specificity ได้ดังนี้ ( ดัดแปลงจาก Newman & Kohn,2009)

Bias	Sensitivity	Specificity	Comment
Spectrum - Low severity - High severity	เพิ่มเล็กน้อย เพิ่ม	เพิ่ม เพิ่มเล็กน้อย
Verification	เพิ่ม	ลด	Case-control
Double gold standard - โรคที่หายเองได้ - โรคที่ไม่หายเอง	เพิ่ม ลด	เพิ่ม ลด	Clinical follow up เป็น gold standard
Incoporation	เพิ่ม	เพิ่ม

วิจัยทางคลินิกแบบบ้านๆ : บิดเบือน..Bias

ความเห็น

บทความในวันเดียวกัน