มารายงานเหตุการณ์/ความคืบหน้าครับ

  • ในวันเสาร์ที่ 4 พ.ย.ที่ผ่านมา เวลา 16:04 เกิดไฟฟ้าจากการไฟฟ้า (ดับ-ติด)ๆๆๆ เป็นเวลา 8 วินาทีบนไฟ โดยดูจาก log file
  • ระบบไฟฟ้าสำรองซึ่งประกอบไปด้วย UPS สองตัว (และยังมี UPS standby อีกตัวหนึ่งใช้เพื่อจ่ายไฟในกรณีที่ UPS หลักตัวใดตัวหนึ่งมีปัญหาจ่ายไฟไม่ได้ บวกกับเครื่องปั่นไฟใช้น้ำมันคอยอยู่เบื้องหลังในกรณีที่ไฟฟ้าดับเป็นระยะเวลานานมากเกินกว่า UPS จะรับไหว)
  • การจัดการกับไฟฟ้าดับขึ้นกับอุปกรณ์ที่เรียกว่า Automatic Transfer Switch (ATS) ซึ่งจะสับไฟฟ้าจากแหล่งสำรองมาจ่ายให้กับศูนย์ข้อมูล
  • ในช่วงที่กระแสไฟฟ้ามีปัญหา ปรากฏว่า ATS เกิดไม่จ่ายไฟจากแหล่งสำรอง และยังปล่อยไฟกระชากเข้าไปในระบบไฟฟ้าของศูนย์ข้อมูล จนทำให้ระบบป้องกันชั้นที่สองคือ breaker บางตัวเกิด trip ปิดตัวเองลง
  • เหตุที่ต้องมีระบบป้องกันชั้นที่สอง ก็เพื่อป้องกันความเสียหายของคอมพิวเตอร์ต่างๆจากกรณีระบบไฟฟ้าผิดปกติมากเช่นกรณีนี้
  • เมื่อ breaker trip ก็ทำให้บางบริเวณของศูนย์ข้อมูล ไม่มีไฟฟ้า แม้ว่าไฟจากการไฟฟ้าจะดีแล้ว ก็ไม่สามารถจ่ายไฟเข้าไปหลัง breaker ได้เนื่องจาก breaker ปิดไปแล้ว
  • เจ้าหน้าที่ได้ไล่เปิด breaker ใหม่แต่ คอมพิวเตอร์บางระบบปิดไปแล้วเนื่องจากไม่มีไฟอยู่ชั่วขณะหนึ่ง จึงต้องไล่เปิดเครื่องใหม่ด้วย
  • ระบบจะกลับคืนมาหรือไม่ ขึ้นกับปัจจัยหลายอย่าง เช่นเขียน automatic startup procedure ไว้ครบถ้วนหรือไม่ หรือว่า boot process มีปัญหาหรือไม่
  • กรณีของ G2k มีปัญหาที่ระบบนี้เป็น database intensive โดยระบบใช้ default filesystem (คือ ufs2) ซึ่งไม่ค่อยทนทานต่อปัญหาไฟฟ้าดับ (ที่จริงก็ไม่ควรดับเลย) และยิ่งเสี่ยงหากมีการเขียนไฟล์ด้วยอัตราสูงอย่างในกรณีของ G2k เนื่องจากการ update linked list ใน filesystem นั้นทำอยู่ใน memory cache ไม่ได้อัพเดตดิสก์ในทันที (หวังจะให้การเข้าถึง/เปลี่ยนแปลงข้อมูลเร็วขึ้น -- เป็นวิธีการออกแบบ filesystem มาตรฐาน)
  • ดังนั้นเมื่อเกิดไฟดับ gotoknow.org จึงไม่สามารถจะ reboot ขึ้นมาอย่างสมบูรณ์ จะต้องซ่อม filesystem ก่อน (fsck) ซึ่งใช้เวลาบ้าง

ประเด็นของศูนย์ข้อมูลที่ได้ทำไปตาม procedure ของ ISO 9001:2000 ที่ใช้กำกับคุณภาพศูนย์ข้อมูลอยู่คือ

  1. ตรวจสอบการออกแบบระบบใหม่ทั้งหมด --  ปรากฏว่าไม่พบความผิดพลาดใดๆ
  2. ทดสอบ UPS ซึ่งกำลังจะถึงกำหนดการบำรุงรักษาในอีกสองสัปดาห์ข้างหน้า -- ไม่พบความผิดพลาดเช่นกัน
  3. ทดสอบ ATS ซึ่งได้ทำไปตอนเที่ยงคืนวันจันทร์ (หรืออะไรทำนองนั้น) -- ไม่พบข้อผิดพลาด
  4. ทดสอบระบบทั้งหมด เพราะไม่สามารถจะยอมให้ลูกค้าใช้งานอยู่บนความเสี่ยงใดๆได้ -- ไม่พบข้อผิดพลาด
  5. จนปัจจุบัน ยังไม่พบความผิดพลาดใดๆ และยังไม่มี CAR (Corrective Action Request) ใดๆ แต่ INET ก็ยังปรึกษากับ vendor ของอุปกรณ์ต่างๆอยู่ -- จนปัจจุบัน ยังไม่พบคำอธิบายที่ดีพอ -- จะบอกว่า act of God ก็ง่ายไป

ในส่วนของ G2k ดร.ธวัชชัย ก็ได้ถือโอกาสนี้ปรับปรุงระบบหลายอย่างครับ รอให้การปรับปรุงเสร็จก่อนคงจะได้เห็นรายงานความคืบหน้า

จึงเรียนมาเพื่อขออภัย ต่อผู้ใช้ gotoknow.org ทั้งหมดครับ