GotoKnow
  • เข้าระบบ
  • สมัครสมาชิก
  • แผงจัดการ
  • ออกจากระบบ
GotoKnow

ยังไม่มี AAR การกู้เครื่องแม่ข่ายของ GotoKnow.org

ดร.จันทวรรณได้ลิงค์มาที่บล็อคผมว่าจะมี AAR ของการกู้เครื่องแม่ข่ายจากการที่ไฟฟ้ากระชากที่ Internet Thailand ในวันเสาร์ที่ผ่านมา

เลยขอเรียนว่า AAR ยังไม่มีครับ เพราะยังมี "action" ให้ได้ทำเป็นระยะ เพราะ file system ของ FreeBSD ไม่ค่อยทนทานกับการเครื่องดับโดยกระทันหันครับ โดยเฉพาะเวลามี access เกิดขึ้นเยอะๆ ตอนที่เครื่องดับนั้น file system ค่อนข้างปั่นป่วนทีเดียว ต้องทำให้เข้าที่เสียหน่อย ไม่งั้นระบบโดยรวมก็ช้า เพราะไปรอ I/O

FreeBSD ออกแบบมาให้อยู่ในห้องครับ ทำงานดี แต่ไม่ทนไฟ

บันทึกนี้เขียนที่ GotoKnow โดย 

คำสำคัญ (keywords): serverfreebsdblackout
หมายเลขบันทึก: 57317
เขียน:
แก้ไข:
ความเห็น: 5
อ่าน:
สัญญาอนุญาต: สงวนสิทธิ์ทุกประการ

ความเห็น (5)

เอาใจช่วยอยู่ค่ะ แว้บเข้าแว้บออก เพราะเห็นว่ามีการติดขัดบางช่วงอยู่เป็นระยะๆ บางครั้งก็ช้าจนต้องกระโดดเข้าโดยไม่ log in จะเร็วกว่า

ตกลงยังคงมีผู้ดูแลระบบเพียง 2 ท่านใช่ไหมคะ แถมยังต้องพัฒนาระบบและทำงานอื่นๆอีกด้วย เห็นใจจริงๆค่ะ สู้...สู้...นะคะ

ขอขอบคุณท่านอาจารย์ธวัชชัย และทีมงาน G2k...

  • ขอขอบพระคุณทีมงาน G2k ที่ทำงานหนัก... ไม่เว้นแม้ในวันหยุด หรือเทศกาล เช่น ลอยกระทง กฐิน ผ้าป่า ฯลฯ
  • ขอขอบพระคุณอีกครั้งหนึ่ง... สาธุ สาธุ สาธุ
ขอเป็นกำลังใจให้นะคะอาจารย์
มาให้กำลังใจด้วยอีกคนหนึ่งค่ะ...เมื่อวานเป็นอย่างอาจารย์โอ๋ว่าค่ะ...แว้บเข้าแว้บออก...ต้องรอจ่ออยู่หน้าจอกันเลย...วันนี้ OK แล้ว...ขอบคุณมาก ๆ ค่ะ

มารายงานเหตุการณ์/ความคืบหน้าครับ

  • ในวันเสาร์ที่ 4 พ.ย.ที่ผ่านมา เวลา 16:04 เกิดไฟฟ้าจากการไฟฟ้า (ดับ-ติด)ๆๆๆ เป็นเวลา 8 วินาทีบนไฟ โดยดูจาก log file
  • ระบบไฟฟ้าสำรองซึ่งประกอบไปด้วย UPS สองตัว (และยังมี UPS standby อีกตัวหนึ่งใช้เพื่อจ่ายไฟในกรณีที่ UPS หลักตัวใดตัวหนึ่งมีปัญหาจ่ายไฟไม่ได้ บวกกับเครื่องปั่นไฟใช้น้ำมันคอยอยู่เบื้องหลังในกรณีที่ไฟฟ้าดับเป็นระยะเวลานานมากเกินกว่า UPS จะรับไหว)
  • การจัดการกับไฟฟ้าดับขึ้นกับอุปกรณ์ที่เรียกว่า Automatic Transfer Switch (ATS) ซึ่งจะสับไฟฟ้าจากแหล่งสำรองมาจ่ายให้กับศูนย์ข้อมูล
  • ในช่วงที่กระแสไฟฟ้ามีปัญหา ปรากฏว่า ATS เกิดไม่จ่ายไฟจากแหล่งสำรอง และยังปล่อยไฟกระชากเข้าไปในระบบไฟฟ้าของศูนย์ข้อมูล จนทำให้ระบบป้องกันชั้นที่สองคือ breaker บางตัวเกิด trip ปิดตัวเองลง
  • เหตุที่ต้องมีระบบป้องกันชั้นที่สอง ก็เพื่อป้องกันความเสียหายของคอมพิวเตอร์ต่างๆจากกรณีระบบไฟฟ้าผิดปกติมากเช่นกรณีนี้
  • เมื่อ breaker trip ก็ทำให้บางบริเวณของศูนย์ข้อมูล ไม่มีไฟฟ้า แม้ว่าไฟจากการไฟฟ้าจะดีแล้ว ก็ไม่สามารถจ่ายไฟเข้าไปหลัง breaker ได้เนื่องจาก breaker ปิดไปแล้ว
  • เจ้าหน้าที่ได้ไล่เปิด breaker ใหม่แต่ คอมพิวเตอร์บางระบบปิดไปแล้วเนื่องจากไม่มีไฟอยู่ชั่วขณะหนึ่ง จึงต้องไล่เปิดเครื่องใหม่ด้วย
  • ระบบจะกลับคืนมาหรือไม่ ขึ้นกับปัจจัยหลายอย่าง เช่นเขียน automatic startup procedure ไว้ครบถ้วนหรือไม่ หรือว่า boot process มีปัญหาหรือไม่
  • กรณีของ G2k มีปัญหาที่ระบบนี้เป็น database intensive โดยระบบใช้ default filesystem (คือ ufs2) ซึ่งไม่ค่อยทนทานต่อปัญหาไฟฟ้าดับ (ที่จริงก็ไม่ควรดับเลย) และยิ่งเสี่ยงหากมีการเขียนไฟล์ด้วยอัตราสูงอย่างในกรณีของ G2k เนื่องจากการ update linked list ใน filesystem นั้นทำอยู่ใน memory cache ไม่ได้อัพเดตดิสก์ในทันที (หวังจะให้การเข้าถึง/เปลี่ยนแปลงข้อมูลเร็วขึ้น -- เป็นวิธีการออกแบบ filesystem มาตรฐาน)
  • ดังนั้นเมื่อเกิดไฟดับ gotoknow.org จึงไม่สามารถจะ reboot ขึ้นมาอย่างสมบูรณ์ จะต้องซ่อม filesystem ก่อน (fsck) ซึ่งใช้เวลาบ้าง

ประเด็นของศูนย์ข้อมูลที่ได้ทำไปตาม procedure ของ ISO 9001:2000 ที่ใช้กำกับคุณภาพศูนย์ข้อมูลอยู่คือ

  1. ตรวจสอบการออกแบบระบบใหม่ทั้งหมด --  ปรากฏว่าไม่พบความผิดพลาดใดๆ
  2. ทดสอบ UPS ซึ่งกำลังจะถึงกำหนดการบำรุงรักษาในอีกสองสัปดาห์ข้างหน้า -- ไม่พบความผิดพลาดเช่นกัน
  3. ทดสอบ ATS ซึ่งได้ทำไปตอนเที่ยงคืนวันจันทร์ (หรืออะไรทำนองนั้น) -- ไม่พบข้อผิดพลาด
  4. ทดสอบระบบทั้งหมด เพราะไม่สามารถจะยอมให้ลูกค้าใช้งานอยู่บนความเสี่ยงใดๆได้ -- ไม่พบข้อผิดพลาด
  5. จนปัจจุบัน ยังไม่พบความผิดพลาดใดๆ และยังไม่มี CAR (Corrective Action Request) ใดๆ แต่ INET ก็ยังปรึกษากับ vendor ของอุปกรณ์ต่างๆอยู่ -- จนปัจจุบัน ยังไม่พบคำอธิบายที่ดีพอ -- จะบอกว่า act of God ก็ง่ายไป

ในส่วนของ G2k ดร.ธวัชชัย ก็ได้ถือโอกาสนี้ปรับปรุงระบบหลายอย่างครับ รอให้การปรับปรุงเสร็จก่อนคงจะได้เห็นรายงานความคืบหน้า

จึงเรียนมาเพื่อขออภัย ต่อผู้ใช้ gotoknow.org ทั้งหมดครับ