because ชิท happen

งานเข้าชุดใหญ่เมื่ออยู่ดีดีก็ได้รับข้อความแจ้งข่าวว่าระบบควบคุมอุณหภูมิภายในห้องคอมพิวเตอร์แม่ข่าย (data center) มีปัญหาใหญ่ถึงขนาดที่ว่าแผงควบคุมไหม้กันเลยทีเดียว ทำให้ตอนนี้ระบบที่ทำงานอยู่เหลือเพียงครึ่งเดียว และถึงแม้ว่าจะมีการเอาแอร์สำรองเข้ามาใช้งานช่วยอยู่แต่อุณหภูมิก็ยังไม่ได้ตามเกณฑ์ที่ควรจะเป็น

ขออธิบายเพิ่มเติมเป็นข้อมูลคือว่าห้อง Data Center เป็นห้องรวมอุปกรณ์คอมพิวเตอร์ระดับ server เอาไว้ด้วยกันซึ่งลักษณะเครื่อง server สมัยนี้จะมีรูปร่างเหมือนกับลิ้นชัก ใส่ไว้เรียงกันในตู้เรียกชื่อเล่นกันว่าตู้แรค แล้วห้อง data center แบบนี้ก็จะมีตู้แบบนี้วางเรียงกันเป็นสิบๆตู้ ซึ่งหมายความว่าก็จะมี server รวมๆกันแล้วเป็นร้อยตัว ซึ่งแต่ละตัวปรกติแล้วก็จะทำงานกันแบบ 24/7 ติดๆกันเป็นเดือนเป็นปี ที่เค้าใช้คำว่า uptime / downtime กันนั่นแหละ ประเด็นคือเครื่อง server พวกนี้ถ้าจะให้พวกมันทำงานเต็มประสิทธิภาพต้องอยู่ในอุณหภูมิที่เหมาะสมคือประมาณ 20-22 ‘c แต่ในทางตรงกันข้ามเวลา server พวกนี้ทำงานจะมีความร้อนเกิดขึ้น ยิ่งทำงานหนักแค่ไหนก็จะร้อนเท่านั้นแล้วถ้ามันร้อนมากๆมันก็จะเจ๊ง (หยุดทำงาน หรืออาจจะไหม้ได้เลยทีเดียว) ลองนึกภาพว่าห้อง Data Center ที่มี Server เป็นร้อยๆเครื่องถ้าไม่มีระบบควบคุมอุณหภูมิแล้ว จะร้อนตับแลบแค่ไหน แล้วถ้าเครื่องที่ช่วยคุมอุณหภูมิเสีย จนห้องเกิดความร้อนสูงจน server ทั้งหมดพังเป็นร้อยๆเครื่องจะหายนะขนาดไหนกัน

กลับมาที่เรื่องชิทๆของเราต่อ หลังจากได้รับแจ้งก็สนุกสนานกันไป เริ่มมีการประเมิณความเสี่ยงว่าระบบสำรองจะเอาอยู่ไหม สมมติสถานการณ์เลวร้ายที่สุดจะอยู่ได้อีกกี่วัน แล้วส่วนที่เสียจะซ่อมได้กี่วัน ที่สุดแล้วก็สรุปว่ายังไงซะขอให้ทุกคนเตรียมดำเนินการตามแผนรองรับพิเศษ (BCP-Business Continuity Plan) คือการย้ายระบบทั้งหมดไปทำงานที่ Data Center สำรองอีกที่นึง

ถ้าจะถามว่าโกลาหลไหมก็ไม่เชิงหรอก เพราะมีการทำระบบงานสำรองไว้อยู่แล้ว แล้วปรกติก็ซ้อมกันทุกปี แต่ซ้อมกับของจริงยังไงซะความกดดันมันไ่ม่เท่ากัน ตัวเองระหว่างนั้นก็ต้องมีการปรับปรุงเครื่องของเราไปตามสถานการณ์โดยเฉพาะเพื่อป้องกันเหตุการโจมตีต่างๆ (wannacry นั่นก็ตัวอย่างนึง) เพราะฉะนั้นจากแผนที่วางไว้ว่า สุดสัปดาห์จะอยู่ชิลๆ นั่งอ่านหนังสือทีเพิ่งไปซื้อมา ดูหนังที่ตั้งใจไว้ ก็ต้องพับแผนนั้นๆไปแล้ว remote เข้าไปที่ทำงานอย่างไว แล้วก็ตรวจงานทุกอย่างที่สำรองเอาไว้ว่ามันได้สำรองเอาไว้จริงๆไหม แล้วมันเอาขึ้นใช้งานจริงได้เลยแค่ไหน กี่เปอร์เซ็นต์กัน

แล้วทำไมถึงมีเปอร์เซ็นต์อะไรด้วย อย่างที่เล่าให้ฟังไว้ว่างานพวกนี้นะมันต้องวิ่งกันแบบ 24/7 จะให้มันดับไม่ได้ !! แต่ถ้ามันต้องดับล่ะ ในแผนมันก็จะมีการลำดับความสำคัญเอาไว้ด้วยว่า ถ้าต้องเลือกกันจริงๆ อันไหนพอจะปิดเอาไว้ก่อนได้ซักพัก อันไหนไม่สามารถปิดได้ต้องย้ายปุ๊ปติดปั๊ป ซึ่งเจ้าพวกย้ายปุ๊ปติดปั๊ปนี่แหละที่ทำให้ต้องโดดจากความชิลแล้ว remote เข้าไปตรวจสอบอย่างเร็วจี๋ ทั้งนี้ก็เพื่อให้คนใช้งานจริงๆไม่มีทางรู้ได้เลยว่านี่เครื่องมันเจ้งไปแล้วนะ (ฮา)

แต่สรุปแล้วก็ยัง so far so good นะ เหมือนแอร์สำรองยังพอจะเอาอยู่บ้าง พอจะมีเวลาให้เราได้เข้าไปตรวจสอบว่าระบบสำรองของเราพร้อมใช้ ! สลับปุ๊ปติดปั๊ป หรือก็ยังพอถูไถในส่วนที่สามารถคอยได้บ้าง ก็ภาวนาว่าอย่าให้ต้องใช้แผนฉุกเฉิน แต่ส่วนของเราก็พอมั่นใจได้ว่า “กันไว้ดีกว่าแก้” เรียบร้อยแล้ว