做服務器運維這么久,最讓人崩潰的,不是遇到棘手的故障,而是在客戶焦急的目光下,故障還連環出現!今天就和大家分享一次讓我印象深刻的戴爾 R740 服務器 “拯救行動”。 首臺服務器:固件初始化的 “死循環”?那天接到客戶緊急求助,戴爾 R740 服務器卡在 “initializing firmware interfaces” 界面,怎么都無法正常引導。我火速趕到現場,嘗試各種常規操作,重啟、放電……,可服務器還死死卡在那里,毫無反應。 ![]() 客戶急得直跺腳,不停地看表,嘴里念叨著業務耽誤不起。沒辦法,時間不等人,客戶直接搬來一臺同型號的備用服務器。 備用服務器:故障接力賽???♂?本以為備用服務器能解燃眉之急,誰知道它也好不到哪去。一開機,firmware 進入 recovery mode,好不容易熬過這關,又卡在加載 lifecycle controller。我盯著屏幕,秒針滴答滴答,整整 15 分鐘,才終于進入配置界面。剛把陣列信息導入,更離譜的事發生了 —— 鍵盤鼠標突然全部失靈!無奈之下,只能重啟,又是漫長的 15 分鐘等待。再次進入 BIOS 設置,準備把陣列卡設為第一引導,結果鍵盤鼠標又 “罷工” 了,我心里真是萬馬奔騰! IDRAC 配置:漫長等待與意外狀況?接連受挫,我決定配置 idrac,通過遠程來設置引導。這次依然是 15 分鐘的等待 “魔咒”,好在順利進入 idrac 配置界面。 ![]() 我興奮地設置好引導順序,點擊保存并重啟,滿心期待系統能順利啟動。可現實又潑來一盆冷水,系統提示存在多個任務,需待任務完成后才能重啟。我查看任務列表,卻發現任務根本沒有在處理,就像靜止了一樣。強制重啟后,發現了更嚴重的問題,陣列卡無法識別了,當然連帶著硬盤肯定也是識別不到了。 ![]() 直接關機,拔掉電源線,按住開機鍵30秒以上,放電。片刻后重新開機,好在陣列卡認了,硬盤也正確地識別到了。但是,剛才設置的引導根本沒生效,服務器還是老樣子,無法引導。 ![]() 終極方案與意外轉機??客戶已經急得滿頭大汗,一咬牙又搬來一臺陣列卡壞的服務器,讓我把這三臺 “病機” 拼成一臺能用的。 ![]() 我擼起袖子,正準備大干一場時,奇跡出現了!服務器突然 “活” 過來了,idrac 設置的調整引導任務竟然成功完成了!我激動地重啟服務器,終于看到了 centos 引導界面,以為這場 “戰斗” 終于要結束了,然而…… 最后的難關:文件系統修復??然而,系統并沒有如我所愿順利啟動,而是提示 “failed to mount /sysroot”。 ![]() 我迅速輸入命令 “xfs_repair -v /dev/mapper/centos-root” 修復文件系統,結果卻提示修復失敗。關鍵時刻,我只能使出 “大招”,用 “xfs_repair -v -L /dev/dm-0” 強制日志清零來修復。修復完成后,輸入 exit 命令,系統提示 logout,緊接著,centos 終于正確引導了! ![]() 我長舒一口氣,通知客戶測試應用軟件。看著軟件正常運行,客戶緊鎖的眉頭也終于舒展開來。這場與服務器故障的 “持久戰”,最終以勝利告終,我也順利完成任務,收錢走人。 走的時候,又發現服務器報錯了,掃了一眼,usb設備報錯而已,無所謂了,忽略吧,也許是USB鍵盤有問題,也放是USB接口有問題,無傷大雅,暫時不管了。 ![]() 這次經歷讓我深刻體會到,做服務器運維,不僅要有扎實的技術,更要有足夠的耐心和強大的心理素質。你在工作中遇到過哪些難忘的服務器故障呢?歡迎在評論區分享! |
|