為什麽服務器宕機通常發生在淩晨利用率最低的時候？

之前我們單位晚上有個設備掉了。這個設備是堆疊的，沒有備份，所有下行鏈路都連接到主設備。結果當晚淩晨主設備電源模塊損壞！這...妳能看出模式嗎？我也想知道為什麽壹定是淩晨損壞！

所以，偶然事件，不能說最多！

但是晚上切換是正常的，選擇在用戶最少的時候做必要的可能影響業務的事情是常識。

首先，我很榮幸為妳回答這個問題。讓我們壹起走進這個問題，現在我們壹起來探討壹下。

我就這個問題和大家分享壹下我個人的觀點和看法。希望我的回答對妳有幫助，妳會喜歡我的分享。

夜黑風大，殺人盜貨。這個時間點是正常人的休息時間，而黑客選擇在這個時間活躍。無論是安全攻擊還是DDOS，都有可能造成服務器故障。

如果妳對這個問題有更好的答案，請評論，壹起討論這個話題。

終於，我來了。祝大家生活幸福，工作天天開心，生活天天健康，家庭事事順遂，生意年年興隆。謝謝大家！

16有經驗的老程序員的可靠回答。

主要有幾個原因。

首先，的確服務器宕機通常發生在淩晨利用率最低的時候，但這個利用率只是針對用戶的。

事實上，在淩晨，服務器是非常繁忙的。妳主要在忙什麽？主要是壹些計劃任務，以及數據庫備份。很多耗時的操作，比如報表統計，會安排在半夜，避免影響半天的正常業務，所以這個時候服務器都在高負荷運行，容易出現意外。

同理，發布新代碼或者改變功能也會選擇晚上的業務低峰期。再好的前期測試工作，也難免會隱藏壹些bug。在淩晨，這些bug(比如無限循環)已經運行了壹段時間，無人值守的情況下可能會觸發各種故障。

如果在線時間比較短，還行。更新比較大的時候，程序員奮戰到半夜。這種情況下，人很累，在繁忙的工作中更容易出錯。

比如無限循環和內存泄漏，需要壹段時間才能顯現出來。白天有實時監控，自然失效的概率比較小。即使出現故障，也能快速修復，讓用戶察覺不到。

夜黑風大，殺人盜貨。這個時間是正常人的休息時間，黑客選擇在這個時間活動。無論是安全攻擊還是DDOS，都有可能造成服務器故障。

紀可從事嵌入式軟件開發多年。最近因為公司需要搞後臺研發，經常選擇在淩晨升級，大規模的數據處理也放在這個時間段，頻繁的服務器宕機也在這個時間段。都是用戶用的少了就開始折騰，折騰次數多了就容易出現服務器問題。因為我們是做物聯網設備的，工作中有幾種停機情況。大量數據的操作，導致壹段時間內CPU占比突然增加，導致數據接收模塊出現問題，導致系統監控出現問題，很多設備信息檢測不到。

過於頻繁的操作數據庫導致效率下降，也是影響系統性能的重要壹環。其實服務器也是普通電腦組成的，主要資源是CPU和內存。這兩個因素中的任何壹個都可能導致系統的崩潰。如果CPU滿了，系統的反應會變得極其緩慢，時間長了可能會變慢。如果內存滿了，會導致系統崩潰，無法直接運行。事實上，核心將會關閉。

現在總結壹下常見的服務器停機問題:

1.磁盤空間已滿。現在程序員在運行時習慣用log打印。如果時間長了，又沒有清理機制，遲早會出問題。此錯誤通常發生在正常運行期間。如果使用的雲計算服務器通常在系統崩潰前發送壹條短消息，通知妳妳的系統處於崩潰邊緣。

2.並發性能問題，如果多人同時操作壹個數據庫或者數據塊，會導致系統假死，屬於爭奪CPU資源的問題，可以通過增加硬件配置和優化軟件代碼效率來解決。數據量有多大，可以考慮分布式管理。

3.數據被損壞或破壞，導致系統崩潰。因此，配置備份磁盤是常見的做法。如果有問題，把備份盤拿到最上面。現在公司用的是阿裏雲的服務器，穩定性比以前好很多。中間換了電信雲。騰訊雲雖然價格低，但最後還是忍不住直接換到阿裏雲，再也不想換回來了。數據的穩定性永遠是第壹位的。

4、壹些不必要的誤操作，很多時候是因為程序員或者運維人員的誤操作，導致服務器大面積宕機。這種事件很多雲服務商都發生過，根本層面是管理問題。後臺管理的任何細節都是可能的。

發現服務器宕機問題的幾條線索；

1.查看服務器是否存在內存泄漏。有時，當妳重啟機器時，它會正常運行。過壹段時間就會變得很慢。十有八九是記憶力問題。

2.不管是不是黑客造成的，壹些非常關鍵重要的數據也是黑客最感興趣的。壹般來說，這種概率不是很高。

3.是數據庫死鎖，訪問量太大，連接太多造成的嗎？

壹旦服務器宕機，將會引起用戶的無數抱怨。不管什麽情況，穩定永遠是第壹位的。現在除非大功能升級已經100%驗證成功，否則後果不堪設想。

希望能幫到妳。

來自華為的維修人員大致回答:

1，業務類:系統定時任務。比如晚上的統計報表，任務刷新，數據刷新，或者數據備份。等壹下。這都是在淩晨完成的。這個時候CPU/內存/空間(磁盤/數據庫)/IO(磁盤讀寫)會很高。因此，可能會出現停機或資源不足的情況。

2.操作類型:如果需要割接/升級/打補丁/整改等操作，有可能觸發情況。在許多情況下，流程/服務/系統需要重啟。

3、bug類，無論是Linux系統還是業務系統，都可能存在導致系統崩潰或者服務器宕機的bug。這也可能發生在白天。

4，硬件問題。單板/磁盤等硬件會因為實際使用壽命的問題而慢慢老化，比如磁盤陣列的磁盤容易損壞。

5.突發的流量擁塞導致數據量大，導致傳輸和流量擁塞。並且磁盤空間已滿或數據庫表空間已滿。引發問題。都有可能出問題。

偶爾也可以是妳意識淺，因為這種問題最深刻，妳可能想的更多。通過記筆記來試試。

停機壹般分為五種情況:

1，程序因出現問題而崩潰。

2.cpu\Gpu和內存已滿。

3.硬盤空間已滿

4.數據庫表空間已滿。

5、室溫過高。

以上是運維過程中遇到的個人問題，做出總結回答。

雖然在淩晨使用系統的用戶很少，但是服務器在這個時候可能要做大量的工作:

先說壹個我很久以前看到的，跟同行分享的壹個服務器宕機的經歷。有些經歷非常神奇。就當是個笑話吧(為了方便，我用第壹人稱講)。

我們服務的第壹方是醫院，機房在醫院大樓裏。最近機房的服務器經常宕機，公司的工程師去了幾次都沒發現問題。後來公司不堪重負，決定讓壹個工程師晚上住在機房，看看半夜機房裏發生了什麽，心想就算找不到原因，只要服務器壹停機就可以重啟。

後來我發現了原因。淩晨三四點，機房的門開了，壹個上夜班的小護士走了進來。她看了看，說:“沒有人。開空調不是浪費電嗎？”然後我把機房的空調關了，然後溫度就上升了。...

服務器宕機是指服務器因為某些原因無法正常運行，導致斷網，無法正常使用網絡。服務器停機通常發生在淩晨。為什麽會這樣？比如我們公司是做科技互聯網設備生產的。為了不影響正常生產，系統升級壹般在淩晨，大量的數據處理也在這個時候進行。這個時候服務器也容易出問題。具體分析有以下原因:

1.當系統升級或處理大量數據時，硬盤空間會滿。如果沒有人能及時清理磁盤空間，服務器就會卡死，造成停機。

2.如果多臺設備同時運行，使用這個數據庫會導致系統假死，這是搶占CPU資源造成的，會導致服務器狂飆，網站訪問量飆升，程序中毒，很多應用都在消耗服務器，最後會崩潰，無法響應。

3.由於淩晨維護人員減少，會出現停電、高溫等環境因素導致服務器崩潰等情況。不過這種情況比較少見，因為機房有發電機，避免停電造成數據丟失，溫度也是恒溫系統。

4.有些企業為了節省服務器的成本，會租用配置較低的服務器來做大量的工作，會使服務器超負荷運行，結果可想而知，頻繁出現宕機。

5.壹般來說，服務器宕機和內存有很大關系。有些服務器運行壹段時間後速度變慢，基本是內存的問題。檢查內存是否有泄漏。

服務器宕機會出現壹系列問題，造成的損失不可估量。平時做好定期保養，註意淩晨的使用情況，才能避免停機。任何時候，服務器的穩定運行都是最重要的。

妳說的服務器宕機是什麽意思？我們日常“宕機”中的“down”其實指的是英文單詞“down”，意思是當前服務器或服務無響應或離線。

服務器宕機可分為人為宕機和不可控宕機。兩者有什麽區別？下面詳細解釋壹下:

1，人為可控停機行為

服務器的長期運行可能會帶來壹些(非致命的)問題，或者當我們需要對服務器的軟件/硬件進行升級和維護時，可能需要停止或重啟運行。這種情況下的停機時間是可控的，在我們的計劃之內。

2.不受控制的停機行為

這樣的因素很多，比如服務器突然藍屏，服務異常崩潰，突然停電斷網。此時服務(服務器)無法正常提供服務，都是不可控因素造成的。

在我們日常的運維工作中，計劃停機維護壹般選擇在半夜做這些事情。為什麽？有幾個主要原因:

1，減少對用戶的影響

淩晨大家基本都在休息，用戶數量比白天少很多。因此，此時系統和硬件維護造成的停機對用戶影響不大，即使有，也只會影響壹小部分用戶。

2、有足夠的時間處理故障。

如果在淩晨進行維修，即使出現問題，技術人員也有足夠的時間(比如00-05)處理故障。如果換成白天維修，所有服務(設備)停機1小時的投訴都過來了，壓力很大。

其實原理很簡單:就像我們白天忙著很多事情，就像搬運工壹樣，不停地搬運貨物入庫。只有貨物全部運出，才能開始整理這些貨物，整理倉庫。

其次，在白天，服務器實際上處於實時數據處理的“搬運工”狀態。只有在實時數據處理工作(處理工作)完成後，才有機會或能力騰出空間進行數據歸納和整理。因此，服務器的停機時間通常發生在利用率最低的時期。就這樣