RAID 卡溫度及風扇轉速調節

語言: CN / TW / HK

前言

本文討論RAID卡溫度以及潛在的影響。

檢視RAID卡的溫度

root@scanode1s:~# storcli64 /c0 show all |grep -i temp
Support Temperature = Yes
Temperature Sensor for ROC = Present
Temperature Sensor for Controller = Absent
ROC temperature(Degree Celsius) = 54
Model  State   Temp Mode MfgDate    Next Learn
root@scanode1s:~#

其中ROC temperature 即是我們需要關心的溫度。一般來講,該溫度的合理值55攝氏度附近。目前空調狀態不太好的機房,可能也會漲到60~80攝氏度。

如果R OC Temperature溫度超過105攝氏度,從RAID卡的角度,你就會看到如下類似的日誌:

WARNING:Controller temperature threshold exceeded. This may indicate inadequate system cooling, switch to low performace mode.

這種比較可怕,可能會出現大面積掉盤的情況。我們曾遇到客戶,冬季客戶主動把機房的空調關掉了,結果很快就有盤從RAID組中離線,RAID變成Degrade的情況。

因此,對於一個伺服器而言,實時監控RAID卡的散熱情況,也是非常重要的。

影響RAID溫度的要素

RAID卡溫度的要素,無非有如下幾個要素

  • 機房溫度
  • 風扇轉速
  • 磁碟業務壓力
  • RAID組內的一致性檢查等帶來磁碟I/O的行為

注意,計算機房溫度高,風扇有問題等問題存在,但是如果沒有任何磁碟I/O基本上也不會導致RAID溫度過好。我們遇到的多次RAID卡溫度過高,都是糟糕的散熱條件,遇到了較高的業務壓力,又碰上了一致性檢查,多個條件一起作用,終於RAID卡溫度飆高不下。

如果發現機房的散熱條件不好,或者機器老化等要素,可以針對性地調整一致性檢查的速度和模式

  • 調整一致性檢查的模式從ModeConc改成ModeSeq,串型模式
  • 調整CCRate從預設的30,調整成15
  • 一致性檢查的時間,可以調整成夜間12點這種業務和溫度比較低的時間。

風扇轉速

我們以超微主機板為例,風扇有相關的執行模式 Fan Mode:

  • Standard Speed
  • Full Speed
  • Optimal Speed
  • HeavyIO Speed

風扇按照控制區域來分,分成兩類:

  • CPU or system Fans,一般被標記成 FAN0 FAN1 FAN2 ,命名方式為FAN+數字,這部分為Zone 0

  • Peripheral zone Fans, 一般被命名為FANA FANB FANC,明明方式為FAN+字母,這部分為Zone 1

上面提到的四種模式:

  • Standard: BMC 同時控制兩個zone, with CPU Zone base CPU temp(target speed 50%),and Peripheral zone based on PCH temp (with target speed 50%)
  • Optimal: BMC Control of the CPU zone (target speed 30%),with Peripheral zone fixed at low speed (fixed ~30%)
  • Full: all Fans running at 100%
  • HeavyIO : BMC control both CPU zone (target speed 50%) and Peripheral zone fixed at 75%

如果像儲存伺服器這種,Optimal肯定是不合適了,Full的話也不太合適,因為太吵,可選的就是兩個,Standard和HeavyIO。如果保守起見,可以選擇Heavy IO,防止散熱不好的情況下,RA ID卡溫度過高。

如何調整風扇轉速和模式

調整風扇模式

我們以全速模式為例,如何講風扇調整為全速模式:

ipmitool 0x30 0x45 0x01 0x01

注意倒數第二個0x01表示的是Zone:

  • 0x00 表示的是zone 0, 即負責CPU zone的風扇
  • 0x01 表示的是zone 1

最後一個0x01 表示的是模式:

  • standard :0
  • Full: 1
  • Optimal: 2
  • HeavyIO:4

我們故意做個測試,來看下將風扇模式調整成Full的效果:

調整成Full模式之後,很快的時間內溫度就下降下來了。

調整轉速

Full模式雖然開心,效果明顯,但是很明顯噪音很大。所以100%的風扇轉速雖然爽,但是忍受不了噪音。那如何處理?

ipmitool raw 0x30 0x70 0x66 0x01 0x<z> 0x<n>

z的合法值為0 和1 ,其中0表示Zone 0, 1 表示Zone 1.

n的合法值是從0x00 到0x64 ,即從0%到100%。

比如說我們覺得Full模式的100%太吵,Heavy IO模式的75%效果雖然不錯,但是也太吵,我們可以將Zone1的百分比調整成60%。

ipmitool raw 0x30 0x70 0x66 0x01 0x1 0x3C

總結

下面總結是對於儲存伺服器而言的,並非針對所有應用場景

  • RAID卡的溫度要實時監測,確保執行穩定
  • 風扇模式有4種,Full和Optimal都不可取,Standard和Heavy IO可以選擇
  • 對於轉速不滿意的,可以通過ipmitool 指令調節轉速,使其在合理範圍內調節。