- RAIDについて
- MegaCliでのRAID監視(さくらの専用サーバ)
- MegaCliのコマンドの意味(さくらの専用サーバ)
- MegaCliの実行結果例(さくらの専用サーバ)
- omreportでのRAID監視(WADAX専用サーバ)
- ZabbixでのRAID監視
■RAIDについて
【基礎から押さえるRAID講座】RAIDとは何か?(1) | RAID・NAS・サーバー復元 | 東京・秋葉原のデータ復旧専門店【データSOS】
https://www.data-sos.com/raid/index.html
■MegaCliでのRAID監視(さくらの専用サーバ)
※さくらで「専用サーバ エクスプレスシリーズ」を契約した場合の例
初期状態ではコントロールパネルで「RAIDステータス」が「監視できていません」となっている
https://help.sakura.ad.jp/hc/ja/articles/206056262 を見ると、標準で監視しているとある
https://help.sakura.ad.jp/hc/ja/articles/206110622 これが設定方法らしい
さくらでは
・監視を有効にしておけば、コントロールパネルでハードの状態を確認できる
・コントロールパネルで確認し、異常があればさくらに問い合わせる
・そこで初めてさくらが調査を行う
という監視方法らしい
つまり、監視が有効でも異常を放置しておくとダメらしい
■設定手順
root権限で以下を実行する
「setup complete」と表示されれば成功
# wget http://progeny.sakura.ad.jp/scripts/raid_check/setup_raid_chk.sh
# sh setup_raid_chk.sh
実行すると、/etc/crontab に以下の設定が追加されていた
14 3 * * * root sh /opt/sakura/raid_chk.sh
22 1 5 * * root sh /opt/sakura/watch_chk.sh
RAIDにエラーがあると、以下にファイルを作成してそのエラー数を書き込むみたい
/opt/sakura/alert_count
RAIDがエラーから回復しようとしているとき、以下のファイルを作成するみたい
/opt/sakura/rebuilding
これらのファイルは、エラーから回復すると削除される
監視サーバのIPアドレスを確認。コントロールパネルからも確認できる(この場合、IPアドレスは「153.120.12.6」)
# vi /etc/snmp/snmpd.conf
監視サーバからのSNMPアクセスを許可する
# sec.name source community
com2sec sakura 153.120.12.6 public
com2sec6 sakura 2401:2500:203:a:153:120:12:6 public
# vi /etc/sysconfig/iptables
しばらく待つと、さくらのコントロールパネルで「RAIDステータス」が「正常」と表示された
■SNMPとは
「FWなどでアクセス制限を行う場合は弊社監視サーバからのアクセスを許可していただく必要があります。」
iptablesの設定も必要みたい
特定IPからの、161版ポートへのTCP・UDPアクセスを許可する
SNMPは Simple Network Management Protocol の略で、サーバやネットワークの監視を行うためのプロトコル
【さくらの専用サーバ】RAID監視設定について - さくらのサポート情報
https://help.sakura.ad.jp/hc/ja/articles/206056262
SNMPとは | IT用語 | 意味 解説
http://www.webnms.jp/solutions/snmp.html
SNMPの利用設定およびアクセス許可設定について|So-netクラウド
http://www.so-net.ne.jp/cloud/snmp/
サーバー監視システム構築 Cacti+Net-SNMP+RRDtool|Web系オーライLinux
https://ameblo.jp/yuu-sys-guard/entry-11849984390.html
■MegaCliについて
監視スクリプトの内容を監視すると、MegaCliで状態の確認を行っている
MegaCliは、RAIDを構成したり確認したりするツール
MegaCliのインストール - Qiita
https://qiita.com/shotaTsuge/items/b0de32cfc660870b3b0d
MegaCLI インストール概要 - Windows - Cisco Support Community
https://supportforums.cisco.com/t5/%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC-%...
最低限のものなら、以下のスクリプトで状態確認ができる(さくらのスクリプトから抜粋)
実行して「0」が表示されれば問題なし。「1」など他の値が表示されれば何らかの異常あり
#RAID監視を許可
-A MY-FIREWALL -p tcp -m state -m tcp -s 153.120.12.6 --dport 161 --state NEW -j ACCEPT
-A MY-FIREWALL -p udp -m state -m udp -s 153.120.12.6 --dport 161 --state NEW -j ACCEPT
#!/bin/sh
#### raid status check
#
# return 0: no problem
# return 1: RAID error
# return 2: Rebuilding status
# return 3: Another problem
#
check_status (){
MegaCli=`which MegaCli 2> /dev/null`
if [ -z "${MegaCli}" ]; then
return 3
fi
${MegaCli} -LDInfo -Lall -aALL -NoLog > /dev/null 2>&1
if [ "$?" -ne 0 ]; then
return 3
fi
stat=`${MegaCli} -PDList -aALL -NoLog | awk '/Rebuild/ {print $3}'`
if [ "$stat" = "Rebuild" ]; then
return 2
fi
stat=`${MegaCli} -LDInfo -Lall -aALL -NoLog | grep ^State`
if echo "$stat" | grep -q Optimal 2> /dev/null; then
return 0
fi
return 1
}
check_status
echo $?
例えばファイル名を「my_check_raid.sh」とした場合、異常がなければ以下のように表示される
# ./my_check_raid.sh
0
異常があれば以下のように表示される
# ./my_check_raid.sh
1
■異常が発生したときの対応
さくらから以下のメールが送られてきた
弊社監視システムにて、お客様ご利用中のサーバに搭載されているストレージに、
何らかの障害が発生している可能性があることを検知いたしました。
ストレージ障害によるデータ消失等を未然に防ぐため、サーバの障害ストレージ
交換対応を実施させていただきたく存じます。
障害を検知したストレージ Port0側
本作業にサーバの停止は伴いません。しかしながら、ミラーリングの再構築時に
DISKI/O のパフォーマンスが低下いたします。
再構築の処理が完了するまでの所要時間は、ストレージ容量とサーバ負荷状況
により変動いたします。
サーバ負荷の少ない時間をご指定いただければ、作業日時の調整の上で作業を
実施させていただきます。
現在正常に稼働しているストレージで万が一障害が発生いたしますと、
データが損失してしまう可能性がございます。
ストレージ交換の前に、データのバックアップを取得いただきますこと
を推奨させていただきます。
以下にストレージ交換作業に関する作業依頼申込書を送付させていただきます。
コントロールパネルから該当サーバの「RAIDステータス」を確認すると「デグレード」となっていた
また、my_check_raid.sh の実行結果は以下のようになった
# ./my_check_raid.sh
1
送られてきた作業依頼申込書に入力して返信した
1時間ほどでストレージ交換完了の連絡が来た
その後リビルドが3時間ほど続いた後、正常な状態に戻った
(リビルドの時間は、サーバの性能やHDD容量によって左右される)
■MegaCliのコマンドの意味(さくらの専用サーバ)
■MegaCli -LDInfo -Lall -aALL
論理ドライブのプロパティを表示する
State : Optimal … 正常な状態
State : Degraded … RAID が縮退動作(制限された状態で動作している)にある
■MegaCli -PDList -aALL
物理デバイスのプロパティを表示する
Slot Number: … 対象のハードディスクが接続されたスロット番号
Firmware state : Online … 正常な状態
Firmware state : Critical … 対象のハードディスクで故障している可能性がある
Firmware state : Rebuild … リビルド中
Firmware state : Hotspare … Disk がホットスペアとして確保されている(ホットスペアは提供しない)
Firmware state : 上記以外 … なんらかの障害が起きている可能性がある
■MegaCli -PDRbld -ShowProg -PhysDrv [エンクロージャー番号:スロット番号] -aALL
オペレーションの実行状況を表示する
リビルド実行中の場合、その進捗が%で表示される
あらかじめ、「MegaCli -PDList -aALL」で物理デバイスのエンクロージャー番号とスロット番号を調べておく
Enclosure Device ID: 252
Slot Number: 0
このような表示になっている場合、以下のようにコマンドを実行する
# MegaCli -PDRbld -ShowProg -PhysDrv [252:0] -aALL
■MegaCliの実行結果例(さくらの専用サーバ)
■コマンドの個別実行結果(問題無いときに実行したもの)
# MegaCli -LDInfo -Lall -aALL
Adapter 0 -- Virtual Drive Information:
Virtual Drive: 0 (Target Id: 0)
Name :array0
RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0
Size : 930.812 GB
Sector Size : 512
Is VD emulated : No
Mirror Data : 930.812 GB
State : Optimal … 通常状態
Strip Size : 256 KB
Number Of Drives : 2
Span Depth : 1
Default Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy : Disabled
Encryption Type : None
Default Power Savings Policy: Controller Defined
Current Power Savings Policy: None
Can spin up in 1 minute: Yes
LD has drives that support T10 power conditions: No
LD's IO profile supports MAX power savings with cached writes: No
Bad Blocks Exist: No
PI type: No PI
Is VD Cached: No
Exit Code: 0x00
# MegaCli -PDList -aALL
Adapter #0
Enclosure Device ID: 252 … デバイスID(エンクロージャー番号)
Slot Number: 0 … スロット0の情報
Drive's position: DiskGroup: 0, Span: 0, Arm: 0
Enclosure position: N/A
Device Id: 9
WWN: 5000c500791160c2
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA
Raw Size: 931.322 GB [0x746a5288 Sectors]
Non Coerced Size: 930.822 GB [0x745a5288 Sectors]
Coerced Size: 930.812 GB [0x745a0000 Sectors]
Sector Size: 512
Logical Sector Size: 512
Physical Sector Size: 512
Firmware state: Online, Spun Up … オンライン
Device Firmware Level: N007
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x4433221107000000
Connected Port Number: 1(path0)
Inquiry Data: 9XG7753VST91000640NS N007
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive: Not Certified
Drive Temperature :28C (82.40 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Drive's NCQ setting : N/A
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s
Drive has flagged a S.M.A.R.T alert : No
Enclosure Device ID: 252 … デバイスID
Slot Number: 1 … スロット1の情報
Drive's position: DiskGroup: 0, Span: 0, Arm: 1
Enclosure position: N/A
Device Id: 8
WWN: 5000c50079117423
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA
Raw Size: 931.322 GB [0x746a5288 Sectors]
Non Coerced Size: 930.822 GB [0x745a5288 Sectors]
Coerced Size: 930.812 GB [0x745a0000 Sectors]
Sector Size: 512
Logical Sector Size: 512
Physical Sector Size: 512
Firmware state: Online, Spun Up … オンライン
Device Firmware Level: N007
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x4433221106000000
Connected Port Number: 0(path0)
Inquiry Data: 9XG774V8ST91000640NS N007
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive: Not Certified
Drive Temperature :28C (82.40 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Drive's NCQ setting : N/A
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s
Drive has flagged a S.M.A.R.T alert : No
Exit Code: 0x00
■コマンドの個別実行結果(問題あるときに実行したもの)
# MegaCli -LDInfo -Lall -aALL
Adapter 0 -- Virtual Drive Information:
Virtual Drive: 0 (Target Id: 0)
Name :array0
RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0
Size : 930.812 GB
Sector Size : 512
Is VD emulated : No
Mirror Data : 930.812 GB
State : Degraded … 縮退動作
Strip Size : 256 KB
Number Of Drives : 2
Span Depth : 1
Default Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy : Disabled
Encryption Type : None
Default Power Savings Policy: Controller Defined
Current Power Savings Policy: None
Can spin up in 1 minute: Yes
LD has drives that support T10 power conditions: No
LD's IO profile supports MAX power savings with cached writes: No
Bad Blocks Exist: No
PI type: No PI
Is VD Cached: No
Exit Code: 0x00
# MegaCli -PDList -aALL
Adapter #0
Enclosure Device ID: 252 … デバイスID
Slot Number: 1 … スロット1の情報は表示されるが、スロット0の情報が表示されない。異常があってアクセスできないからと思われる
Drive's position: DiskGroup: 0, Span: 0, Arm: 1
Enclosure position: N/A
Device Id: 8
WWN: 5000c50079117423
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA
Raw Size: 931.322 GB [0x746a5288 Sectors]
Non Coerced Size: 930.822 GB [0x745a5288 Sectors]
Coerced Size: 930.812 GB [0x745a0000 Sectors]
Sector Size: 512
Logical Sector Size: 512
Physical Sector Size: 512
Firmware state: Online, Spun Up … オンライン
Device Firmware Level: N007
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x4433221106000000
Connected Port Number: 0(path0)
Inquiry Data: 9XG774V8ST91000640NS N007
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive: Not Certified
Drive Temperature :29C (84.20 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Drive's NCQ setting : N/A
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s
Drive has flagged a S.M.A.R.T alert : No
Exit Code: 0x00
■コマンドの個別実行結果(ストレージ交換連絡の直後に実行したもの)
# MegaCli -LDInfo -Lall -aALL
Adapter 0 -- Virtual Drive Information:
Virtual Drive: 0 (Target Id: 0)
Name :array0
RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0
Size : 930.812 GB
Sector Size : 512
Is VD emulated : No
Mirror Data : 930.812 GB
State : Degraded … 縮退動作
Strip Size : 256 KB
Number Of Drives : 2
Span Depth : 1
Default Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy : Disabled
Encryption Type : None
Default Power Savings Policy: Controller Defined
Current Power Savings Policy: None
Can spin up in 1 minute: Yes
LD has drives that support T10 power conditions: No
LD's IO profile supports MAX power savings with cached writes: No
Bad Blocks Exist: No
PI type: No PI
Is VD Cached: No
Exit Code: 0x00
# MegaCli -PDList -aALL
Adapter #0
Enclosure Device ID: 252 … デバイスID
Slot Number: 0 … スロット0の情報
Drive's position: DiskGroup: 0, Span: 0, Arm: 0
Enclosure position: N/A
Device Id: 9
WWN: 5000c500b91b76ce
Sequence Number: 13
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA
Raw Size: 931.322 GB [0x746a5288 Sectors]
Non Coerced Size: 930.822 GB [0x745a5288 Sectors]
Coerced Size: 930.812 GB [0x745a0000 Sectors]
Sector Size: 512
Logical Sector Size: 512
Physical Sector Size: 512
Firmware state: Rebuild … リビルド
Device Firmware Level: N002
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x4433221107000000
Connected Port Number: 1(path0)
Inquiry Data: W471KFMTST1000NX0423 N002
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive: Not Certified
Drive Temperature :32C (89.60 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Drive's NCQ setting : N/A
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s
Drive has flagged a S.M.A.R.T alert : No
Enclosure Device ID: 252 … デバイスID
Slot Number: 1 … スロット1の情報
Drive's position: DiskGroup: 0, Span: 0, Arm: 1
Enclosure position: N/A
Device Id: 8
WWN: 5000c50079117423
Sequence Number: 2
Media Error Count: 0
Other Error Count: 0
Predictive Failure Count: 0
Last Predictive Failure Event Seq Number: 0
PD Type: SATA
Raw Size: 931.322 GB [0x746a5288 Sectors]
Non Coerced Size: 930.822 GB [0x745a5288 Sectors]
Coerced Size: 930.812 GB [0x745a0000 Sectors]
Sector Size: 512
Logical Sector Size: 512
Physical Sector Size: 512
Firmware state: Online, Spun Up … オンライン
Device Firmware Level: N007
Shield Counter: 0
Successful diagnostics completion on : N/A
SAS Address(0): 0x4433221106000000
Connected Port Number: 0(path0)
Inquiry Data: 9XG774V8ST91000640NS N007
FDE Capable: Not Capable
FDE Enable: Disable
Secured: Unsecured
Locked: Unlocked
Needs EKM Attention: No
Foreign State: None
Device Speed: 6.0Gb/s
Link Speed: 6.0Gb/s
Media Type: Hard Disk Device
Drive: Not Certified
Drive Temperature :31C (87.80 F)
PI Eligibility: No
Drive is formatted for PI information: No
PI: No PI
Drive's NCQ setting : N/A
Port-0 :
Port status: Active
Port's Linkspeed: 6.0Gb/s
Drive has flagged a S.M.A.R.T alert : No
Exit Code: 0x00
■リビルドの実行状況
# MegaCli -PDRbld -ShowProg -PhysDrv [252:0] -aALL
Device(Encl-252 Slot-0) is not in rebuild process … リビルド中でない場合
# MegaCli -PDRbld -ShowProg -PhysDrv [252:0] -aALL
Rebuild Progress on Device at Enclosure 252, Slot 0 Completed 79% in 143 Minutes. … 79%完了。143分経過している
■omreportでのRAID監視(WADAX専用サーバ)
※WADAXで専用サーバを契約した場合の例
DELLサーバの場合、omreportがインストールされていればRAIDの状態を確認できる
DELLサーバのハードウェア状態をコマンドにより取得 (omreport) | Skyarch Broadcasting
https://www.skyarch.net/blog/?p=1388
WADAXでは
・omreportコマンドを実行することによってRAIDの状態を確認する
・異常があればWADAXに問い合わせる
・そこで初めてWADAXが調査を行う
という監視方法らしい
つまり、監視が有効でも異常を放置しておくとダメらしい
$ omreport storage vdisk
$ omreport storage pdisk controller=0
このようなコマンドで確認できる
コマンドが見つからなければ、以下のようにパスの直接指定を試す
それでも駄目なら、コマンドがインストールされているかどうかも含めて確認する
$ /opt/dell/srvadmin/bin/omreport storage vdisk
$ /opt/dell/srvadmin/bin/omreport storage pdisk controller=0
■上のコマンドの実行結果(通常時に実行したもの)
$ omreport storage vdisk … 仮想ディスクのステータス確認
List of Virtual Disks in the System
Controller SAS 6/iR Integrated (Embedded)
ID : 0
Status : Ok … 通常状態
Name : Virtual Disk 0
State : Ready … 通常状態
HotSpare Policy violated : Not Assigned
Virtual Disk Bad Blocks : Not Applicable
Secured : Not Applicable
Progress : Not Applicable
Layout : RAID-1
Size : 931.00 GB (999653638144 bytes)
Device Name : /dev/sda
Bus Protocol : SAS
Media : HDD
Read Policy : Not Applicable
Write Policy : Not Applicable
Cache Policy : Not Applicable
Stripe Element Size : Not Applicable
Disk Cache Policy : Disabled
$ omreport storage pdisk controller=0 … 物理ディスクのステータス確認
List of Physical Disks on Controller SAS 6/iR Integrated (Embedded)
Controller SAS 6/iR Integrated (Embedded)
ID : 0:0:0
Status : Ok
Name : Physical Disk 0:0:0
State : Online
Failure Predicted : No
Certified : Not Applicable
Encryption Capable : No
Secured : Not Applicable
Progress : Not Applicable
Bus Protocol : SAS
Media : HDD
Capacity : 931.00 GB (999653638144 bytes)
Used RAID Disk Space : 931.00 GB (999653638144 bytes)
Available RAID Disk Space : 0.00 GB (0 bytes)
Hot Spare : No
Vendor ID : DELL(tm)
Product ID : ST31000424SS
Revision : KS68
Serial No. : 9WK1QBT7
Part Number : TH0U738K212330AU003DA02
Negotiated Speed : 3.00 Gbps
Capable Speed : 3.00 Gbps
Manufacture Day : 02
Manufacture Week : 46
Manufacture Year : 2010
SAS Address : 5000C50025A5FC0D
ID : 0:0:1
Status : Ok … 問題は発生していない
Name : Physical Disk 0:0:1
State : Online … 通常状態
Failure Predicted : No
Certified : Not Applicable
Encryption Capable : No
Secured : Not Applicable
Progress : Not Applicable … 通常状態
Bus Protocol : SAS
Media : HDD
Capacity : 931.00 GB (999653638144 bytes)
Used RAID Disk Space : 931.00 GB (999653638144 bytes)
Available RAID Disk Space : 0.00 GB (0 bytes)
Hot Spare : No
Vendor ID : DELL(tm)
Product ID : ST31000424SS
Revision : KS68
Serial No. : 9WK2EPRG
Part Number : TH0U738K212330B9001GA02
Negotiated Speed : 3.00 Gbps
Capable Speed : 3.00 Gbps
Manufacture Day : 05
Manufacture Week : 46
Manufacture Year : 2010
SAS Address : 5000C50025B0A515
■上のコマンドの実行結果(問題発生時に実行したもの)
# omreport storage vdisk … 仮想ディスクのステータス確認
List of Virtual Disks in the System
Controller SAS 6/iR Integrated (Embedded)
ID : 0
Status : Non-Critical … 致命的ではないが警告が発生している
Name : Virtual Disk 0
State : Degraded … 縮退動作
HotSpare Policy violated : Not Assigned
Virtual Disk Bad Blocks : Not Applicable
Secured : Not Applicable
Progress : Not Applicable
Layout : RAID-1
Size : 931.00 GB (999653638144 bytes)
Device Name : /dev/sda
Bus Protocol : SAS
Media : HDD
Read Policy : Not Applicable
Write Policy : Not Applicable
Cache Policy : Not Applicable
Stripe Element Size : Not Applicable
Disk Cache Policy : Disabled
# omreport storage pdisk controller=0 … 物理ディスクのステータス確認
List of Physical Disks on Controller SAS 6/iR Integrated (Embedded)
Controller SAS 6/iR Integrated (Embedded)
ID : 0:0:0
Status : Critical … 問題が発生している
Name : Physical Disk 0:0:0
State : Failed … オンラインでは無い
Failure Predicted : No
Certified : Not Applicable
Encryption Capable : No
Secured : Not Applicable
Progress : Not Applicable
Bus Protocol : SAS
Media : HDD
Capacity : 931.00 GB (999653638144 bytes)
Used RAID Disk Space : 931.00 GB (999653638144 bytes)
Available RAID Disk Space : 0.00 GB (0 bytes)
Hot Spare : No
Vendor ID : DELL(tm)
Product ID : ST31000424SS
Revision : KS68
Serial No. : 9WK1QBT7
Part Number : TH0U738K212330AU003DA02
Negotiated Speed : 3.00 Gbps
Capable Speed : 3.00 Gbps
Manufacture Day : 02
Manufacture Week : 46
Manufacture Year : 2010
SAS Address : 5000C50025A5FC0D
ID : 0:0:1
Status : Ok … 問題は発生していない
Name : Physical Disk 0:0:1
State : Online … オンライン
Failure Predicted : No
Certified : Not Applicable
Encryption Capable : No
Secured : Not Applicable
Progress : Not Applicable
Bus Protocol : SAS
Media : HDD
Capacity : 931.00 GB (999653638144 bytes)
Used RAID Disk Space : 931.00 GB (999653638144 bytes)
Available RAID Disk Space : 0.00 GB (0 bytes)
Hot Spare : No
Vendor ID : DELL(tm)
Product ID : ST31000424SS
Revision : KS68
Serial No. : 9WK2EPRG
Part Number : TH0U738K212330B9001GA02
Negotiated Speed : 3.00 Gbps
Capable Speed : 3.00 Gbps
Manufacture Day : 05
Manufacture Week : 46
Manufacture Year : 2010
SAS Address : 5000C50025B0A515
# omreport storage vdisk | grep State
State : Degraded
# omreport storage pdisk controller=0 | grep State
State : Failed
State : Online
■異常が発生したときの対応(上とは別の事例)
突然片方のHDDにアクセスできない状態になったためWADAXに電話で問い合わせた
(omreportを定期的に実行して、異常があればメール通知する仕組みをあらかじめ設けていた)
https://www.wadax.ne.jp/support/
その後、4時間ほどでWADAXから以下のストレージ交換完了のメールが来た
電話では「状況をお知らせください」と伝えていたが、事前連絡なしで交換完了の連絡が来たので注意
この度はご不便をおかけし、誠に申し訳ございません。
弊社担当部署にてご利用サーバーの状態を確認し
HDD 0の故障を確認致しましたので、至急交換作業を実施致しました。
※ホットスワップで交換致しましたので、ダウンタイムはございません。
先程、HDD交換が完了いたしましたので、
ご報告申し上げます。
お手数ではございますが、弊社にてサーバ起動の確認はしておりますが、
お客様側でもサーバへの接続・動作等、ご確認くださいますよう
お願いいたします。
誠に恐れ入りますが、よろしくお願い申し上げます。
その後Raidがリビルド状態になった
(リビルドの時間は、サーバの性能やHDD容量によって左右される)
■上のコマンドの実行結果(上とは別の事例 / 問題発生時に実行したもの)
※突然リビルド中になったためWADAXに電話で問い合わせた
https://www.wadax.ne.jp/support/
が、WADAX側でも詳細不明とのこと
何らかの理由で一時的にRAIDでエラーが発生し、即時RAID再構築が行われている状況だったらしい
メーカーへ確認しても詳細な回答が得られなかったらしい
対応としては経過観察。ハード機器に不備があれば技術担当者へアラームが通知され、改めて対応してくれるとのこと
※リビルドは通常、HDDを交換した場合などに発生するもの
DELL の OMSA で ディスク が Status Non-Critical と報告される - bayanの<del>電波</del>日記
http://d.hatena.ne.jp/bayan/20170427/p2
$ omreport storage vdisk … 仮想ディスクのステータス確認
List of Virtual Disks in the System
Controller SAS 6/iR Integrated (Embedded)
ID : 0
Status : Non-Critical … 致命的ではないが警告が発生している
Name : Virtual Disk 0
State : Degraded … 縮退動作
HotSpare Policy violated : Not Assigned
Virtual Disk Bad Blocks : Not Applicable
Secured : Not Applicable
Progress : Not Applicable
Layout : RAID-1
Size : 931.00 GB (999653638144 bytes)
Device Name : /dev/sda
Bus Protocol : SAS
Media : HDD
Read Policy : Not Applicable
Write Policy : Not Applicable
Cache Policy : Not Applicable
Stripe Element Size : Not Applicable
Disk Cache Policy : Disabled
$ omreport storage pdisk controller=0 … 物理ディスクのステータス確認
List of Physical Disks on Controller SAS 6/iR Integrated (Embedded)
Controller SAS 6/iR Integrated (Embedded)
ID : 0:0:0
Status : Ok
Name : Physical Disk 0:0:0
State : Online
Failure Predicted : No
Certified : Not Applicable
Encryption Capable : No
Secured : Not Applicable
Progress : Not Applicable
Bus Protocol : SAS
Media : HDD
Capacity : 931.00 GB (999653638144 bytes)
Used RAID Disk Space : 931.00 GB (999653638144 bytes)
Available RAID Disk Space : 0.00 GB (0 bytes)
Hot Spare : No
Vendor ID : DELL(tm)
Product ID : ST31000424SS
Revision : KS68
Serial No. : 9WK1QBT7
Part Number : TH0U738K212330AU003DA02
Negotiated Speed : 3.00 Gbps
Capable Speed : 3.00 Gbps
Manufacture Day : 02
Manufacture Week : 46
Manufacture Year : 2010
SAS Address : 5000C50025A5FC0D
ID : 0:0:1
Status : Ok … 問題は発生していない
Name : Physical Disk 0:0:1
State : Rebuilding … リビルド中になっている
Failure Predicted : No
Certified : Not Applicable
Encryption Capable : No
Secured : Not Applicable
Progress : 9% complete … リビルドは9%完了している
Bus Protocol : SAS
Media : HDD
Capacity : 931.00 GB (999653638144 bytes)
Used RAID Disk Space : 931.00 GB (999653638144 bytes)
Available RAID Disk Space : 0.00 GB (0 bytes)
Hot Spare : No
Vendor ID : DELL(tm)
Product ID : ST31000424SS
Revision : KS68
Serial No. : 9WK2EPRG
Part Number : TH0U738K212330B9001GA02
Negotiated Speed : 3.00 Gbps
Capable Speed : 3.00 Gbps
Manufacture Day : 05
Manufacture Week : 46
Manufacture Year : 2010
SAS Address : 5000C50025B0A515
■ZabbixでのRAID監視
Zabbixでも監視できるらしい
ZabbixでSoftwareRAIDを監視する
http://qiita.com/skouno/items/11349771a9c1ac2a1874
Zabbixエージェントで LinuxのソフトウェアRAIDを監視する
https://www.walbrix.com/jp/blog/2013-11-zabbix-linux-raid.html
ただしさくらでは
# cat /proc/mdstat
Personalities :
unused devices: <none>
となって状態を取得できなかった
環境によるものと思われるが、さくらの場合はMegaCliを定期的に実行して異常があれば通知する
…のような仕組みを作っておけば良さそう