■目次
RAIDについてMegaCliでのRAID監視(さくらの専用サーバ)MegaCliのコマンドの意味(さくらの専用サーバ)MegaCliの実行結果例(さくらの専用サーバ)omreportでのRAID監視(WADAX専用サーバ)ZabbixでのRAID監視
■RAIDについて
【基礎から押さえるRAID講座】RAIDとは何か?(1) | RAID・NAS・サーバー復元 | 東京・秋葉原のデータ復旧専門店【データSOS】 https://www.data-sos.com/raid/index.html
■MegaCliでのRAID監視(さくらの専用サーバ)
※さくらで「専用サーバ エクスプレスシリーズ」を契約した場合の例 初期状態ではコントロールパネルで「RAIDステータス」が「監視できていません」となっている https://help.sakura.ad.jp/hc/ja/articles/206056262 を見ると、標準で監視しているとある https://help.sakura.ad.jp/hc/ja/articles/206110622 これが設定方法らしい さくらでは ・監視を有効にしておけば、コントロールパネルでハードの状態を確認できる ・コントロールパネルで確認し、異常があればさくらに問い合わせる ・そこで初めてさくらが調査を行う という監視方法らしい つまり、監視が有効でも異常を放置しておくとダメらしい ■設定手順 root権限で以下を実行する 「setup complete」と表示されれば成功 # wget http://progeny.sakura.ad.jp/scripts/raid_check/setup_raid_chk.sh # sh setup_raid_chk.sh 実行すると、/etc/crontab に以下の設定が追加されていた
14 3 * * * root sh /opt/sakura/raid_chk.sh 22 1 5 * * root sh /opt/sakura/watch_chk.sh
RAIDにエラーがあると、以下にファイルを作成してそのエラー数を書き込むみたい /opt/sakura/alert_count RAIDがエラーから回復しようとしているとき、以下のファイルを作成するみたい /opt/sakura/rebuilding これらのファイルは、エラーから回復すると削除される 監視サーバのIPアドレスを確認。コントロールパネルからも確認できる(この場合、IPアドレスは「153.120.12.6」) # vi /etc/snmp/snmpd.conf # sec.name source community com2sec sakura 153.120.12.6 public com2sec6 sakura 2401:2500:203:a:153:120:12:6 public 監視サーバからのSNMPアクセスを許可する # vi /etc/sysconfig/iptables #RAID監視を許可 -A MY-FIREWALL -p tcp -m state -m tcp -s 153.120.12.6 --dport 161 --state NEW -j ACCEPT -A MY-FIREWALL -p udp -m state -m udp -s 153.120.12.6 --dport 161 --state NEW -j ACCEPT しばらく待つと、さくらのコントロールパネルで「RAIDステータス」が「正常」と表示された ■SNMPとは 「FWなどでアクセス制限を行う場合は弊社監視サーバからのアクセスを許可していただく必要があります。」 iptablesの設定も必要みたい 特定IPからの、161版ポートへのTCP・UDPアクセスを許可する SNMPは Simple Network Management Protocol の略で、サーバやネットワークの監視を行うためのプロトコル 【さくらの専用サーバ】RAID監視設定について - さくらのサポート情報 https://help.sakura.ad.jp/hc/ja/articles/206056262 SNMPとは | IT用語 | 意味 解説 http://www.webnms.jp/solutions/snmp.html SNMPの利用設定およびアクセス許可設定について|So-netクラウド http://www.so-net.ne.jp/cloud/snmp/ サーバー監視システム構築 Cacti+Net-SNMP+RRDtool|Web系オーライLinux https://ameblo.jp/yuu-sys-guard/entry-11849984390.html ■MegaCliについて 監視スクリプトの内容を監視すると、MegaCliで状態の確認を行っている MegaCliは、RAIDを構成したり確認したりするツール MegaCliのインストール - Qiita https://qiita.com/shotaTsuge/items/b0de32cfc660870b3b0d MegaCLI インストール概要 - Windows - Cisco Support Community https://supportforums.cisco.com/t5/%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC-%... 最低限のものなら、以下のスクリプトで状態確認ができる(さくらのスクリプトから抜粋) 実行して「0」が表示されれば問題なし。「1」など他の値が表示されれば何らかの異常あり
#!/bin/sh #### raid status check # # return 0: no problem # return 1: RAID error # return 2: Rebuilding status # return 3: Another problem # check_status (){ MegaCli=`which MegaCli 2> /dev/null` if [ -z "${MegaCli}" ]; then return 3 fi ${MegaCli} -LDInfo -Lall -aALL -NoLog > /dev/null 2>&1 if [ "$?" -ne 0 ]; then return 3 fi stat=`${MegaCli} -PDList -aALL -NoLog | awk '/Rebuild/ {print $3}'` if [ "$stat" = "Rebuild" ]; then return 2 fi stat=`${MegaCli} -LDInfo -Lall -aALL -NoLog | grep ^State` if echo "$stat" | grep -q Optimal 2> /dev/null; then return 0 fi return 1 } check_status echo $?
例えばファイル名を「my_check_raid.sh」とした場合、異常がなければ以下のように表示される # ./my_check_raid.sh 0 異常があれば以下のように表示される # ./my_check_raid.sh 1 ■異常が発生したときの対応 さくらから以下のメールが送られてきた
弊社監視システムにて、お客様ご利用中のサーバに搭載されているストレージに、 何らかの障害が発生している可能性があることを検知いたしました。 ストレージ障害によるデータ消失等を未然に防ぐため、サーバの障害ストレージ 交換対応を実施させていただきたく存じます。 障害を検知したストレージ Port0側 本作業にサーバの停止は伴いません。しかしながら、ミラーリングの再構築時に DISKI/O のパフォーマンスが低下いたします。 再構築の処理が完了するまでの所要時間は、ストレージ容量とサーバ負荷状況 により変動いたします。 サーバ負荷の少ない時間をご指定いただければ、作業日時の調整の上で作業を 実施させていただきます。 現在正常に稼働しているストレージで万が一障害が発生いたしますと、 データが損失してしまう可能性がございます。 ストレージ交換の前に、データのバックアップを取得いただきますこと を推奨させていただきます。 以下にストレージ交換作業に関する作業依頼申込書を送付させていただきます。
コントロールパネルから該当サーバの「RAIDステータス」を確認すると「デグレード」となっていた また、my_check_raid.sh の実行結果は以下のようになった # ./my_check_raid.sh 1 送られてきた作業依頼申込書に入力して返信した 1時間ほどでストレージ交換完了の連絡が来た その後リビルドが3時間ほど続いた後、正常な状態に戻った (リビルドの時間は、サーバの性能やHDD容量によって左右される)
■MegaCliのコマンドの意味(さくらの専用サーバ)
■MegaCli -LDInfo -Lall -aALL 論理ドライブのプロパティを表示する State : Optimal … 正常な状態 State : Degraded … RAID が縮退動作(制限された状態で動作している)にある ■MegaCli -PDList -aALL 物理デバイスのプロパティを表示する Slot Number: … 対象のハードディスクが接続されたスロット番号 Firmware state : Online … 正常な状態 Firmware state : Critical … 対象のハードディスクで故障している可能性がある Firmware state : Rebuild … リビルド中 Firmware state : Hotspare … Disk がホットスペアとして確保されている(ホットスペアは提供しない) Firmware state : 上記以外 … なんらかの障害が起きている可能性がある ■MegaCli -PDRbld -ShowProg -PhysDrv [エンクロージャー番号:スロット番号] -aALL オペレーションの実行状況を表示する リビルド実行中の場合、その進捗が%で表示される あらかじめ、「MegaCli -PDList -aALL」で物理デバイスのエンクロージャー番号とスロット番号を調べておく Enclosure Device ID: 252 Slot Number: 0 このような表示になっている場合、以下のようにコマンドを実行する # MegaCli -PDRbld -ShowProg -PhysDrv [252:0] -aALL
■MegaCliの実行結果例(さくらの専用サーバ)
■コマンドの個別実行結果(問題無いときに実行したもの) # MegaCli -LDInfo -Lall -aALL Adapter 0 -- Virtual Drive Information: Virtual Drive: 0 (Target Id: 0) Name :array0 RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0 Size : 930.812 GB Sector Size : 512 Is VD emulated : No Mirror Data : 930.812 GB State : Optimal … 通常状態 Strip Size : 256 KB Number Of Drives : 2 Span Depth : 1 Default Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU Current Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU Default Access Policy: Read/Write Current Access Policy: Read/Write Disk Cache Policy : Disabled Encryption Type : None Default Power Savings Policy: Controller Defined Current Power Savings Policy: None Can spin up in 1 minute: Yes LD has drives that support T10 power conditions: No LD's IO profile supports MAX power savings with cached writes: No Bad Blocks Exist: No PI type: No PI Is VD Cached: No Exit Code: 0x00 # MegaCli -PDList -aALL Adapter #0 Enclosure Device ID: 252 … デバイスID(エンクロージャー番号) Slot Number: 0 … スロット0の情報 Drive's position: DiskGroup: 0, Span: 0, Arm: 0 Enclosure position: N/A Device Id: 9 WWN: 5000c500791160c2 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 PD Type: SATA Raw Size: 931.322 GB [0x746a5288 Sectors] Non Coerced Size: 930.822 GB [0x745a5288 Sectors] Coerced Size: 930.812 GB [0x745a0000 Sectors] Sector Size: 512 Logical Sector Size: 512 Physical Sector Size: 512 Firmware state: Online, Spun Up … オンライン Device Firmware Level: N007 Shield Counter: 0 Successful diagnostics completion on : N/A SAS Address(0): 0x4433221107000000 Connected Port Number: 1(path0) Inquiry Data: 9XG7753VST91000640NS N007 FDE Capable: Not Capable FDE Enable: Disable Secured: Unsecured Locked: Unlocked Needs EKM Attention: No Foreign State: None Device Speed: 6.0Gb/s Link Speed: 6.0Gb/s Media Type: Hard Disk Device Drive: Not Certified Drive Temperature :28C (82.40 F) PI Eligibility: No Drive is formatted for PI information: No PI: No PI Drive's NCQ setting : N/A Port-0 : Port status: Active Port's Linkspeed: 6.0Gb/s Drive has flagged a S.M.A.R.T alert : No Enclosure Device ID: 252 … デバイスID Slot Number: 1 … スロット1の情報 Drive's position: DiskGroup: 0, Span: 0, Arm: 1 Enclosure position: N/A Device Id: 8 WWN: 5000c50079117423 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 PD Type: SATA Raw Size: 931.322 GB [0x746a5288 Sectors] Non Coerced Size: 930.822 GB [0x745a5288 Sectors] Coerced Size: 930.812 GB [0x745a0000 Sectors] Sector Size: 512 Logical Sector Size: 512 Physical Sector Size: 512 Firmware state: Online, Spun Up … オンライン Device Firmware Level: N007 Shield Counter: 0 Successful diagnostics completion on : N/A SAS Address(0): 0x4433221106000000 Connected Port Number: 0(path0) Inquiry Data: 9XG774V8ST91000640NS N007 FDE Capable: Not Capable FDE Enable: Disable Secured: Unsecured Locked: Unlocked Needs EKM Attention: No Foreign State: None Device Speed: 6.0Gb/s Link Speed: 6.0Gb/s Media Type: Hard Disk Device Drive: Not Certified Drive Temperature :28C (82.40 F) PI Eligibility: No Drive is formatted for PI information: No PI: No PI Drive's NCQ setting : N/A Port-0 : Port status: Active Port's Linkspeed: 6.0Gb/s Drive has flagged a S.M.A.R.T alert : No Exit Code: 0x00 ■コマンドの個別実行結果(問題あるときに実行したもの) # MegaCli -LDInfo -Lall -aALL Adapter 0 -- Virtual Drive Information: Virtual Drive: 0 (Target Id: 0) Name :array0 RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0 Size : 930.812 GB Sector Size : 512 Is VD emulated : No Mirror Data : 930.812 GB State : Degraded … 縮退動作 Strip Size : 256 KB Number Of Drives : 2 Span Depth : 1 Default Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU Current Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU Default Access Policy: Read/Write Current Access Policy: Read/Write Disk Cache Policy : Disabled Encryption Type : None Default Power Savings Policy: Controller Defined Current Power Savings Policy: None Can spin up in 1 minute: Yes LD has drives that support T10 power conditions: No LD's IO profile supports MAX power savings with cached writes: No Bad Blocks Exist: No PI type: No PI Is VD Cached: No Exit Code: 0x00 # MegaCli -PDList -aALL Adapter #0 Enclosure Device ID: 252 … デバイスID Slot Number: 1 … スロット1の情報は表示されるが、スロット0の情報が表示されない。異常があってアクセスできないからと思われる Drive's position: DiskGroup: 0, Span: 0, Arm: 1 Enclosure position: N/A Device Id: 8 WWN: 5000c50079117423 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 PD Type: SATA Raw Size: 931.322 GB [0x746a5288 Sectors] Non Coerced Size: 930.822 GB [0x745a5288 Sectors] Coerced Size: 930.812 GB [0x745a0000 Sectors] Sector Size: 512 Logical Sector Size: 512 Physical Sector Size: 512 Firmware state: Online, Spun Up … オンライン Device Firmware Level: N007 Shield Counter: 0 Successful diagnostics completion on : N/A SAS Address(0): 0x4433221106000000 Connected Port Number: 0(path0) Inquiry Data: 9XG774V8ST91000640NS N007 FDE Capable: Not Capable FDE Enable: Disable Secured: Unsecured Locked: Unlocked Needs EKM Attention: No Foreign State: None Device Speed: 6.0Gb/s Link Speed: 6.0Gb/s Media Type: Hard Disk Device Drive: Not Certified Drive Temperature :29C (84.20 F) PI Eligibility: No Drive is formatted for PI information: No PI: No PI Drive's NCQ setting : N/A Port-0 : Port status: Active Port's Linkspeed: 6.0Gb/s Drive has flagged a S.M.A.R.T alert : No Exit Code: 0x00 ■コマンドの個別実行結果(ストレージ交換連絡の直後に実行したもの) # MegaCli -LDInfo -Lall -aALL Adapter 0 -- Virtual Drive Information: Virtual Drive: 0 (Target Id: 0) Name :array0 RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0 Size : 930.812 GB Sector Size : 512 Is VD emulated : No Mirror Data : 930.812 GB State : Degraded … 縮退動作 Strip Size : 256 KB Number Of Drives : 2 Span Depth : 1 Default Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU Current Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU Default Access Policy: Read/Write Current Access Policy: Read/Write Disk Cache Policy : Disabled Encryption Type : None Default Power Savings Policy: Controller Defined Current Power Savings Policy: None Can spin up in 1 minute: Yes LD has drives that support T10 power conditions: No LD's IO profile supports MAX power savings with cached writes: No Bad Blocks Exist: No PI type: No PI Is VD Cached: No Exit Code: 0x00 # MegaCli -PDList -aALL Adapter #0 Enclosure Device ID: 252 … デバイスID Slot Number: 0 … スロット0の情報 Drive's position: DiskGroup: 0, Span: 0, Arm: 0 Enclosure position: N/A Device Id: 9 WWN: 5000c500b91b76ce Sequence Number: 13 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 PD Type: SATA Raw Size: 931.322 GB [0x746a5288 Sectors] Non Coerced Size: 930.822 GB [0x745a5288 Sectors] Coerced Size: 930.812 GB [0x745a0000 Sectors] Sector Size: 512 Logical Sector Size: 512 Physical Sector Size: 512 Firmware state: Rebuild … リビルド Device Firmware Level: N002 Shield Counter: 0 Successful diagnostics completion on : N/A SAS Address(0): 0x4433221107000000 Connected Port Number: 1(path0) Inquiry Data: W471KFMTST1000NX0423 N002 FDE Capable: Not Capable FDE Enable: Disable Secured: Unsecured Locked: Unlocked Needs EKM Attention: No Foreign State: None Device Speed: 6.0Gb/s Link Speed: 6.0Gb/s Media Type: Hard Disk Device Drive: Not Certified Drive Temperature :32C (89.60 F) PI Eligibility: No Drive is formatted for PI information: No PI: No PI Drive's NCQ setting : N/A Port-0 : Port status: Active Port's Linkspeed: 6.0Gb/s Drive has flagged a S.M.A.R.T alert : No Enclosure Device ID: 252 … デバイスID Slot Number: 1 … スロット1の情報 Drive's position: DiskGroup: 0, Span: 0, Arm: 1 Enclosure position: N/A Device Id: 8 WWN: 5000c50079117423 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 PD Type: SATA Raw Size: 931.322 GB [0x746a5288 Sectors] Non Coerced Size: 930.822 GB [0x745a5288 Sectors] Coerced Size: 930.812 GB [0x745a0000 Sectors] Sector Size: 512 Logical Sector Size: 512 Physical Sector Size: 512 Firmware state: Online, Spun Up … オンライン Device Firmware Level: N007 Shield Counter: 0 Successful diagnostics completion on : N/A SAS Address(0): 0x4433221106000000 Connected Port Number: 0(path0) Inquiry Data: 9XG774V8ST91000640NS N007 FDE Capable: Not Capable FDE Enable: Disable Secured: Unsecured Locked: Unlocked Needs EKM Attention: No Foreign State: None Device Speed: 6.0Gb/s Link Speed: 6.0Gb/s Media Type: Hard Disk Device Drive: Not Certified Drive Temperature :31C (87.80 F) PI Eligibility: No Drive is formatted for PI information: No PI: No PI Drive's NCQ setting : N/A Port-0 : Port status: Active Port's Linkspeed: 6.0Gb/s Drive has flagged a S.M.A.R.T alert : No Exit Code: 0x00 ■リビルドの実行状況 # MegaCli -PDRbld -ShowProg -PhysDrv [252:0] -aALL Device(Encl-252 Slot-0) is not in rebuild process … リビルド中でない場合 # MegaCli -PDRbld -ShowProg -PhysDrv [252:0] -aALL Rebuild Progress on Device at Enclosure 252, Slot 0 Completed 79% in 143 Minutes. … 79%完了。143分経過している
■omreportでのRAID監視(WADAX専用サーバ)
※WADAXで専用サーバを契約した場合の例 DELLサーバの場合、omreportがインストールされていればRAIDの状態を確認できる DELLサーバのハードウェア状態をコマンドにより取得 (omreport) | Skyarch Broadcasting https://www.skyarch.net/blog/?p=1388 WADAXでは ・omreportコマンドを実行することによってRAIDの状態を確認する ・異常があればWADAXに問い合わせる ・そこで初めてWADAXが調査を行う という監視方法らしい つまり、監視が有効でも異常を放置しておくとダメらしい $ omreport storage vdisk $ omreport storage pdisk controller=0 このようなコマンドで確認できる コマンドが見つからなければ、以下のようにパスの直接指定を試す それでも駄目なら、コマンドがインストールされているかどうかも含めて確認する $ /opt/dell/srvadmin/bin/omreport storage vdisk $ /opt/dell/srvadmin/bin/omreport storage pdisk controller=0 ■上のコマンドの実行結果(通常時に実行したもの) $ omreport storage vdisk … 仮想ディスクのステータス確認 List of Virtual Disks in the System Controller SAS 6/iR Integrated (Embedded) ID : 0 Status : Ok … 通常状態 Name : Virtual Disk 0 State : Ready … 通常状態 HotSpare Policy violated : Not Assigned Virtual Disk Bad Blocks : Not Applicable Secured : Not Applicable Progress : Not Applicable Layout : RAID-1 Size : 931.00 GB (999653638144 bytes) Device Name : /dev/sda Bus Protocol : SAS Media : HDD Read Policy : Not Applicable Write Policy : Not Applicable Cache Policy : Not Applicable Stripe Element Size : Not Applicable Disk Cache Policy : Disabled $ omreport storage pdisk controller=0 … 物理ディスクのステータス確認 List of Physical Disks on Controller SAS 6/iR Integrated (Embedded) Controller SAS 6/iR Integrated (Embedded) ID : 0:0:0 Status : Ok Name : Physical Disk 0:0:0 State : Online Failure Predicted : No Certified : Not Applicable Encryption Capable : No Secured : Not Applicable Progress : Not Applicable Bus Protocol : SAS Media : HDD Capacity : 931.00 GB (999653638144 bytes) Used RAID Disk Space : 931.00 GB (999653638144 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST31000424SS Revision : KS68 Serial No. : 9WK1QBT7 Part Number : TH0U738K212330AU003DA02 Negotiated Speed : 3.00 Gbps Capable Speed : 3.00 Gbps Manufacture Day : 02 Manufacture Week : 46 Manufacture Year : 2010 SAS Address : 5000C50025A5FC0D ID : 0:0:1 Status : Ok … 問題は発生していない Name : Physical Disk 0:0:1 State : Online … 通常状態 Failure Predicted : No Certified : Not Applicable Encryption Capable : No Secured : Not Applicable Progress : Not Applicable … 通常状態 Bus Protocol : SAS Media : HDD Capacity : 931.00 GB (999653638144 bytes) Used RAID Disk Space : 931.00 GB (999653638144 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST31000424SS Revision : KS68 Serial No. : 9WK2EPRG Part Number : TH0U738K212330B9001GA02 Negotiated Speed : 3.00 Gbps Capable Speed : 3.00 Gbps Manufacture Day : 05 Manufacture Week : 46 Manufacture Year : 2010 SAS Address : 5000C50025B0A515 ■上のコマンドの実行結果(問題発生時に実行したもの) # omreport storage vdisk … 仮想ディスクのステータス確認 List of Virtual Disks in the System Controller SAS 6/iR Integrated (Embedded) ID : 0 Status : Non-Critical … 致命的ではないが警告が発生している Name : Virtual Disk 0 State : Degraded … 縮退動作 HotSpare Policy violated : Not Assigned Virtual Disk Bad Blocks : Not Applicable Secured : Not Applicable Progress : Not Applicable Layout : RAID-1 Size : 931.00 GB (999653638144 bytes) Device Name : /dev/sda Bus Protocol : SAS Media : HDD Read Policy : Not Applicable Write Policy : Not Applicable Cache Policy : Not Applicable Stripe Element Size : Not Applicable Disk Cache Policy : Disabled # omreport storage pdisk controller=0 … 物理ディスクのステータス確認 List of Physical Disks on Controller SAS 6/iR Integrated (Embedded) Controller SAS 6/iR Integrated (Embedded) ID : 0:0:0 Status : Critical … 問題が発生している Name : Physical Disk 0:0:0 State : Failed … オンラインでは無い Failure Predicted : No Certified : Not Applicable Encryption Capable : No Secured : Not Applicable Progress : Not Applicable Bus Protocol : SAS Media : HDD Capacity : 931.00 GB (999653638144 bytes) Used RAID Disk Space : 931.00 GB (999653638144 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST31000424SS Revision : KS68 Serial No. : 9WK1QBT7 Part Number : TH0U738K212330AU003DA02 Negotiated Speed : 3.00 Gbps Capable Speed : 3.00 Gbps Manufacture Day : 02 Manufacture Week : 46 Manufacture Year : 2010 SAS Address : 5000C50025A5FC0D ID : 0:0:1 Status : Ok … 問題は発生していない Name : Physical Disk 0:0:1 State : Online … オンライン Failure Predicted : No Certified : Not Applicable Encryption Capable : No Secured : Not Applicable Progress : Not Applicable Bus Protocol : SAS Media : HDD Capacity : 931.00 GB (999653638144 bytes) Used RAID Disk Space : 931.00 GB (999653638144 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST31000424SS Revision : KS68 Serial No. : 9WK2EPRG Part Number : TH0U738K212330B9001GA02 Negotiated Speed : 3.00 Gbps Capable Speed : 3.00 Gbps Manufacture Day : 05 Manufacture Week : 46 Manufacture Year : 2010 SAS Address : 5000C50025B0A515 # omreport storage vdisk | grep State State : Degraded # omreport storage pdisk controller=0 | grep State State : Failed State : Online ■異常が発生したときの対応(上とは別の事例) 突然片方のHDDにアクセスできない状態になったためWADAXに電話で問い合わせた (omreportを定期的に実行して、異常があればメール通知する仕組みをあらかじめ設けていた) https://www.wadax.ne.jp/support/ その後、4時間ほどでWADAXから以下のストレージ交換完了のメールが来た 電話では「状況をお知らせください」と伝えていたが、事前連絡なしで交換完了の連絡が来たので注意
この度はご不便をおかけし、誠に申し訳ございません。 弊社担当部署にてご利用サーバーの状態を確認し HDD 0の故障を確認致しましたので、至急交換作業を実施致しました。 ※ホットスワップで交換致しましたので、ダウンタイムはございません。 先程、HDD交換が完了いたしましたので、 ご報告申し上げます。 お手数ではございますが、弊社にてサーバ起動の確認はしておりますが、 お客様側でもサーバへの接続・動作等、ご確認くださいますよう お願いいたします。 誠に恐れ入りますが、よろしくお願い申し上げます。
その後Raidがリビルド状態になった (リビルドの時間は、サーバの性能やHDD容量によって左右される) ■上のコマンドの実行結果(上とは別の事例 / 問題発生時に実行したもの) ※突然リビルド中になったためWADAXに電話で問い合わせた https://www.wadax.ne.jp/support/ が、WADAX側でも詳細不明とのこと 何らかの理由で一時的にRAIDでエラーが発生し、即時RAID再構築が行われている状況だったらしい メーカーへ確認しても詳細な回答が得られなかったらしい 対応としては経過観察。ハード機器に不備があれば技術担当者へアラームが通知され、改めて対応してくれるとのこと ※リビルドは通常、HDDを交換した場合などに発生するもの DELL の OMSA で ディスク が Status Non-Critical と報告される - bayanの<del>電波</del>日記 http://d.hatena.ne.jp/bayan/20170427/p2 $ omreport storage vdisk … 仮想ディスクのステータス確認 List of Virtual Disks in the System Controller SAS 6/iR Integrated (Embedded) ID : 0 Status : Non-Critical … 致命的ではないが警告が発生している Name : Virtual Disk 0 State : Degraded … 縮退動作 HotSpare Policy violated : Not Assigned Virtual Disk Bad Blocks : Not Applicable Secured : Not Applicable Progress : Not Applicable Layout : RAID-1 Size : 931.00 GB (999653638144 bytes) Device Name : /dev/sda Bus Protocol : SAS Media : HDD Read Policy : Not Applicable Write Policy : Not Applicable Cache Policy : Not Applicable Stripe Element Size : Not Applicable Disk Cache Policy : Disabled $ omreport storage pdisk controller=0 … 物理ディスクのステータス確認 List of Physical Disks on Controller SAS 6/iR Integrated (Embedded) Controller SAS 6/iR Integrated (Embedded) ID : 0:0:0 Status : Ok Name : Physical Disk 0:0:0 State : Online Failure Predicted : No Certified : Not Applicable Encryption Capable : No Secured : Not Applicable Progress : Not Applicable Bus Protocol : SAS Media : HDD Capacity : 931.00 GB (999653638144 bytes) Used RAID Disk Space : 931.00 GB (999653638144 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST31000424SS Revision : KS68 Serial No. : 9WK1QBT7 Part Number : TH0U738K212330AU003DA02 Negotiated Speed : 3.00 Gbps Capable Speed : 3.00 Gbps Manufacture Day : 02 Manufacture Week : 46 Manufacture Year : 2010 SAS Address : 5000C50025A5FC0D ID : 0:0:1 Status : Ok … 問題は発生していない Name : Physical Disk 0:0:1 State : Rebuilding … リビルド中になっている Failure Predicted : No Certified : Not Applicable Encryption Capable : No Secured : Not Applicable Progress : 9% complete … リビルドは9%完了している Bus Protocol : SAS Media : HDD Capacity : 931.00 GB (999653638144 bytes) Used RAID Disk Space : 931.00 GB (999653638144 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST31000424SS Revision : KS68 Serial No. : 9WK2EPRG Part Number : TH0U738K212330B9001GA02 Negotiated Speed : 3.00 Gbps Capable Speed : 3.00 Gbps Manufacture Day : 05 Manufacture Week : 46 Manufacture Year : 2010 SAS Address : 5000C50025B0A515
■ZabbixでのRAID監視
Zabbixでも監視できるらしい ZabbixでSoftwareRAIDを監視する http://qiita.com/skouno/items/11349771a9c1ac2a1874 Zabbixエージェントで LinuxのソフトウェアRAIDを監視する https://www.walbrix.com/jp/blog/2013-11-zabbix-linux-raid.html ただしさくらでは # cat /proc/mdstat Personalities : unused devices: <none> となって状態を取得できなかった 環境によるものと思われるが、さくらの場合はMegaCliを定期的に実行して異常があれば通知する …のような仕組みを作っておけば良さそう