■目次
RAIDについてMegaCliでのRAID監視(さくらの専用サーバ)omreportでのRAID監視(WADAX専用サーバ)ZabbixでのRAID監視
■RAIDについて
【基礎から押さえるRAID講座】RAIDとは何か?(1) | RAID・NAS・サーバー復元 | 東京・秋葉原のデータ復旧専門店【データSOS】 https://www.data-sos.com/raid/index.html
■MegaCliでのRAID監視(さくらの専用サーバ)
※さくらで「専用サーバ エクスプレスシリーズ」を契約した場合の例 初期状態ではコントロールパネルで「RAIDステータス」が「監視できていません」となっている https://help.sakura.ad.jp/hc/ja/articles/206056262 を見ると、標準で監視しているとある https://help.sakura.ad.jp/hc/ja/articles/206110622 これが設定方法らしい さくらでは ・監視を有効にしておけば、コントロールパネルでハードの状態を確認できる ・コントロールパネルで確認し、異常があればさくらに問い合わせる ・そこで初めてさくらが調査を行う という監視方法らしい つまり、監視が有効でも異常を放置しておくとダメらしい ■設定手順 root権限で以下を実行する 「setup complete」と表示されれば成功 # wget http://progeny.sakura.ad.jp/scripts/raid_check/setup_raid_chk.sh # sh setup_raid_chk.sh 実行すると、/etc/crontab に以下の設定が追加されていた
14 3 * * * root sh /opt/sakura/raid_chk.sh 22 1 5 * * root sh /opt/sakura/watch_chk.sh
RAIDにエラーがあると、以下にファイルを作成してそのエラー数を書き込むみたい /opt/sakura/alert_count RAIDがエラーから回復しようとしているとき、以下のファイルを作成するみたい /opt/sakura/rebuilding これらのファイルは、エラーから回復すると削除される 監視サーバのIPアドレスを確認。コントロールパネルからも確認できる(この場合、IPアドレスは「153.120.12.6」) # vi /etc/snmp/snmpd.conf # sec.name source community com2sec sakura 153.120.12.6 public com2sec6 sakura 2401:2500:203:a:153:120:12:6 public 監視サーバからのSNMPアクセスを許可する # vi /etc/sysconfig/iptables #RAID監視を許可 -A MY-FIREWALL -p tcp -m state -m tcp -s 153.120.12.6 --dport 161 --state NEW -j ACCEPT -A MY-FIREWALL -p udp -m state -m udp -s 153.120.12.6 --dport 161 --state NEW -j ACCEPT しばらく待つと、さくらのコントロールパネルで「RAIDステータス」が「正常」と表示された ■SNMPとは 「FWなどでアクセス制限を行う場合は弊社監視サーバからのアクセスを許可していただく必要があります。」 iptablesの設定も必要みたい 特定IPからの、161版ポートへのTCP・UDPアクセスを許可する SNMPは Simple Network Management Protocol の略で、サーバやネットワークの監視を行うためのプロトコル 【さくらの専用サーバ】RAID監視設定について - さくらのサポート情報 https://help.sakura.ad.jp/hc/ja/articles/206056262 SNMPとは | IT用語 | 意味 解説 http://www.webnms.jp/solutions/snmp.html SNMPの利用設定およびアクセス許可設定について|So-netクラウド http://www.so-net.ne.jp/cloud/snmp/ サーバー監視システム構築 Cacti+Net-SNMP+RRDtool|Web系オーライLinux https://ameblo.jp/yuu-sys-guard/entry-11849984390.html ■MegaCliについて 監視スクリプトの内容を監視すると、MegaCliで状態の確認を行っている MegaCliは、RAIDを構成したり確認したりするツール MegaCliのインストール - Qiita https://qiita.com/shotaTsuge/items/b0de32cfc660870b3b0d MegaCLI インストール概要 - Windows - Cisco Support Community https://supportforums.cisco.com/t5/%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC-%... 最低限のものなら、以下のスクリプトで状態確認ができる(さくらのスクリプトから抜粋) 実行して「0」が表示されれば問題なし
#!/bin/sh #### raid status check # # return 0: no problem # return 1: RAID error # return 2: Rebuilding status # return 3: Another problem # check_status (){ MegaCli=`which MegaCli 2> /dev/null` if [ -z "${MegaCli}" ]; then return 3 fi ${MegaCli} -LDInfo -Lall -aALL -NoLog > /dev/null 2>&1 if [ "$?" -ne 0 ]; then return 3 fi stat=`${MegaCli} -PDList -aALL -NoLog | awk '/Rebuild/ {print $3}'` if [ "$stat" = "Rebuild" ]; then return 2 fi stat=`${MegaCli} -LDInfo -Lall -aALL -NoLog | grep ^State` if echo "$stat" | grep -q Optimal 2> /dev/null; then return 0 fi return 1 } check_status echo $?
■コマンドの個別実行結果(問題無いときに実行したもの) # MegaCli -LDInfo -Lall -aALL -NoLog Adapter 0 -- Virtual Drive Information: Virtual Drive: 0 (Target Id: 0) Name :array0 RAID Level : Primary-1, Secondary-0, RAID Level Qualifier-0 Size : 930.812 GB Sector Size : 512 Is VD emulated : No Mirror Data : 930.812 GB State : Optimal Strip Size : 256 KB Number Of Drives : 2 Span Depth : 1 Default Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU Current Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU Default Access Policy: Read/Write Current Access Policy: Read/Write Disk Cache Policy : Disabled Encryption Type : None Default Power Savings Policy: Controller Defined Current Power Savings Policy: None Can spin up in 1 minute: Yes LD has drives that support T10 power conditions: No LD's IO profile supports MAX power savings with cached writes: No Bad Blocks Exist: No PI type: No PI Is VD Cached: No Exit Code: 0x00 # MegaCli -PDList -aALL -NoLog Adapter #0 Enclosure Device ID: 252 Slot Number: 0 Drive's position: DiskGroup: 0, Span: 0, Arm: 0 Enclosure position: N/A Device Id: 9 WWN: 5000c500791160c2 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 PD Type: SATA Raw Size: 931.322 GB [0x746a5288 Sectors] Non Coerced Size: 930.822 GB [0x745a5288 Sectors] Coerced Size: 930.812 GB [0x745a0000 Sectors] Sector Size: 512 Logical Sector Size: 512 Physical Sector Size: 512 Firmware state: Online, Spun Up Device Firmware Level: N007 Shield Counter: 0 Successful diagnostics completion on : N/A SAS Address(0): 0x4433221107000000 Connected Port Number: 1(path0) Inquiry Data: 9XG7753VST91000640NS N007 FDE Capable: Not Capable FDE Enable: Disable Secured: Unsecured Locked: Unlocked Needs EKM Attention: No Foreign State: None Device Speed: 6.0Gb/s Link Speed: 6.0Gb/s Media Type: Hard Disk Device Drive: Not Certified Drive Temperature :28C (82.40 F) PI Eligibility: No Drive is formatted for PI information: No PI: No PI Drive's NCQ setting : N/A Port-0 : Port status: Active Port's Linkspeed: 6.0Gb/s Drive has flagged a S.M.A.R.T alert : No Enclosure Device ID: 252 Slot Number: 1 Drive's position: DiskGroup: 0, Span: 0, Arm: 1 Enclosure position: N/A Device Id: 8 WWN: 5000c50079117423 Sequence Number: 2 Media Error Count: 0 Other Error Count: 0 Predictive Failure Count: 0 Last Predictive Failure Event Seq Number: 0 PD Type: SATA Raw Size: 931.322 GB [0x746a5288 Sectors] Non Coerced Size: 930.822 GB [0x745a5288 Sectors] Coerced Size: 930.812 GB [0x745a0000 Sectors] Sector Size: 512 Logical Sector Size: 512 Physical Sector Size: 512 Firmware state: Online, Spun Up Device Firmware Level: N007 Shield Counter: 0 Successful diagnostics completion on : N/A SAS Address(0): 0x4433221106000000 Connected Port Number: 0(path0) Inquiry Data: 9XG774V8ST91000640NS N007 FDE Capable: Not Capable FDE Enable: Disable Secured: Unsecured Locked: Unlocked Needs EKM Attention: No Foreign State: None Device Speed: 6.0Gb/s Link Speed: 6.0Gb/s Media Type: Hard Disk Device Drive: Not Certified Drive Temperature :28C (82.40 F) PI Eligibility: No Drive is formatted for PI information: No PI: No PI Drive's NCQ setting : N/A Port-0 : Port status: Active Port's Linkspeed: 6.0Gb/s Drive has flagged a S.M.A.R.T alert : No Exit Code: 0x00
■omreportでのRAID監視(WADAX専用サーバ)
※WADAXで専用サーバを契約した場合の例 DELLサーバの場合、omreportがインストールされていればRAIDの状態を確認できる DELLサーバのハードウェア状態をコマンドにより取得 (omreport) | Skyarch Broadcasting https://www.skyarch.net/blog/?p=1388 WADAXでは ・omreportコマンドを実行することによってRAIDの状態を確認する ・異常があればWADAXに問い合わせる ・そこで初めてWADAXが調査を行う という監視方法らしい つまり、監視が有効でも異常を放置しておくとダメらしい $ omreport storage vdisk $ omreport storage pdisk controller=0 このようなコマンドで確認できる コマンドが見つからなければ、以下のようにパスの直接指定を試す それでも駄目なら、コマンドがインストールされているかどうかも含めて確認する $ /opt/dell/srvadmin/bin/omreport storage vdisk $ /opt/dell/srvadmin/bin/omreport storage pdisk controller=0 ■上のコマンドの実行結果(通常時に実行したもの) $ omreport storage vdisk … 仮想ディスクのステータス確認 List of Virtual Disks in the System Controller SAS 6/iR Integrated (Embedded) ID : 0 Status : Ok … 通常状態 Name : Virtual Disk 0 State : Ready … 通常状態 HotSpare Policy violated : Not Assigned Virtual Disk Bad Blocks : Not Applicable Secured : Not Applicable Progress : Not Applicable Layout : RAID-1 Size : 931.00 GB (999653638144 bytes) Device Name : /dev/sda Bus Protocol : SAS Media : HDD Read Policy : Not Applicable Write Policy : Not Applicable Cache Policy : Not Applicable Stripe Element Size : Not Applicable Disk Cache Policy : Disabled $ omreport storage pdisk controller=0 … 物理ディスクのステータス確認 List of Physical Disks on Controller SAS 6/iR Integrated (Embedded) Controller SAS 6/iR Integrated (Embedded) ID : 0:0:0 Status : Ok Name : Physical Disk 0:0:0 State : Online Failure Predicted : No Certified : Not Applicable Encryption Capable : No Secured : Not Applicable Progress : Not Applicable Bus Protocol : SAS Media : HDD Capacity : 931.00 GB (999653638144 bytes) Used RAID Disk Space : 931.00 GB (999653638144 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST31000424SS Revision : KS68 Serial No. : 9WK1QBT7 Part Number : TH0U738K212330AU003DA02 Negotiated Speed : 3.00 Gbps Capable Speed : 3.00 Gbps Manufacture Day : 02 Manufacture Week : 46 Manufacture Year : 2010 SAS Address : 5000C50025A5FC0D ID : 0:0:1 Status : Ok … 問題は発生していない Name : Physical Disk 0:0:1 State : Online … 通常状態 Failure Predicted : No Certified : Not Applicable Encryption Capable : No Secured : Not Applicable Progress : Not Applicable … 通常状態 Bus Protocol : SAS Media : HDD Capacity : 931.00 GB (999653638144 bytes) Used RAID Disk Space : 931.00 GB (999653638144 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST31000424SS Revision : KS68 Serial No. : 9WK2EPRG Part Number : TH0U738K212330B9001GA02 Negotiated Speed : 3.00 Gbps Capable Speed : 3.00 Gbps Manufacture Day : 05 Manufacture Week : 46 Manufacture Year : 2010 SAS Address : 5000C50025B0A515 ■上のコマンドの実行結果(問題発生時に実行したもの) ※突然リビルド中になったためWADAXに問い合わせたが、WADAX側でも詳細不明とのこと 何らかの理由で一時的にRAIDでエラーが発生し、即時RAID再構築が行われている状況だったらしい メーカーへ確認しても詳細な回答が得られなかったらしい 対応としては経過観察。ハード機器に不備があれば技術担当者へアラームが通知され、改めて対応してくれるとのこと ※リビルドは通常、HDDを交換した場合などに発生するもの DELL の OMSA で ディスク が Status Non-Critical と報告される - bayanの<del>電波</del>日記 http://d.hatena.ne.jp/bayan/20170427/p2 $ omreport storage vdisk … 仮想ディスクのステータス確認 List of Virtual Disks in the System Controller SAS 6/iR Integrated (Embedded) ID : 0 Status : Non-Critical … 致命的ではないが警告が発生している Name : Virtual Disk 0 State : Degraded … 劣化している HotSpare Policy violated : Not Assigned Virtual Disk Bad Blocks : Not Applicable Secured : Not Applicable Progress : Not Applicable Layout : RAID-1 Size : 931.00 GB (999653638144 bytes) Device Name : /dev/sda Bus Protocol : SAS Media : HDD Read Policy : Not Applicable Write Policy : Not Applicable Cache Policy : Not Applicable Stripe Element Size : Not Applicable Disk Cache Policy : Disabled $ omreport storage pdisk controller=0 … 物理ディスクのステータス確認 List of Physical Disks on Controller SAS 6/iR Integrated (Embedded) Controller SAS 6/iR Integrated (Embedded) ID : 0:0:0 Status : Ok Name : Physical Disk 0:0:0 State : Online Failure Predicted : No Certified : Not Applicable Encryption Capable : No Secured : Not Applicable Progress : Not Applicable Bus Protocol : SAS Media : HDD Capacity : 931.00 GB (999653638144 bytes) Used RAID Disk Space : 931.00 GB (999653638144 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST31000424SS Revision : KS68 Serial No. : 9WK1QBT7 Part Number : TH0U738K212330AU003DA02 Negotiated Speed : 3.00 Gbps Capable Speed : 3.00 Gbps Manufacture Day : 02 Manufacture Week : 46 Manufacture Year : 2010 SAS Address : 5000C50025A5FC0D ID : 0:0:1 Status : Ok … 問題は発生していない Name : Physical Disk 0:0:1 State : Rebuilding … リビルド中になっている Failure Predicted : No Certified : Not Applicable Encryption Capable : No Secured : Not Applicable Progress : 9% complete … リビルドは9%完了している Bus Protocol : SAS Media : HDD Capacity : 931.00 GB (999653638144 bytes) Used RAID Disk Space : 931.00 GB (999653638144 bytes) Available RAID Disk Space : 0.00 GB (0 bytes) Hot Spare : No Vendor ID : DELL(tm) Product ID : ST31000424SS Revision : KS68 Serial No. : 9WK2EPRG Part Number : TH0U738K212330B9001GA02 Negotiated Speed : 3.00 Gbps Capable Speed : 3.00 Gbps Manufacture Day : 05 Manufacture Week : 46 Manufacture Year : 2010 SAS Address : 5000C50025B0A515
■ZabbixでのRAID監視
Zabbixでも監視できるらしい ZabbixでSoftwareRAIDを監視する http://qiita.com/skouno/items/11349771a9c1ac2a1874 Zabbixエージェントで LinuxのソフトウェアRAIDを監視する https://www.walbrix.com/jp/blog/2013-11-zabbix-linux-raid.html ただしさくらでは # cat /proc/mdstat Personalities : unused devices: <none> となって状態を取得できなかった 環境によるものと思われるが、さくらの場合はMegaCliを定期的に実行して異常があれば通知する …のような仕組みを作っておけば良さそう