儲存空間線上擴充,這類的案件,
這幾年下來直接與間接執行的間數手指+腳趾也不夠數,
就在今年Q1,兩間執行線上擴充,Storage 完成 LUN Resize,
但
ESXi 對應的 Datastore 卻呈現非作用中
inactive。
存放在此空間 運行的 VM 當然也受到影響,而無法正常運作。
問題發生期間,嘗試手動掛載 與 執行 Datastore Rescan All ,仍無法恢復空間掛載狀態,
最後只好將 ESXi 主機 Reboot,Reboot 後 空間才恢復掛載,
在重開機之前,蒐集了 Storage Log 與 ESXi Log,以利後續 Open
Support Case 釐清原因。
以下是
Case 處理過程的分享。
一開始我們有嘗試自己解讀
Log,(可以在 vmkwarning.log 看到相關訊息)
-Log Start-
2017-03-23T01:09:22.699Z
cpu24:33648)WARNING: ScsiDeviceIO: 1223: Device
naa.60030d90828e*****68805cccc091e10 performance has deteriorated. I/O latency
increased from average value of 1163 microseconds to 27630 microseconds.
2017-03-23T02:06:55.487Z
cpu2:33648)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device
"naa.60030d90828e*****68805cccc091e10" state in doubt; requested fast path state update...
2017-03-23T02:06:55.491Z
cpu2:33648)WARNING: NMP: nmp_DeviceRetryCommand:133: Device
"naa.60030d90828e*****68805cccc091e10": awaiting fast path state
update for failover with I/O blocked. No prior reservation exists on the
device.
2017-03-23T02:06:55.873Z
cpu27:33038)WARNING: NMP: vmk_NmpSatpIssueTUR:1020: Device
naa.60030d90828e*****68805cccc091e10 path vmhba4:C0:T0:L0 has been unmapped
from the array
2017-03-23T02:06:55.873Z
cpu27:33038)WARNING: NMP: vmk_NmpSatpIssueTUR:1020: Device
naa.60030d90828e*****68805cccc091e10 path vmhba3:C0:T0:L0 has been unmapped
from the array
2017-03-23T02:06:55.873Z
cpu27:33038)WARNING: ScsiDevice: 1480: Device :naa.60030d90828e*****68805cccc091e10 has been
removed or is permanently inaccessible.
2017-03-23T02:06:55.873Z
cpu2:33536)WARNING: NMP: nmpDeviceAttemptFailover:603: Retry world failover
device "naa.60030d90828e*****68805cccc091e10" - issuing command
0x413680b03900
2017-03-23T02:06:55.873Z
cpu2:33536)WARNING: NMP: nmpDeviceAttemptFailover:678: Retry world failover
device "naa.60030d90828e*****68805cccc091e10" - failed to issue
command due to Not found (APD),
try again...
2017-03-23T02:06:55.873Z
cpu2:33536)WARNING: NMP: nmpDeviceAttemptFailover:728: Logical device
"naa.60030d90828e*****68805cccc091e10": awaiting fast path state
update...
2017-03-23T02:06:55.873Z
cpu18:33022)WARNING: NMP: nmp_DeviceStartLoop:723: NMP Device
"naa.60030d90828e*****68805cccc091e10" is blocked. Not starting I/O
from device.
2017-03-23T02:06:56.872Z cpu24:32837)WARNING: HBX: 1776: HB failed
due to PDL on [HB
state abcdef02 offset 3575808 gen 91 stampUS 5163764973275 uuid
58846362-db048378-c71b-ecf4bbd470a8 jrnl <FB 2020800> drv 14.60] on vol 'Datastore1'
2017-03-23T02:06:56.874Z
cpu28:13750523)WARNING: ScsiDevice: 1503: Device
naa.60030d90828e*****68805cccc091e10 has been plugged back in after being
marked permanently inaccessible. No data consistency guarantees.
2017-03-23T02:06:56.874Z
cpu2:33536)WARNING: NMP: nmpDeviceAttemptFailover:566: Retry world restore
device "naa.60030d90828e*****68805cccc091e10" - no more commands to
retry
2017-03-23T02:08:41.452Z
cpu5:39886 opID=e2f4a5cf)WARNING: ScsiScan: 1408: Failed to add path
vmhba0:C0:T0:L0 : Not found
2017-03-23T02:08:41.673Z
cpu29:34175 opID=519da13d)WARNING: Vol3: 2005: Failed to refresh FS
550fe0f5-b0e87c38-5112-ecf4bbd470a8 descriptor: Device is permanently
unavailable
將 vmkwarning.log 的時間 對應到 vmkernel Log 可以看到 SCSI
sense codes,
但說實在的,已經超出現階段的能力,就算有
Code 翻譯機,還是無法明白的解釋。
最後還是得靠官方的技術協助,所以
軟體若有簽維護的價值 就在這邊。
後來官方分析 Log 的原因,有兩個:
1.ESXi HBA 驅動版本太舊,不再相容範圍。
2.ESXi 與 Storage 之間存取的 Path Selection Policy
設定 與 相容清單不符。
( ㄎㄎ
這兩個理由算是可以平安下莊。也確認我們在操作程序上是正確的。)
另外,好奇問了官方技術,他們是如何查看 Log 的,這部分算是 Case 的主要收穫。
官方查看的程序:
1.當錯誤出現 APD 狀況 (All Path
Down),會先排除物理問題,如線路重新拔插。若當下沒有發生此狀況,則進入下一步驟。
2.查看 ESXi HBA 驅動版本 與 路徑存取配置 (PSP) 是否在相容清單中,若這部分不符合,則建議更新驅動與調整後再測試。結案。
3.若 相容清單 與 PSP設定 都在符合,才會再進一步分析。
因為我們 Case 在第 2 點符合,故 Case 處理就到此階段結束,不會再往下查看。
另外,也好奇的請教 官方技術人員,
到底
LUN 的 Resize 是否會造成 ESXi 空間呈現
Inactive 或其他異常狀態。
是否可以線上進行。
若 ESXi
與 Storge 設備驅動與設定 都是符合且正確的狀況下,
並且 Storge LUN 支援 Resize 的狀況下。
從 LUN Resize 到 VMS Extend 的過程,是可以線上進行的。(這算是幫自己打了強心針)
最後,分享這個案例的幾個實用的資訊
1.從 蒐集的Log 中確認 VMware version、主機硬體資訊、PSP 設定
\commands\vmware_-vl.txt
\commands\esxcfg-info_-a.txt.FRAG-00000
\commands\esxcfg-info_-a.txt.FRAG-00001
2.查看 ESXi HBA 驅動版本
Determining Network/Storage firmware and driver version in ESXi 4.x
and later (1027206)
3.從 Log 查看 ESXi HBA 型號與驅動版本
\commands\vmkmgmt_keyval_-a.txt
-Sample-
Listing all system
keys:
Key Value
Instance: QLNATIVEFC/qlogic
Listing keys:
Name: 0
Type: string
value:
QLogic PCI to Fibre
Channel Host Adapter for QLE2560:
FC Firmware version 7.03.00 (90d5),
Driver version 1.1.29.0
Host Device Name
vmhba4
-Sample End-
4.VMware Compatibility Guide
-End-
沒有留言:
張貼留言