2017年3月31日 星期五

[案例分享] Storage LUN Resize. ESXi 觸發 APD 與 PDL

儲存空間線上擴充,這類的案件,
這幾年下來直接與間接執行的間數手指+腳趾也不夠數,
就在今年Q1,兩間執行線上擴充,Storage 完成 LUN Resize,
但 ESXi 對應的 Datastore 卻呈現非作用中 inactive。
存放在此空間 運行的 VM 當然也受到影響,而無法正常運作。

問題發生期間,嘗試手動掛載 執行 Datastore Rescan All ,仍無法恢復空間掛載狀態,
最後只好將 ESXi 主機 Reboot,Reboot 後 空間才恢復掛載,
在重開機之前,蒐集了 Storage Log 與 ESXi Log,以利後續 Open Support Case 釐清原因。





以下是 Case 處理過程的分享。

一開始我們有嘗試自己解讀 Log,(可以在 vmkwarning.log 看到相關訊息)

-Log Start-
2017-03-23T01:09:22.699Z cpu24:33648)WARNING: ScsiDeviceIO: 1223: Device naa.60030d90828e*****68805cccc091e10 performance has deteriorated. I/O latency increased from average value of 1163 microseconds to 27630 microseconds.
2017-03-23T02:06:55.487Z cpu2:33648)WARNING: NMP: nmp_DeviceRequestFastDeviceProbe:237: NMP device "naa.60030d90828e*****68805cccc091e10" state in doubt; requested fast path state update...
2017-03-23T02:06:55.491Z cpu2:33648)WARNING: NMP: nmp_DeviceRetryCommand:133: Device "naa.60030d90828e*****68805cccc091e10": awaiting fast path state update for failover with I/O blocked. No prior reservation exists on the device.
2017-03-23T02:06:55.873Z cpu27:33038)WARNING: NMP: vmk_NmpSatpIssueTUR:1020: Device naa.60030d90828e*****68805cccc091e10 path vmhba4:C0:T0:L0 has been unmapped from the array
2017-03-23T02:06:55.873Z cpu27:33038)WARNING: NMP: vmk_NmpSatpIssueTUR:1020: Device naa.60030d90828e*****68805cccc091e10 path vmhba3:C0:T0:L0 has been unmapped from the array
2017-03-23T02:06:55.873Z cpu27:33038)WARNING: ScsiDevice: 1480: Device :naa.60030d90828e*****68805cccc091e10 has been removed or is permanently inaccessible.
2017-03-23T02:06:55.873Z cpu2:33536)WARNING: NMP: nmpDeviceAttemptFailover:603: Retry world failover device "naa.60030d90828e*****68805cccc091e10" - issuing command 0x413680b03900
2017-03-23T02:06:55.873Z cpu2:33536)WARNING: NMP: nmpDeviceAttemptFailover:678: Retry world failover device "naa.60030d90828e*****68805cccc091e10" - failed to issue command due to Not found (APD), try again...
2017-03-23T02:06:55.873Z cpu2:33536)WARNING: NMP: nmpDeviceAttemptFailover:728: Logical device "naa.60030d90828e*****68805cccc091e10": awaiting fast path state update...
2017-03-23T02:06:55.873Z cpu18:33022)WARNING: NMP: nmp_DeviceStartLoop:723: NMP Device "naa.60030d90828e*****68805cccc091e10" is blocked. Not starting I/O from device.
2017-03-23T02:06:56.872Z cpu24:32837)WARNING: HBX: 1776: HB failed due to PDL on [HB state abcdef02 offset 3575808 gen 91 stampUS 5163764973275 uuid 58846362-db048378-c71b-ecf4bbd470a8 jrnl <FB 2020800> drv 14.60] on vol 'Datastore1'
2017-03-23T02:06:56.874Z cpu28:13750523)WARNING: ScsiDevice: 1503: Device naa.60030d90828e*****68805cccc091e10 has been plugged back in after being marked permanently inaccessible. No data consistency guarantees.
2017-03-23T02:06:56.874Z cpu2:33536)WARNING: NMP: nmpDeviceAttemptFailover:566: Retry world restore device "naa.60030d90828e*****68805cccc091e10" - no more commands to retry
2017-03-23T02:08:41.452Z cpu5:39886 opID=e2f4a5cf)WARNING: ScsiScan: 1408: Failed to add path vmhba0:C0:T0:L0 : Not found
2017-03-23T02:08:41.673Z cpu29:34175 opID=519da13d)WARNING: Vol3: 2005: Failed to refresh FS 550fe0f5-b0e87c38-5112-ecf4bbd470a8 descriptor: Device is permanently unavailable

vmkwarning.log 的時間 對應到 vmkernel Log 可以看到 SCSI sense codes,
但說實在的,已經超出現階段的能力,就算有 Code 翻譯機,還是無法明白的解釋。

最後還是得靠官方的技術協助,所以 軟體若有簽維護的價值 就在這邊。

後來官方分析 Log 的原因,有兩個: 
1.ESXi HBA 驅動版本太舊,不再相容範圍。
2.ESXi 與 Storage 之間存取的 Path Selection Policy 設定 與 相容清單不符。

( ㄎㄎ 這兩個理由算是可以平安下莊。也確認我們在操作程序上是正確的。)

另外,好奇問了官方技術,他們是如何查看 Log 的,這部分算是 Case 的主要收穫。

官方查看的程序:
1.當錯誤出現 APD 狀況 (All Path Down),會先排除物理問題,如線路重新拔插。若當下沒有發生此狀況,則進入下一步驟。
2.查看 ESXi HBA 驅動版本 路徑存取配置 (PSP) 是否在相容清單中,若這部分不符合,則建議更新驅動與調整後再測試。結案。
3.若 相容清單 PSP設定 都在符合,才會再進一步分析。

因為我們 Case 在第 2 點符合,故 Case 處理就到此階段結束,不會再往下查看。

另外,也好奇的請教 官方技術人員,
到底 LUN 的 Resize 是否會造成 ESXi 空間呈現 Inactive 或其他異常狀態。
是否可以線上進行。

若 ESXi 與 Storge 設備驅動與設定 都是符合且正確的狀況下,
並且 Storge LUN 支援 Resize 的狀況下。
從 LUN Resize 到 VMS Extend 的過程,是可以線上進行的。(這算是幫自己打了強心針)

最後,分享這個案例的幾個實用的資訊
1. 蒐集的Log 中確認 VMware version、主機硬體資訊、PSP 設定
\commands\vmware_-vl.txt
\commands\esxcfg-info_-a.txt.FRAG-00000
\commands\esxcfg-info_-a.txt.FRAG-00001

2.查看 ESXi HBA 驅動版本
Determining Network/Storage firmware and driver version in ESXi 4.x and later (1027206)

3. Log 查看 ESXi HBA 型號與驅動版本
\commands\vmkmgmt_keyval_-a.txt
-Sample-
Listing all system keys:
Key Value Instance:  QLNATIVEFC/qlogic
Listing keys:
Name:        0
Type:        string
value:        
QLogic PCI to Fibre Channel Host Adapter for QLE2560:
        FC Firmware version 7.03.00 (90d5), Driver version 1.1.29.0

Host Device Name vmhba4
-Sample End-

4.VMware Compatibility Guide


-End-

沒有留言:

張貼留言

[微軟ADDS] Win XP 無法加入 Windows Server 2019 AD 網域問題

[Lab 筆記] Lab: Win XP Join Windows Server 2019 AD Domain Fail.  [Lab 環境] DC OS: Windows Server 2019 Forest / Domain Function Level: windows s...