發(fā)布時間: 2019年12月17日
intel S4510 1.92T&3.84T SSD FW存在一個嚴重BUG,會導(dǎo)致服務(wù)器掉盤或OS報錯。
FW為XCV10100的intel S4510&S4610 1.92T&3.84T SSD,PN如下
V023105000000000 S4510 1.92T
V023102000000000 S4510 3.84T
V023123000000000 S4610 1.92T
處理方案
1、在線還可以識別的硬盤,升級fw解決,需要升級硬盤FW至XCV10110,升級方法與raid卡搭配有關(guān)。
XCV10110_XBUB0008_signed.bin文件MD5值如下,升級前請使用以下命令確認MD5值相同:
#md5sum XCV10110_XBUB0008_signed.bin
258CEEC92F6284907770BBD4E5F0BBF4
注:根據(jù)配置的raid卡型號選擇升級方案,需要在線升級的聯(lián)系后臺技術(shù)支持咨詢升級方案;
RAID卡 | YZCA-00389-102 | RAID卡_INSPUR_ PM8060_2GB_SAS12G_PCIE3.0 |
YZCA-00582-103 | RAID卡_INSPUR_SAS3108_4GB_SAS12G_PCIE3 | |
V020001000000000 | RAID卡_L_8R0_9271-8i_1G_MSAS600_PCIE3_V2 | |
V06B411000000013 | RAID卡_L_8R0_9361-8i_1GB_HDM12G_PCIE3.0 | |
V06B611000000013 | RAID卡_L_8R0_9361-8i_2GB_HDM12G_PCIE3.0 | |
YZCA-00424-102 | SAS卡_INSPUR_SAS3008+IR+PCIE3.0 |
2、對于已經(jīng)故障無法升級fw的硬盤,換用已經(jīng)升級fw后的新編碼硬盤,具體編碼如下:
V023102000000000 | 硬盤_I_3.84KTD_SSDSC2KB038T8_T2_6_100_451 | V023170000000000 | 硬盤_I_3.84KTD_SSDSC2KB038T8_T2_6_110_451 | 3.84T |
V023105000000000 | 硬盤_I_1.92KTD_SSDSC2KB019T8_T2_6_100_451 | V02316M000000000 | 硬盤_I_1.92KTD_SSDSC2KB019T8_T2_6_110_451 | 1.92T |
V023123000000000 | 硬盤_I_1.92KTD_SSDSC2KG019T8_T2_6_100_461 | V023177000000000 | 硬盤_I_1.92KTD_SSDSC2KG019T8_T2_6_110_461 |
補充說明(重要?。号f版FW的盤可能已經(jīng)有異常,但是沒有掉線,有隱患?。?!需要結(jié)合日志判斷所有老FW版本硬盤的當前狀態(tài),確認方法如下,只要有報錯也需更換。
通過如下四點信息確認硬盤狀態(tài):
a) smart信息該項為0正常: 184/B8 end-toend error detection count
b) smart信息該項為0正常:187/BB uncorrect error count
c) raid卡日志下看到硬盤predictive failure count為0正常;
d) raid卡日志下看到硬盤無media error則盤正常;
smart信息查看方法(推薦使用linuxPE,已經(jīng)有storcli工具,在/opt/Megasas目錄)
1、 使用storcli64查看SSD在raid卡下的DID號,
./storcli64 /c0/eall/sall show
2、根據(jù)磁盤DID號,透過raid陣列去查看硬盤smart信息(確認上述兩項ab兩項smart信息) smartctl -a --device=sat+megaraid,12 /dev/sdb
(其中sdb為硬盤所屬raid在OS下的盤符)
RAID卡日志在線查看方法
1、執(zhí)行./storcli /c0/eall/sall show all |grep “Predictive Failure Count” -----查看PDlist中硬盤是否有預(yù)期錯誤,下方為日志內(nèi)容(非命令直接打印內(nèi)容)
2、執(zhí)行./storcli /c0 show alilog |grep “medium error“ ------查看日志歷史記錄是否有其它盤報錯(注意區(qū)分已經(jīng)掉線的盤)
故障根因
Intel S4510/S4610(2.5寸)的低版本FW(XCV10100)存在“Idle狀態(tài)超過1700H掉盤”問題(此問題存在1.92T&3.84T產(chǎn)品)。當Intel S4510/S4610處于Idle狀態(tài)(非IO讀寫)下,SSD內(nèi)部后臺會進行Nand Intel SSD D3 block溫度掃描,當Idle狀態(tài)達到1700H后,時間寄存器會達到上限,導(dǎo)致Block指針和CE芯片的偏移,從而發(fā)生Channel Hang,Channel Hang觸發(fā)后會發(fā)生掉盤或media error現(xiàn)象。