更換硬碟處理過程
sun 3510硬碟故障,更換硬碟處理過程
sun 3510jbod在sun cluster環境更換硬碟
有一套3510 jbod + v890 x2組成的sun cluster環境,當3510 jbod中有磁碟損壞時,不容易定位故障硬碟的槽位。
3510 jbod設計時並未作為單獨的jbod使用,一般用作3510 raid的擴充套件櫃,掛接在raid控制器裡面控制,當出現磁碟故障時,可通過0-11,16-31這樣的id號直接定位到每個硬碟的插槽號,處理起來比較方便。另外許多磁碟在托盤把手上貼有該盤的序列號,通過iostat –en命令也可以找到該盤的位置,但是3510陣列所有硬碟的序列號都剛好貼在盤體上,把手蓋住了序列號。
如果 jbod來使用,在作業系統內識別到的順序基本不會跟插槽號一致,導致判斷起來有一定困難。因為硬碟損壞的時候有各種情況發生,不一定會亮黃燈,即使亮黃燈也不一定就表明該硬碟就是要更換的硬碟或者是已故障的硬碟,所以操作起來一定要十分小心。
在操作之前務必要求整合商或使用者備份所有重要資料。
本次出現故障硬碟的3510 jbod配置為146g*12滿配,其中10塊盤組成raid0+1,1塊熱備,1塊投票。當前為0,2,3,4,5,7,8,10,11綠燈在閃,表明在讀寫,一共九塊盤。當熱備頂替了故障硬碟時應該是10塊盤在閃。
另外,1號,9號盤常綠不閃,6號黃燈,如果要更換必須明確這三塊盤的關係:故障硬碟,投票盤,熱備盤(已頂替應該在讀寫閃爍)
正常的硬碟順序
the chart below for an array with a boxid set to 0.
targets
0 3 6 9
1 4 7 10
2 5 8 11
if the boxid is modified, just subtract (16*boxid) from the target to get the position in the chart:
boxid = 1 target from 16 to 27
boxid = 2 target from 32 to 43
boxid = 3 target from 48 to 59
boxid = 4 target from 64 to 75
當前系統內svm raid組配置情況
root@jt-sj3-app1 # metastat -s se3510 -t
se3510/d209: soft partition
device: se3510/d100
state: okay
size: 104857600 blocks (50 gb)
extentstart blockblock count
0943718720104857600
se3510/d100: mirror
submirror 0: se3510/d101
state: okay tue sep 29 05:31:31 2009
submirror 1: se3510/d102
state: okay thu sep 15 06:58:50 2011
pass: 1
read option: roundrobin (default)
write option: parallel (default)
size: 1433391360 blocks (683 gb)
se3510/d101: submirror of se3510/d100
state: okay tue sep 29 05:31:31 2009
hot spare pool: se3510/hsp001
size: 1433391360 blocks (683 gb)
stripe 0: (interlace: 32 blocks)
device start dbase state reloc hot spare time
d24s0 0 no okay notue sep 29 05:31:31 2009
d8s0 0 no okay nofri may 23 15:09:55 2008
d23s0 0 no okay nosat mar 7 05:39:38 2009
d10s0 0 no okay nofri may 23 15:09:55 2008
d11s0 0 no okay nofri may 23 15:09:55 2008
se3510/d102: submirror of se3510/d100
state: okay thu sep 15 06:58:50 2011
hot spare pool: se3510/hsp001
size: 1433391360 blocks (683 gb)
stripe 0: (interlace: 32 blocks)
device start dbase state reloc hot spare time
d12s0 0 no okay nofri may 23 15:09:59 2008
d13s0 0 no okay no d17s0 thu sep 15 06:58:50 2011
d14s0 0 no okay nofri may 23 15:09:59 2008
d7s0 0 no okay nowed dec 29 23:02:40 2010
d16s0 0 no okay nofri may 23 15:09:59 2008
root@jt-sj3-app2 # scstat -q
-- quorum summary --
quorum votes possible: 3
quorum votes needed: 2
quorum votes present: 3
-- quorum votes by node --
node namepresent possible status
node votes: jt-sj3-app1 1 1 online
node votes: jt-sj3-app2 1 1 online
-- quorum votes by device --
device name present possible status
device votes: /dev/did/rdsk/d6s2 1 1 online
當使用dd命令將d6s2資料讀出時,1號插槽的盤在閃,當使用ctrl+c中斷時,1號盤立即停止閃爍,這表明1號盤對應的應該就是投票盤d6s2
當繼續使用dd命令將其餘所有did裝置都讀出時,6號盤繼續黃燈無法閃爍,9號盤始終未見閃爍,其餘九塊硬碟均持續閃爍,這表明6號盤或者9號盤其一應該是壞盤。但是並不能根據經驗就斷定6號就一定是壞的那塊,因為9號盤雖然是綠燈,但是始終不閃爍,這只能間接表明9號盤也許有問題。
2 定位故障故障硬碟位置
使用dd或者format命令讓所有可正常工作的硬碟閃爍的辦法並不一定每次都能奏效,例如硬碟僅僅因為壞道增多而在svm中標記為故障,磁碟櫃的燈壞了而顯示黃色。
當使用上面的方法確定6號和9號盤其一可能是故障盤時,可以用下面的方法輔助判斷。
雖說3510 jbod不支援絕大多數sccli命令,但是可以支援一些基本指令例如show loop,可以為判斷提供一定的依據
在sccli中執行
sccli> show loop
15 devices found in loop map
=== loop map ===
al_pa sel_id sel_id
(hex) (hex) (dec)
02 7c 124
e8 01 1
e1 04 4
e4 02 2
e2 03 3
e0 05 5
ef 00 0
d9 08 8
Sun面試經歷
前奏 接到sun的筆試通知時,我手裡拿著成績單正準備第二天去和計算所簽約,在那個時候,我已經成功地說服了自己和周圍的朋友 計算所就是我最好的選擇。顯然這個 打亂了我全部的計畫,畢竟sun是我一開始就最嚮往的地方。經過一下午激烈的思想鬥爭,我抱起一堆計算機網路和作業系統的書,把自己鎖在實驗室的小會議室...
SUN試題集錦1 有答案
無論你是個新手,還是程式設計方面的專家,你都會驚異於sun公司j a的無窮魅力。j a帶給你的並不僅僅是物件導向 開放 平台無關 易用 安全和 write once,run anywhere 等軟體開發方面的優勢,更重要的一點是,它提供了一種新穎的表達思想的方式,一種全新的思維模式。隨著待解決問題的...
怎樣拿下SUN公司的SCJP認證
發表日期 2004 07 30 作者 轉貼 出處 scjp本來易拿下,可我第一次卻恰恰為59 鬱悶啊!1250rmb的銀子啊!你們可不要蹈偶的覆轍啊!想過scjp的哥們,可以進去看看我的體會。sun的scjp資格證書,想說拿你卻並不難!為什麼我的命咋這麼苦啊!sun j a程式設計師認證證書。現在終...