SUN 3510硬碟故障處理過程

2023-01-26 07:57:02 字數 4302 閱讀 7189

更換硬碟處理過程

sun 3510硬碟故障,更換硬碟處理過程

sun 3510jbod在sun cluster環境更換硬碟

有一套3510 jbod + v890 x2組成的sun cluster環境,當3510 jbod中有磁碟損壞時,不容易定位故障硬碟的槽位。

3510 jbod設計時並未作為單獨的jbod使用,一般用作3510 raid的擴充套件櫃,掛接在raid控制器裡面控制,當出現磁碟故障時,可通過0-11,16-31這樣的id號直接定位到每個硬碟的插槽號,處理起來比較方便。另外許多磁碟在托盤把手上貼有該盤的序列號,通過iostat –en命令也可以找到該盤的位置,但是3510陣列所有硬碟的序列號都剛好貼在盤體上,把手蓋住了序列號。

如果 jbod來使用,在作業系統內識別到的順序基本不會跟插槽號一致,導致判斷起來有一定困難。因為硬碟損壞的時候有各種情況發生,不一定會亮黃燈,即使亮黃燈也不一定就表明該硬碟就是要更換的硬碟或者是已故障的硬碟,所以操作起來一定要十分小心。

在操作之前務必要求整合商或使用者備份所有重要資料。

本次出現故障硬碟的3510 jbod配置為146g*12滿配,其中10塊盤組成raid0+1,1塊熱備,1塊投票。當前為0,2,3,4,5,7,8,10,11綠燈在閃,表明在讀寫,一共九塊盤。當熱備頂替了故障硬碟時應該是10塊盤在閃。

另外,1號,9號盤常綠不閃,6號黃燈,如果要更換必須明確這三塊盤的關係:故障硬碟,投票盤,熱備盤(已頂替應該在讀寫閃爍)

正常的硬碟順序

the chart below for an array with a boxid set to 0.

targets

0 3 6 9

1 4 7 10

2 5 8 11

if the boxid is modified, just subtract (16*boxid) from the target to get the position in the chart:

boxid = 1 target from 16 to 27

boxid = 2 target from 32 to 43

boxid = 3 target from 48 to 59

boxid = 4 target from 64 to 75

當前系統內svm raid組配置情況

root@jt-sj3-app1 # metastat -s se3510 -t

se3510/d209: soft partition

device: se3510/d100

state: okay

size: 104857600 blocks (50 gb)

extentstart blockblock count

0943718720104857600

se3510/d100: mirror

submirror 0: se3510/d101

state: okay tue sep 29 05:31:31 2009

submirror 1: se3510/d102

state: okay thu sep 15 06:58:50 2011

pass: 1

read option: roundrobin (default)

write option: parallel (default)

size: 1433391360 blocks (683 gb)

se3510/d101: submirror of se3510/d100

state: okay tue sep 29 05:31:31 2009

hot spare pool: se3510/hsp001

size: 1433391360 blocks (683 gb)

stripe 0: (interlace: 32 blocks)

device start dbase state reloc hot spare time

d24s0 0 no okay notue sep 29 05:31:31 2009

d8s0 0 no okay nofri may 23 15:09:55 2008

d23s0 0 no okay nosat mar 7 05:39:38 2009

d10s0 0 no okay nofri may 23 15:09:55 2008

d11s0 0 no okay nofri may 23 15:09:55 2008

se3510/d102: submirror of se3510/d100

state: okay thu sep 15 06:58:50 2011

hot spare pool: se3510/hsp001

size: 1433391360 blocks (683 gb)

stripe 0: (interlace: 32 blocks)

device start dbase state reloc hot spare time

d12s0 0 no okay nofri may 23 15:09:59 2008

d13s0 0 no okay no d17s0 thu sep 15 06:58:50 2011

d14s0 0 no okay nofri may 23 15:09:59 2008

d7s0 0 no okay nowed dec 29 23:02:40 2010

d16s0 0 no okay nofri may 23 15:09:59 2008

root@jt-sj3-app2 # scstat -q

-- quorum summary --

quorum votes possible: 3

quorum votes needed: 2

quorum votes present: 3

-- quorum votes by node --

node namepresent possible status

node votes: jt-sj3-app1 1 1 online

node votes: jt-sj3-app2 1 1 online

-- quorum votes by device --

device name present possible status

device votes: /dev/did/rdsk/d6s2 1 1 online

當使用dd命令將d6s2資料讀出時,1號插槽的盤在閃,當使用ctrl+c中斷時,1號盤立即停止閃爍,這表明1號盤對應的應該就是投票盤d6s2

當繼續使用dd命令將其餘所有did裝置都讀出時,6號盤繼續黃燈無法閃爍,9號盤始終未見閃爍,其餘九塊硬碟均持續閃爍,這表明6號盤或者9號盤其一應該是壞盤。但是並不能根據經驗就斷定6號就一定是壞的那塊,因為9號盤雖然是綠燈,但是始終不閃爍,這只能間接表明9號盤也許有問題。

2 定位故障故障硬碟位置

使用dd或者format命令讓所有可正常工作的硬碟閃爍的辦法並不一定每次都能奏效,例如硬碟僅僅因為壞道增多而在svm中標記為故障,磁碟櫃的燈壞了而顯示黃色。

當使用上面的方法確定6號和9號盤其一可能是故障盤時,可以用下面的方法輔助判斷。

雖說3510 jbod不支援絕大多數sccli命令,但是可以支援一些基本指令例如show loop,可以為判斷提供一定的依據

在sccli中執行

sccli> show loop

15 devices found in loop map

=== loop map ===

al_pa sel_id sel_id

(hex) (hex) (dec)

02 7c 124

e8 01 1

e1 04 4

e4 02 2

e2 03 3

e0 05 5

ef 00 0

d9 08 8

Sun面試經歷

前奏 接到sun的筆試通知時,我手裡拿著成績單正準備第二天去和計算所簽約,在那個時候,我已經成功地說服了自己和周圍的朋友 計算所就是我最好的選擇。顯然這個 打亂了我全部的計畫,畢竟sun是我一開始就最嚮往的地方。經過一下午激烈的思想鬥爭,我抱起一堆計算機網路和作業系統的書,把自己鎖在實驗室的小會議室...

SUN試題集錦1 有答案

無論你是個新手,還是程式設計方面的專家,你都會驚異於sun公司j a的無窮魅力。j a帶給你的並不僅僅是物件導向 開放 平台無關 易用 安全和 write once,run anywhere 等軟體開發方面的優勢,更重要的一點是,它提供了一種新穎的表達思想的方式,一種全新的思維模式。隨著待解決問題的...

怎樣拿下SUN公司的SCJP認證

發表日期 2004 07 30 作者 轉貼 出處 scjp本來易拿下,可我第一次卻恰恰為59 鬱悶啊!1250rmb的銀子啊!你們可不要蹈偶的覆轍啊!想過scjp的哥們,可以進去看看我的體會。sun的scjp資格證書,想說拿你卻並不難!為什麼我的命咋這麼苦啊!sun j a程式設計師認證證書。現在終...