雲計算中心運維管理制度

2021-03-04 07:52:34 字數 4849 閱讀 3186

現代資訊中心已成為人們日常生活中不可缺少的部分,因此資訊中心機房裝置的執行正常與否就非常關鍵。在資料中心生命週期中,資料中心運維管理是資料中心生命週期中最後乙個、也是歷時最長的乙個階段。加強對雲計算運維管理的要點以及相應改進方面措施的研究與**,以此不斷提高it運維質量,實現高效的運維管理。

這就給運維是否到位提出了嚴格要求。

1 運維在機房中的地位

在資料中心生命週期中,資料中心運維管理是資料中心生命週期中最後乙個、也是歷時最長的乙個階段。資料中心運維管理是,為提供符合要求的資訊系統服務,而對與該資訊系統服務有關的資料中心各項管理物件進行系統地計畫、組織、協調與控制,是資訊系統服務有關各項管理工作的總稱。資料中心運維管理主要肩負合規性、可用性、經濟性、服務性等四大目標。

在資訊中心機房配備有運維人員,但大都是「全才」的,即什麼都管,尤其是對供電系統大都是由主機運維的人員代管。當電源系統出故障時,此代管人員一問三不知,甚至連配電櫃門都沒開過。這實際上就是把機房的運維放在了乙個次要的地位。

當然也有的地方有所分工,看似重視,實際上也沒得到真正地重視。比如說機房裝置長時間一直執行正常,這時如果運維人員提出要增添運維方面的測量裝置,有的領導就認為多餘,很難得到批准。但他不知道機房裝置所以長時間一直執行正常,正是由於這些運維人員的細心維護和努力保養所獲得的。

並不是這些人員每天閒著無事可幹,他們的這些工作一般是領導看不見的。比如同樣多款的ups在同樣的環境條件下,在某衛星地面站就極少出故障,而在同系統別的地方機房同一家同規格的機器就故障連連。原來是前者的運維人員每天都在細心觀察和分析機器面板lcd上顯示的資料,一旦發現異常苗頭及時採取措施;而後者只限於每天抄寫這些資料就算完成任務,使異常苗頭不斷積累,以致於導致故障。

比如斷路器在額定閉合狀態發現觸點處溫度高了,就要檢查是不是電流過大到超過額定值,如果不是就要檢查觸點接觸是否牢靠,是否需要再緊固一下。這樣一來,故障隱患就排除了。如果一直不管不問久而久之就會導致跳閘而使系統崩潰。

這都是一些小的動作,都是在巡查中順便做的事情。所以同是運維人員在巡查,但前者在做事而後者只是走馬觀花。這就是資料中心可靠與不可靠的區別。

運維人員就像幼兒園的保育員和老師。孩子交到幼兒園後,起主要作用的就是保育員和老師,這時保育員和老師就是主體。機器就好比是幼兒園的孩子,孩子是否健康成長,機器是否正常執行,除去本身的健康(可靠性質量)狀況外,那就是運維人員的責任了。

由於雲計算的要求彈性、靈活快速擴充套件、降低運維成本、自動化資源監控、多租戶環境等特性,除基於itil(it基礎設施庫)的常規資料中心運維管理理念之外,以下運維管理方面的內容,需要我們加以重點關注。

2 雲計算資料中心運維管理的要點

(1)理清雲計算資料中心的運維物件

資料中心的運維管理指的是與資料中心資訊服務相關的管理工作的總稱。雲計算資料中心運維物件一般可分成5大類:

①機房環境基礎設施

這裡主要指的是為保障資料中心所管理的裝置正常執行所必需的網路通訊、供配電系統、環境系統、消防系統和安保系統等。這部分裝置對於使用者來說幾乎是透明的,比如大多數使用者都不會忽略資料中心的供電和製冷。因為這類裝置如果發生意外,對依託於該基礎設施的應用來說是致命的。

②資料中心所應用的各種裝置

這些裝置包括儲存、伺服器、網路裝置和安全裝置等硬體資源。這類裝置在向使用者提供it服務過程中提供了計算、存傳輸和通訊等功能,是it服務最核心的部分。

③系統與資料

這部分包括作業系統、資料庫、中間環節和應用程式等軟體資源,還有業務資料、配置檔案、日誌等各類資料。這類管理物件雖然不像前兩類管理物件那樣「看得見,摸得著」,但卻是it服務的邏輯載體。

④管理工具

這部分包括基礎設施監控軟體、it監控軟體、工作流管理平台、報表平台和簡訊平台等。

這類管理物件是幫助管理主體更高效地管理資料中心內各種管理物件的工作情況,並在管理活動中承擔起部分管理功能的軟硬體設施。通過這些工具,可以直觀感受並考證資料中心如何管理好與其直接相關的資源,從而間接地提公升了可用性與可靠性。

⑤人員管理

人員管理包括資料中心在內的技術人員、運維人員、管理人員以及提供服務的廠商人員的管理。

人員一方面作為管理的主體負責管理資料中心的運維物件,另一方面也作為管理的物件,支援it的執行。這類物件與其他運維物件不同,具有很強的主觀能動性,其管理的好壞將直接影響到整個運維管理體系,而不僅僅是運維物件本身。

(2)定義各運維物件的運維內容

雲計算資料中心資源管理所涵蓋的範圍很廣,包括環境管理、網路管理、裝置管理、軟體管理、儲存介質管理、防病毒管理、應用管理、日常操作管理、使用者密碼管理和員工管理等。這就需要對每乙個管理物件的日常維護工作內容有乙個明確的定義,定義操作內容、維護頻度、對應的責任人,要做到有章可循,責任人可追蹤。實現對整個系統全生命週期地追蹤管理。

(3)建立資訊化的運維管理平台系統和it服務管理系統

雲計算資料中心的運維管理應從資料中心的日常監控入手,事件管理、變更管理、應急預案管理和日常維護管理等方面全方位地進行資料中心的日常監控。實現提前發現問題、消除隱患,首先要有完整的、全方位實時有效的監控系統,並著重監控資料的記錄和技術分析。

資料中心的業務可以概括為:通過執行系統來向客戶提供服務。沒有資訊系統的支撐來執行it系統就如超市裡仍然採用手工結賬一樣不能讓顧客滿意。

資訊化的資料中心運維管理平台系統包括如下方面:

①機房環境基礎設施監控管理系統;

②it系統監控管理系統;

③it服務管理系統。

(4)定製化管理

靈活性、個性化是雲服務的顯著特徵,使用者對應用系統有著千差萬別的個性化需求,雲服務提供商在保證共性需求的基礎上,還要滿足使用者個性化的定製需求,向使用者提供靈活和個性化配置的雲服務系統。雲服務提供商要提供按需變化的服務,就要有反應敏捷的人員、流程和工具,來適應業務變化的需要。雲服務下的運維需要更多的靈活性和可伸縮性,可以根據客戶與合作夥伴的需要,快速調整資源、服務和基礎設施。

(5)自動化管理

it服務根據負載變化的情況可以自動調整所需的資源,以求在及時響應和節約成本上取得平衡。同時,還考慮到計算能力和規模會越來越大,人工管理資源也會越來越複雜。這些新特性對it管理自動化能力提出了更高的要求。

企業往往希望在不失靈活性的前提下,可以得到更高程度的自動化。為此,雲計算資料中心需要部署自動化管理平台,集中管理虛擬化和雲計算平台,並提供自定義規則,以定製功能的自動化解決方案,使用者通過使用事件觸發、資料監控觸發等方式來自動化管理,不但節約了人力,同時也提高了響應速度。

(6)使用者關係管理

雲計算資料中心是為多租戶提供it服務的平台,為了保留和吸引使用者,在運維過程中對使用者關係管理非常重要。

①服務評審:與客戶針對服務情況進行定期或不定期的溝通。每次溝通均應形成溝通記錄,以備資料中心對服務進行評價和改進。

②使用者滿意度調查:使用者滿意度調查主要包括使用者滿意度調查的設計、執行和使用者滿意度調查結果的分析和改進等4個階段。資料中心可根據使用者的特點制定不同的使用者滿意度調查方案。

③使用者抱怨管理:使用者抱怨管理規定了資料中心接收使用者提出抱怨的途徑以及抱怨的相應方式,並留下與事件管理等流程聯絡的介面。應針對使用者抱怨完成分析報告,總結使用者抱怨的原因,制定相關的改進措施。

為及時應對使用者的抱怨,需要有使用者抱怨的公升級機制,對於嚴重的使用者抱怨,按公升級的使用者投訴流程進行相應處理。

(7)安全性管理

由於提供服務的系統和資料有可能被轉移到使用者可掌控的範圍之外,雲服務的資料安全、隱私保護就成為了使用者對雲服務最為擔憂的方面。雲服務引發的安全問題除了包括傳統網路與資訊保安問題(如系統防護、資料加密、使用者訪問控制、dos攻擊等)問題外,還包括由集中服務模式所引發的安全問題以及雲計算技術引入的安全問題。例如防虛機隔離、多租戶資料隔離、殘餘資料擦除以及多saas(softwareasaservice)應用統一身份認證等問題。

要解決雲服務引發的安全問題,雲服務提供商需要提公升使用者安全認知、強化服務運營管理和加強安全技術保障等。需要加強使用者對不同重要性資料遷移的認知,並在服務合同中強化使用者自身的服務帳號保密意識,這可以提公升使用者對安全的認知。在服務管理方面,要嚴格設定關鍵系統的分級分權管理許可權並輔之以相應規章制度,同時加強對合作**商的資格審查與保密教育。

加強安全技術保障,以充分利用網路安全、資料加密、身份認證等技術,消除使用者對雲服務使用的安全擔憂,增強使用者使用雲服務的信心。

(8)流程管理

流程是資料中心運維管理質量的保證。作為客戶服務的物理載體,資料中心存在的目的就是要保證服務可以按質、按量地提供符合使用者要求的服務。為確保最終提供給使用者的服務是符合服務合同的要求,資料中心需要把現在的管理工作抽象成不同的管理流程,並把流程之間的關係、流程的角色、流程的觸發點和流程的輸入與輸出等進行詳細定義。

通過這種流程的建立,一方面可以使資料中心的人員能夠對工作有乙個統一的認識,更重要的是通過這些服務工作的流程化,使得整個服務提供過程可被監控和管理,以形成真正意義上的「it」。服務資料中心建立的管理流程,除應滿足資料中心自身特點外,還應能兼顧使用者、管理者和服務商與審計機構的需求。由於每個資料中心的實際運維情況與管理目標存在差異,資料中心需要建立的流程也會有所不同。

(9)應急預案管理

應急預案是為確保發生故障事件後,盡快消除緊急事件的不良影響,恢復業務的持續運營而制定的應急處理措施。應急預案的注意事項:

①根據業務影響分析的結果及故障場景的特點編寫應急預案,以確保當緊急事件發生後可維持業務繼續運作,在重要業務流程中斷或發生故障後,在規定時間內,要及時恢復業務運作。

②應急預案除包括特定場景出現後,各部門和第三方的責任與職責外,還應評估復原可接受的總時間。

③應急預案必須經過演練,使相關責任人熟悉應急預案的內容。應急預案應是乙個閉環管理系統。從預案的建立、演練、評估到修訂應是乙個全過程的管理,絕不能為了應付某個演練工作,制定後就束之高閣了。

而是應該在實際演練和問題發生時不斷地總結和完善。

所以,就全域性而言,運維人員的地位不可忽視。只有運維管理好乙個資料中心,才能充分發揮資料中心的作用,使之能更好地為雲計算提供強大的支援能力。通過有效實施雲計算資料中心運維管理,減少人員工作量的同時,還要提高運維人員的工作素質和效率,保障業務人員的工作效率,提高業務系統執行狀況,進而提高企業整體的管理效益,同時也提高了使用者的滿意度,才能實現雲計算資料中心的價值最大化。

雲計算中心運維管理制度

保障資料中心機房的安全可靠執行,是每個機房管理者追求的目標。長期執行的裝置客觀上存在著執行風險,另外也可能由於人員的疏忽大意造成風險。為科學 有效地管理機房,促進網路系統安全的應用 高效執行,機房管理人員應認請潛在風險,並制定相應的規章制度,並嚴格要求執行。一 機房管理 1 路由器 交換機和伺服器以...

雲計算中心客戶滿意度管理制度

雲計算中心 客戶滿意度管理制度 通過對客戶滿意程度的持續跟蹤,獲得當前 msp 專案中客戶的真實感受,發現服務中的不足並組織改進,為客戶提供更好的服務 了解不斷變化的客戶需求和期望,找出與客戶滿意或不滿意直接有關的關鍵因素或績效指標,評估公司與主要競爭者的滿意度指標差異 通過分析客戶需求來持續改進公...

IT運維管理制度

一 it運維及管理制度的必要性 為了規範公司it各項工作,使得相關工作具有持續改善性及相互協作性,同時加強計算機裝置的合理管理及日常維護,明確各部門的職能職責和管理流程,提高工作效率,確保維修工作的及時性,同時降低計算機裝置的報修率,實現業務與技術的融合,將業務部門與it部門緊密結合在一起。所以根據...