問題管理程式

2021-03-16 06:42:00 字數 4805 閱讀 7176

all rights reserved

檔案更改摘要:

目錄1. 目的 4

2. 範圍 4

3. 術語 4

4. 角色與職責 4

5. 活動 6

5.1. 流程圖 6

5.2. 主要活動 6

5.3. 關於主動問題管理 9

5.4. 度量和報告 9

5.5. 與其他流程的關係 10

6. 相關檔案 11

7. 引用檔案 11

8. 記錄 11

本程式的目的是消除或減少生產環境中事件發生的數量和嚴重程度,防止相同事件的再次發生,從而為企業建立乙個穩定的it環境,提高it服務的可用性。

問題管理包括主動性問題管理和被動問題管理兩類活動。前者的目標是通過找出基礎設施中的薄弱環節來阻止事件再次發生,以及提出消除這些薄弱環節的建議;後者的目標是找出導致以前發生事件的根本原因,以及提出解決措施或糾正建議。

本程式適用於it**覆蓋的所有部門。

該程式調查基礎設施的配置資訊、可用資訊、能力資訊,來確定引起事件發生的真正潛在原因以及提供的服務中可能存在的故障。

無 問題管理負責人

負責問題受理、篩選及記錄

開發和維護問題控制和錯誤控制流程

評估問題控制和錯誤控制的效率和效果

提供管理資訊並運用這些資訊主動預防事件和問題的發生

對問題管理支援小組進行管理

獲取問題管理流程各項活動所需的資源

開發、維護並改進問題控制和錯誤控制流程

進行事後檢查或組織重大問題審查

分析和評價主動問題管理活動的有效性

識別問題管理過程中存在的問題並提出改進措施;

需要時協調第三方的資源來幫助診斷和糾正問題。

定期編寫問題報告

問題管理支援小組

被動性職責:

接收由問題管理負責人派發的問題

通過詳細分析確認和記錄問題

根據問題優先順序對問題進行調查和管理

必要時提交變更請求

監控已知錯誤的進展情況

給事件管理提**急措施和臨時性修復方案方面的建議

參與重大問題評審

主動性職責:

識別問題發展趨勢

必要時提交變更請求

防止問題擴散到其他系統

識別改進

問題管理流程著重於消除事件或減少事件發生,確定事件的根本原因。主要活動包括分析事件、找出問題、分派問題、確定根本原因以及找出解決方案、回顧及關閉,以消除事件或在其發生時降低對使用者或業務的影響。其主要內容如下:

5.2.1. 問題確認與記錄

問題確認通常由問題管理負責人指派問題管理小組的成員來完成,其他人員,如能力管理人員也可幫助對問題進行確認,並填寫《問題記錄表》。

任何乙個由未知原因導致的事件都與某個問題有關,問題的確認需要考慮以下方面的因素:

某一事件再次發生,並且有大量發生和加重的趨勢。

對基礎設施進行分析可能找出事件發生的薄弱環節

乙個嚴重事件發生後應納入問題管理尋求永久性的解決。

服務級別受到威脅(能力、效能等)

已記錄的事件不能與現有問題或已知錯誤發生關聯

問題也可在運維過程中提出,例如巡檢過程中發現問題。趨勢分析能夠發現基礎設施需要進一步關注的環節,如通過對歷史資料、報表等進行分析來建立問題。

5.2.2. 問題分類

確定問題的性質,按照問題所處區域和類別進行分類,主要有系統、硬體、網路、其他四大類。其他指的是為由於人員誤操作、文件錯誤等導致的問題。對問題的分類不是固定的,在問題的生命週期可能發生變化,所以應及時更新關於問題類別的資訊。

5.2.3. 問題分派

問題管理負責人應綜合考慮問題的緊急度、影響度、風險以及資源、人員技能等因素,將問題進行分派,並對分派後的問題狀態進行跟蹤。

問題狀態分為五種:問題、已知錯誤、已解決、已評審、已關閉五種。

5.2.4. 問題調研與診斷

由問題分析人員進行問題調查和診斷,該過程是個反覆的過程,要重複進行多次,而每重複一次都更接近我們想要的解決方案。通常需要在測試環境中重現某一事件,必要時需要運維工程師協助分析和診斷。

導致問題的原因是多樣的,可能是由硬體和軟體或是網路引起的,或是檔案錯誤、人員誤操作、版本發布不當等導致問題。因此要將問題處理歸入配置管理資料庫進行版本控制。一般情況而言,大部分錯誤與基礎設施的元件相關。

一旦找到問題的根源以及與此問題相關的乙個或多個配置項,就可建立配置項和事件之間的關聯。之後如果找到了解此問題的應急措施,此問題就轉變為已知錯誤。

5.2.5. 臨時措施

在解決問題的過程中,如果問題導致了嚴重的事件,需提供臨時修復措施。如果臨時措施需要對基礎設施進行改動,必須首先提交變更請求(主要指在找到問題的最終原因之前)。如果特別嚴重或不容耽擱,就必須啟動緊急變更處理程式。

5.2.6. 錯誤確認與記錄

一旦找到問題的根源和與此問題相關聯的配置項,以及處理它的應急措施,問題分析人員可將其狀態轉變為「已知錯誤」,或與某個已知錯誤相關聯。如仍有未解決的事件,問題分析人員可將問題解決情況告知事件管理以便解決事件。

5.2.7. 錯誤評估

問題管理小組應評估以下資訊:

問題或已知錯誤所需資源

處理已知錯誤所需的成本

處理已知錯誤可能獲得的收益

變更請求的影響度、緊急度

綜合以上因素比較不同的解決方案。解決問題的所有活動都應加以記錄以便對其進行監控和確定它們不同時期的狀態。

5.2.8. 確定解決方案

確定對問題而言最合適的解決方案,包括確定是臨時性修復措施還是永久性解決方案,或者二者皆需要。甚至,它可能決定不修復此問題,比如公司自行開發的運維系統出現故障,但是由於公司已決定月底採用新系統,此類情況,修復成本將超出所能獲得的利益,因此可能不會對現有系統進行修改。

不管決定何種方案,與已知錯誤有關的資訊應該進行記錄並可供事件管理流程使用。

5.2.9. 實施變更

根據確定的最終解決方案,如需變更則提交變更請求,然後通過變更管理流程實施。

5.2.10. 問題評審

用於解決問題、已知錯誤及相關事件的變更實施後,在終止有關記錄工作之前問題管理負責人組織對變更進行實施後評審。對於重大問題,還要另外執行重大問題評審。評審內容包括:

驗證與該問題相關的所有事件是否得到最終解決

流程中需要改進的事項

預防措施

5.2.11. 問題歸檔

將問題管理流程中產生的所有記錄納入問題知識庫,並在問題關閉前更新問題知識庫的相關資訊,從而保證配置項之間的一致性、準確性、完整性。

5.2.12. 監控與跟蹤

問題管理負責人負責在問題和已知錯誤的整個生命週期內對其發展情況進行監控,確定並監控其影響度和優先順序,必要時調整優先順序;監控問題和已知錯誤的分析診斷情況和方案實施情況,同時監控變更請求的執**況。

5.2.13. 問題關閉

問題成功解決後,問題狀態被標識為「已解決」,問題關閉。

問題管理負責人負責主動問題管理,關注服務和基礎設施的質量,識別基礎設施中的薄弱環節或超負荷工作的元件,並分析基礎設施的執行趨勢,找出潛在事件以防止其發生。

如果查詢的範圍包括若干領域,那麼某一領域內防止問題發生而做的努力也必須在其他領域內實施。

問題報告與問題管理的範圍密切相關,問題管理報告可包括廣泛的主題,其報告的內容基於一系列的度量指標來實現的,主要有:

度量指標:

已關閉的問題數量

問題管理提出的rfc數量

解決問題的時間

問題報告的主要內容有:

時間報告:問題控制、錯誤控制和主動問題管理三階段分別耗費的時間,以及支援小組和**商分別耗費的時間。

元件質量:有關事件、問題和已知錯誤的詳細情況可用於確定經常發生故障的元件,用以判斷**商是否履行了合同規定的義務。

問題管理流程的有效性:

問題解決前後發生的事件數量

記錄下來的問題、已知錯誤數量

提出並成功執行的變更請求的數量

未解決的問題狀態

解決方案:對已解決的和下一步將要解決的問題進行總結分析,尋求解決方案以降低問題對業務的影響。

改進計畫:和服務質量計畫中規定的問題管理流程目標作比較,識別差距,提出改進措施。可通過常規性流程審計改進該流程。

問題管理依賴有效的事件記錄。問題管理為事件管理提**急措施來對事件進行處理,通常情況下問題管理還可提供乙個變更請求,使問題得到最終解決。

當出現下列情況時,專案組需將事件管理提交到問題管理:

當事件有大量發生並有加重的趨勢時;

當事件從未發生時;

當事件級別較高時;

服務級別受到威脅時

問題管理為解決問題而發出變更請求,變更管理評估變更產生的影響、所需的資源。通知問題管理負責人變更的進展,並邀其參與變更實施後評審。變更成功後,相關事件和問題記錄得到更新並納入知識庫。

配置管理提供關於基礎設施、軟硬體配置及服務等元件資訊,以及元件之間的關係。這些關係對問題管理的調查工作提供了依據。

可用性管理將服務的可用性資訊提供給問題管理流程以便於調查和分析

問題管理通過找出服務無效的原因和補救方法來支援可用性管理流程工作。

可用性管理負責基礎設施的設計和規劃基礎設施的架構,以防止問題和事件的發生。

問題管理分析導致服務出現故障的原因時與可用性管理流程一起工作。

通過已識別問題的重要資訊,找出與能力相關的問題,能力管理優化對it資源的使用。

問題管理應遵守服務級別的要求

服務級別管理為主動問題管理提供依據和準則

被動問題管理的實施結果要達到服務級別協議規定的要求

服務級別管理就實施it服務的質量問題進行協商和談判

事件管理程式

變更管理程式

配置管理程式

無 問題記錄表

重大問題評審記錄

JYYH PS 16 問題管理程式

文件密級 一般 文件狀態 草案 正式發布 正在修訂 目錄1.適用 2 2.目的 2 3.職責 2 4.相關檔案 2 5.程式 2 5.1.流程圖 2 5.2.觸發問題管理 2 5.3.問題分類管理 2 5.4.調查和分析問題 2 5.5.解決問題 2 5.6.關閉問題 2 5.7.趨勢分析與預防 2...

風險管理程式

檔名稱 風險管理程式 第a 1版 2012年03月01日發布2012年03月01日實施 a級要素 3風險管理 b級要素 3.1 範圍與評價方法 3.2風險評價 3.3風險控制 3.4隱患排查與治理 3.5 重大危險源 3.6變更 3.7風險資訊更新 3.8 商 3風險管理 3.1 範圍與評價方法 3...

記錄管理程式

1.0 目的 規範質量記錄的管理,客觀 真實 準確地反映質量活動和質量管理體系的有效執行,為產品的可追溯性以及採取改進 糾正和預防措施提供依據。2.0 適用範圍 本程式適用於與上海 機電科技 質量管理體系有關的所有記錄。3.0 職責 3.1 公司各級負責人負責相關質量記錄的編制 處理的審批。3.2 ...