測試信息系統自動化運維探討

前言:尋找寫作靈感?中文期刊網用心挑選的測試信息系統自動化運維探討,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。

測試信息系統自動化運維探討

摘要:隨著信息化建設的不斷深入,日常的工作對信息系統的依賴程度也越來越高,信息系統的任何波動都會對業務造成影響。為保證信息系統的安全與穩定,需要進行運維管理。測試運維工作包括操作系統、網絡管理、各專業應用系統及數據庫的運行及維護全過程,涉及大量設備和平臺。文中闡述了自動化運維基本原理,更深層的進行實際工作的全局分析,將自動化運維技術應用到測試生產實際,關注當前條件下如何實現性能與服務最優化。

關鍵詞:運維;自動化;效率

0引言

測試分公司的經過多年的信息系統建設,現有計算機設備1443臺、24h在線運行設備12臺,部署在不同的基層單位。在網絡傳輸上現使用光纖長度150km,21個C類IP地址,可管理交換機等網絡設備128臺套。在數據庫配置上配備中心數據庫一套,部署在11個生產單位的測試專業數據庫33套。累計保存近50余萬井層次測試數據(300GB),年增長4萬井層次(15GB)。信息系統已經成為日常工作必不可少的工具。面對基礎設施資源多,網絡覆蓋范圍大、網段分散,數據庫中數據量大等問題,日常運維管理也越來越復雜。目前測試分公司的運維已經實現從人工運維到計算機管理,但運維管理還只是處在“半自動化”的狀態。運維方式仍然是等到故障出現后再由運維人員采取相應的補救措施。這些傳統的被動、孤立、半自動式的運維管理模式經常讓運維人員疲憊不堪,讓運維工作陷入被動,沒有流程設置,周而復始就形成了連鎖的惡性循環反應。即使加班加點地維護、部署、管理也經常會出現故障而導致業務的中斷,影響生產。隨著計算機軟硬件技術的不斷發展,自動化運維技術給我們提供了極佳的解決方案。

1自動化運維的意義

1.1什么是自動化運維

自動化運維就是把周期性、重復性、規律性的工作都交給工具去做,由過去的手工執行轉為自動化操作,從而減少乃至消除運維中的延遲、實現“零延時”的運維,最終達到提升運維效率的目的。自動化運維是一種基于流程化的框架,將運維與操作流程相關聯,—旦被監控系統發現性能超標,會觸發相關事件以及事先定義好的流程,可自動啟動故障響應和恢復機制。面對越來越復雜的業務,越來越多樣化的用戶需求,不斷擴展的應用需要合理的運維來保障服務。

1.2為什么要使用自動化運維

如果測試分公司的整個,運維管理做得不好,那么建立起來的信息系統功能再好再強也沒有用,因為業務部門根本無法順利使用。自動化運維首先帶來的是運維效率的提高:可幫助運維人員完成日常的重復性工作(如備份)。其次是保障安全:在運維管理過程中,一旦發現安全隱患,運維管理系統會及時預警,同時提前修復,避免系統危機。最后是維持穩定:通過監控最大程度地保障系統的穩定和運行質量。即使出現問題,也能夠快速發現、快速響應、快速恢復,合理的運維方式能夠有效保護數據。如圖1所示,運維自動化的實現可以減輕對人工操作的依賴,實現運維思路的變更。

1.3自動化運維如何實現

1.3.1以監控為中心

監控自動化是運維自動化的起點之一。對服務運行的狀態進行實時的監控,隨時發現服務的運行異常和資源消耗情況;輸出重要的日常服務運行報表以評估業務整體運行狀況,發現隱患。運維人員把握監控的覆蓋程度。雖然針對生產系統的各層次都部署了監控工具,需要有管理員去配置??抗芾韱T主觀能動性去讓監控實現對某個生產系統所有運行狀態進行實時監控還比較困難,所以需要讓運維人員明確知道監控覆蓋面的及格線。例如:磁盤占用空間大于設定數值時,監控功能自動預警通過微信等功能告知相應的處理人員。

1.3.2建立運維手冊

模板化部署系統環境。建立每種事件的規范化處理和跟蹤指南,可以減少運維操作的隨意性和強化運維的執行力度,在很大程度上可降低故障發生的概率。運維手冊是運維標準化最基本的工作項之一,但由于運維涉及的問題很多,運維文檔也演變成一個越來越復雜的文檔,當文檔復雜到一定程度時就會變成一個負擔,很難保文檔的及時更新。在這里以運維手冊簡單化為原則。

1.3.3服務流程自動化

監控自動化發現了問題就應該接入相應的流程進行處理,這時候故障事件自動觸發問題處理跟蹤流程,并利用運維文檔完成整體故障處理。通過監控工具實現對用戶操作規范的約束和對資源進行實時監控。在自定義周期內進行自動觸發完成對運維的例行巡檢,形成檢查報告。運維自動化管理建設不是一次性建好,要以實用為主分階段的解決自身實際問題,最終建立完善的運維的自動化監控和管理平臺。

2應用情況

2.1用于試井解釋平臺日常運維

建立試井運維手冊,形成文檔管理。按照文檔要求記錄下問題原因以及解決的步驟,并定期回顧文檔從中整理出的共性問題。例如:多次發生在軟件可以正常解釋井的情況下,但點擊入庫按鈕無響應。初期選擇重新安裝軟件,恢復使用。后期通過篩查運維手冊,研究問題機器的共性。定位到具體的丟失文件,查到丟失原因、發現問題根源。避免了同類問題的發生,提高了軟件使用者的滿意度。規范化處理可以減少運維操作的隨意性和強化運維的執行力度,可降低故障發生的概率減少運維工作量。

2.2實現測試成果數據自動備份

測試分公司平均每年入庫近四萬井層次的測試數據,已經積累了五十多萬井層次,300多GB的數據量。這些數據是油田重要的數據資產,需要進行安全管理,保證數據資產安全最重要的手段就是備份。面對日益增長的測試數據資料,由于屬地原因分布在所屬采油廠的各個基層測試大隊30個節點上,人工重復登錄各個節點,進行賬戶認證,檢查存儲空間,執行數據庫的導出命令,對導出文件進行壓縮,進行規范命名,通過網絡拷貝到備份服務器,刪除本地冗余備份,檢查備份服務器存儲空間,刪除備份服務器冗余備份,整個備份過程繁瑣冗雜,容易產生誤操作,效率低下。編制批處理文件,根據各個節點上數據量大小,規劃備份執行具體時間,通過操作系統計劃任務定時完成備份工作,整個備份過程在網絡上部署,在分布式各個節點上,分布各個時間節點周期自動定時運行。沒有人為因素,測試專業數據庫自動完成備份工作,保證數據安全。

2.3驗證測試井入庫信息質量

大慶油田現今有21個油氣開發、研究單位、工程服務單位通過成果平臺應用測試資料。生產測試解釋信息入庫成為了生產的重要環節。生產數據入庫的準確性、及時性就越來越重要。編寫軟件進行數據庫數據信息的對比。保障測試生產數據入庫的準確性、及時性。在測試井成果數據傳輸中,設立重點監控,進行測試數據質量檢查。及時發現解釋外報卻未入庫的井次,規范數據入庫情況,進行數據檢查核對,并公示考核,分析總結影響數據入庫的因素,提高數據庫入庫質量。設定監控點,監控外報數據與成果數據庫中的數據差異。節約時間成本,可以很快的發現差異井次、及時改正,大幅提高了工作效率。并且,提高精準度可以明確展示數據間具體差異。

3結語

隨著測試分公司信息化建設的持續深入,基礎設備的不斷增加以及各個專業平臺的推廣使用,測試信息運維工作量勢必越來越大,運維管理的自動化已經是大勢所趨。真正實現測試信息工作完全自動化運維是一項復雜的系統工程,首先要將工作中最耗時間的事情自動化,如此迭代往復最終建立一個信息化自動化運維平臺,簡化工作流程、提高工作效率、提升服務質量。可以將運維人員從繁瑣的、例行、容易發生人為事故的工作中脫離出來,做更有價值的運維工作。

參考文獻:

[1]JanvanBon,章斌譯.基于ITIL的全球最佳實踐[J].清華大學出版社,2010,1:8~14

[2]王敏.淺談運維自動化[J]運維派,2017,5.

作者:夏薇 單位:大慶油田有限責任公司測試技術服務分公司

亚洲精品一二三区-久久