虛擬化環(huán)境下的統一運維論文
1 概述
伴隨著(zhù)信息技術(shù)的不斷發(fā)展,信息系統運維的概念已經(jīng)非常普及,根據自動(dòng)化運維服務(wù)商Puppet labs發(fā)布的2013運維報告顯示,采用自動(dòng)化運維后,完成部署的速度提高很多倍,減少50%失敗概率,恢復系統的速度提高12倍,國內外的互聯(lián)網(wǎng)公司都在開(kāi)發(fā)自己的運維軟件,國內大型互聯(lián)網(wǎng)公司阿里巴巴、百度、網(wǎng)易等都有專(zhuān)門(mén)的運維體系研究部門(mén)。運維管理在高校領(lǐng)域處于逐步實(shí)驗階段,國內一些高校已經(jīng)重視虛擬化應用及運維服務(wù)工作,大多采用自主研發(fā)與整合工具相結合的方式實(shí)現,在運維服務(wù)專(zhuān)業(yè)化、流程化、規范化方面取得了不同程度的成果。
2 運維的現狀
隨著(zhù)學(xué)校信息化建設的發(fā)展,信息門(mén)戶(hù)、學(xué)工管理、教務(wù)管理、校園卡管理、迎新離校、支付平臺等系統相繼投入使用,系統基礎平臺的穩定可用性顯得更加重要,學(xué)校信息系統支撐平臺主要以Vmware虛擬化平臺為主,通過(guò)虛擬化技術(shù)實(shí)現了硬件整合管理和可高用性、改善業(yè)務(wù)可靠性、優(yōu)化系統部署、降低設備能耗特點(diǎn),但虛擬化管理平臺的管理只涉及主機統級別,應用系統業(yè)務(wù)的管理需要各利用各自獨立的工具來(lái)管理,運維管理整體上基本處于“半自動(dòng)”狀態(tài)。突出的有以下問(wèn)題:定位實(shí)際故障點(diǎn)的效率低,故障修復缺乏自動(dòng)化、流程化響應機制,缺乏事件監控、診斷、故障響應的有效運維工具;系統配置變更需人工操作工作量大,缺乏集中的主機、虛擬機、應用業(yè)務(wù)等的監控和預警機制;信息系統基礎設備沒(méi)有統一配置管理信息庫,信息登記混亂常造成設備配置信息的沖突。系統的可用性與運維管理有著(zhù)緊密聯(lián)系,當前運維工作的重心放在應用檢查、部署上線(xiàn)、服務(wù)器配置、數據備份、故障搜索處理等方面。
3 統一運維的設想
統一運維平臺規劃以信息系統基礎設施及應用系統的全局統一管理為出發(fā)點(diǎn),實(shí)現配置批量變更、故障自定義修復、定期自動(dòng)巡檢、信息集中管理等功能,考慮到免費運維系統功能有限、大公司自主研發(fā)技術(shù)很難獲取,計劃采用開(kāi)源軟件、Vm?ware管理平臺的功能接口和開(kāi)發(fā)相結合的方式來(lái)實(shí)現統一運維。
系統規劃實(shí)現的主要功能包括以下幾項:集中化管理信息系統基礎架構中的服務(wù)器、虛擬機、應用系統、網(wǎng)絡(luò )設備、存儲、應用等配置資源;通過(guò)預先定義主機系統、虛機系統、通用應用的'模板及配置腳本,實(shí)現主機系統、虛機系統與應用系統的統一配置管理與自動(dòng)化部署,保證配置變更在規范的流程下有序。準確地執行;實(shí)現主機狀態(tài)、應用狀態(tài)、應用業(yè)務(wù)、負載性能、存儲狀態(tài)等信息的統一監控與預警,通過(guò)預定義故障狀態(tài)與系統巡檢計劃實(shí)現自動(dòng)化檢查及修復;建立統一的日志中心庫,采集來(lái)自基礎設備及應用的日志信息,在日志系統上配置基于應用流程的相關(guān)性規則,對日志信息進(jìn)行有效性預處理,將有效及緊急的日志的集中展示,實(shí)現基礎設備的日志信息的集中化管理及智能化匯總。
4 系統的設計與實(shí)現
ITIL即IT基礎架構庫(Information Technology InfrastructureLibrary,信息技術(shù)基礎架構庫)為設計IT服務(wù)管理架構提供了一個(gè)客觀(guān)、嚴謹、可量化的標準和規范,參考ITIL2中服務(wù)支持部分,設計與實(shí)現統一運維的5項功能模塊。資源配置管理系統發(fā)布管理配置變更管理事件預警處理問(wèn)題跟蹤管理。
4.1 資源配置管理
建立符合的統一運維管理架要求的配置管理數據庫,將多處的數據源合并至統一視圖中,配置信息庫提供IT基礎架構的邏輯模型,定義、識別、控制基礎設施與應用服務(wù)的部件,對資源信息按技術(shù)參數,屬主,關(guān)系等屬性進(jìn)行存取,記錄每個(gè)資源的唯一標識名、主機狀態(tài)、硬件信息、位置、功能用途、網(wǎng)絡(luò )配置等技術(shù)參數信息及資源間的屬主關(guān)系,按照基礎設施與應用業(yè)務(wù)的依賴(lài)性信息完成關(guān)系屬性的建立,在配置信息庫的基礎上開(kāi)發(fā)資源配置管理程序,實(shí)現記錄配置信息的狀態(tài)采集、記錄、整合、檢驗、變更等功能。
4.2系統發(fā)布管理
發(fā)布管理是將經(jīng)過(guò)實(shí)際應用測試的新增配置與系統在環(huán)境進(jìn)行分發(fā),通過(guò)流程化實(shí)現系統與配置信息的發(fā)布、交付、分發(fā)。具體到實(shí)際環(huán)境中是Vmware中的虛擬機發(fā)布管理,通過(guò)調用Vmware管理平臺提供的接口及工具包,實(shí)現統一化、流程化的虛擬機申請與管理功能,將虛擬化平臺中虛擬機的創(chuàng )建、發(fā)布、交付、回收等功能集成到運維平臺。
4.3 配置變更管理
配置變更要求以受控方式在最短時(shí)間內完成基礎架構或應用服務(wù)配置變更,在變更實(shí)施過(guò)程中使用標準化、自動(dòng)化的方法,以將由變更所導致的業(yè)務(wù)中斷影響減小到最低。學(xué)校信息系統所使用的操作系統平臺分為Windows與Linux二類(lèi),同類(lèi)環(huán)境的配置變更非常類(lèi)似,經(jīng)過(guò)測試選擇Puppet(開(kāi)源的基于Ruby的自動(dòng)化系統配置管理工具)來(lái)實(shí)現自動(dòng)化的配置變更管理,Puppet支持DNS設置、系統參數、系統更新、主機名規則變更、批量系統的密碼修改、防火墻策略變更等配置的自動(dòng)下發(fā),管理程序讀取指令及配置管理信息庫中設備的配置,通過(guò)調管理端來(lái)實(shí)現配置批量自動(dòng)分發(fā)變更,反饋信息來(lái)記錄或變更管理配置息。
4.4 事件預警處理
在確定事件類(lèi)型、優(yōu)先級的前提下,實(shí)現快速的服務(wù)恢復與應用切換,實(shí)現服務(wù)器級故障自動(dòng)修復依賴(lài)監控預警信息,信息系統平臺中需要預警處理的設備包括基礎設備、Vmware平臺、虛擬主機、應用系統等,使用免費工具作為信息采集低層服務(wù)端工具,數據采集使用SNMP協(xié)議、SSH訪(fǎng)問(wèn)與自定義腳本相結合的方式,預警方式使用SNMP Trap與郵件告警,通過(guò)開(kāi)發(fā)程序來(lái)讀取采集到狀態(tài)數據和警告信息匯總到統一的數據庫,定義主機或應用的錯誤類(lèi)型代碼及相應故障事件的觸發(fā)規則、運行流程、修復腳本或指令,當故障事件發(fā)生時(shí)管理平臺依據來(lái)源及事件標識讀取事件響應配置并發(fā)出指令,事件故障主機或關(guān)聯(lián)主機根據指令主動(dòng)執行流程化修復指令,執行修復指令的結果被反饋回管理平臺,管理平臺將結果記錄入配置信息庫或發(fā)出進(jìn)一步修復指令。
4.5 問(wèn)題跟蹤管理
問(wèn)題跟蹤管理利用logstash,redis等日志采集工具來(lái)收集問(wèn)題信息及日志,管理平臺對日志信息按照應用類(lèi)型與業(yè)務(wù)邏輯關(guān)系進(jìn)行分類(lèi)過(guò)濾,形成可用的、有針對性的日志事件數據,管理平臺根據日志信息分析IT基礎架構的薄弱環(huán)節并確定引起問(wèn)題發(fā)生的故障根源,管理人員利用管理平臺制定解決事故的方案和防止事故再次發(fā)生的措施。
5 進(jìn)一步的思考
規劃統一運維平臺管理幾百臺服務(wù)器與應用,考慮運維管理的高效化與信息安全預防的標準化,系統設計在通用性與擴展性還有許多要繼續改進(jìn),在自動(dòng)化部方面應用系統的類(lèi)型較多且自動(dòng)化管理工具欠缺,如何實(shí)現應用系統軟件的自動(dòng)化配置是繼續關(guān)注,故障巡檢方面要深一步考慮如何實(shí)現精確、有效的故障恢復策略,缺少考慮多人使用平臺時(shí)的授權機制與安全審計模塊。
【虛擬化環(huán)境下的統一運維論文】相關(guān)文章:
現代化海事運維理念研究論文11-04
精益化IT運維關(guān)鍵技術(shù)研究論文11-06
電力運維合一論文05-28
基于虛擬現實(shí)技術(shù)的三維教學(xué)環(huán)境研究論文11-08
運維應急預案09-22
運維團隊口號05-03
運維實(shí)習報告01-18
IT運維簡(jiǎn)歷模板03-29
運維實(shí)習總結08-06