前言:中文期刊網精心挑選了好的日志文章范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
好的日志文章范文1
關鍵詞:日志規整;實時采集;日志分析
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2013)28-6433-04
1 背景
當前營業員和用戶在業務支撐系統(簡稱:BOSS系統)辦理業務出現問題和故障的時候,通常由用戶打10086投訴或者營業員報障給后臺維護人員進行故障分析和處理。這個處理流程很耗時間,影響問題的解決效率。
在BOSS系統的各個渠道查詢或受理業務的過程中,都有可能會因網絡、數據庫、應用系統等各方面原因拋出異常錯誤信息,這類錯誤信息記錄在BOSS系統各主機的日志文件中,由于BOSS系統每天產生大量的日志文件,從日志文件中定位查找錯誤信息需要花費大量的時間,對維護人員處理問題和故障帶來不便,影響問題的及時發現和處理實效性。
2 研究思路
考慮從主機的日志文件中及時地收集到這種系統異常錯誤信息,并自動入庫進行分析,維護人員就能及時的了解BOSS系統當前的運行情況,發現系統問題,查詢錯誤信息,能夠在營業員或客戶投訴之前就可以去核查解決,提升問題處理的及時性和效率,保障系統健康穩定的運行,從而提高系統業務支撐水平,提升營業員和客戶的內外部滿意度。
3 實現方案
建立BOSS系統日志分析管理平臺,對BOSS系統主機產生的各種日志進行日志異常分析和日志管理,針對主機系統產生的大量日志文件進行處理:日志采集,日志管理,日志分析,日志綜合告警執行以及執行前流程審批權限設立、分析結果處理執行中的流程跟蹤、分析結果處理執行后的日志留痕。通過日志分析管理平臺,維護人員能夠方便的查看日志的分析結果、以及日志異常產生的次數和時間段,如系統錯誤產生的次數、產生的時間段、業務執行人員信息記錄、業務執行影響等信息,從另一個角度去分析主機的穩定情況以及運行效率,以往一些不容易察覺的異常信息,通過對日志分析規則的配置和數據采集,也會在系統中體現出來,從而提高系統維護管理的水平。
3.1 日志分析平臺系統架構
系統架構說明:
1)采集客戶端:運行在生產主機上的采集客戶端程序,負責收集相關日志,預處理并通過socket方式發送給采集服務端。
2)采集服務:采集服務端對消息進行緩存,由消息處理器進行異步處理,生成消息首先放入內存,同時發給實時告警,當內存中的記錄數達到配置的閥值時寫入文件數據庫。
3)告警處理:實時告警收到消息后根據告警規則配置進行處理,并將結果入庫。
4)查詢服務:查詢服務接收web端和統計進程的查詢請求,從文件數據庫和采集服務端的內存中查詢符合條件的記錄返回給調用端。
3.2 日志分析平臺系統功能
系統功能說明:
1)日志監控采集:從各渠道的業務主機上實時讀取新生成日志信息。由于BOSS系統各臺主機上每天生成的日志信息量很龐大(達到830G),因此部署的客戶端程序要能夠實時采集日志,并且對主機性能不會造成大的影響。設計上采用客戶端部署日志爬蟲程序,實時采集日志并傳送給服務端,采集傳送時間
2)日志規整處理:對采集完成的的日志文本信息,按照既定格式統一進行規整處理,便于后續的存放和分析。
3)消息緩沖處理:將規整好的日志信息,送入待發往消息中心的緩沖區中。
4)消息發送處理:將緩沖區中存在的日志信息,取出發往消息中心;對發送出錯的消息,記錄關聯信息到錯誤重發文件中。
5)錯誤重發處理:根據錯誤記錄文件檢索需要重新發送的日志信息,將消息再次發送。
6)日志分析處理:對日志進行分析,從有利于維護人員定位分析問題的角度出發,全方位提取錯誤的信息并進行歸類分析,如業務調用路徑分析、業務調用關系分析、調用函數分析、異常效率分析等,對分析出來的信息在WEB界面進行關聯展現,便于對信息全方位的查看和分析。
7)統計告警查詢:根據錯誤信息進行歸類,達到一定閥值的進行告警(閥值可以進行手工調整),對告警的詳細信息在WEB界面進行統一展現,并對錯誤信息進行統計,對外提供查詢。
3.3 系統處理流程
從總體流程來看,整個日志處理過程分為三大部分:
1)采集流程:通過采集配置-日志采集引擎根據配置信息從指定主機日志文件中采集關鍵信息-持久化采集信息-數據入庫。
日志采集要求對多個大容量的日志文件進行實時的采集,采集的方式主要以全量采集和增量采集為主,可開啟多個采集進程進行同時采集,采集引擎根據配置信息里的采集關鍵詞,以及需要采集的日志文件名稱,在對應的主機日志文件中查找存在關鍵詞的行。
2)告警流程:當采集的信息數量達到事先設定的閥值時,會產生告警信息(包括發送短信到維護人員手機和頁面告警兩種方式)。
3)分析流程:業務日志分析查詢-日志分析程序分析采集信息-得出分析結果-返回查詢操作-用戶查看分析結果視圖。
以上日志采集、告警和日志分析組成了整套日志采集分析流程。在采集時只需要添加采集配置信息以及采集關鍵詞,后臺采集程序即會自動根據配置信息,到相應的主機日志文件中采集,無需人工干預。當采集的信息數量達到事先設定的閥值時,會進行告警(見圖4),同時將采集信息入庫。采集信息入庫后,要查詢日志關鍵信息,只需要登錄日志分析管理平臺進行查詢(見圖5),查詢方式可以按天,按日志文件名,產生日志的日期等。平臺會自動根據日志采集信息生成統計圖型,方便維護人員對一段時間內的采集信息進行評估,并提供日志信息導出功能。
4 應用效果
BOSS系統日志分析管理平臺2011年12月上線后,通過部署在CRM系統一臺中間件主機上的日志采集客戶端程序對日志文件進行統一采集,發送到日志分析服務器上進行統一管理和展現,取得較好的應用效果:
1)采集處理對中間件主機的CPU使用率的影響很?。?/p>
2)提升工作效率:維護人員通過日志分析平臺的前臺界面查看日志信息,節省了維護人員頻繁登錄各臺主機搜索日志的大部分繁瑣的工作。平臺上線前,維護人員面對龐大的日志記錄,定位目標信息至少需要15分鐘;平臺上線后,維護人員在系統上選擇對應主機IP和關鍵詞信息即可查看日志信息,1-2分鐘內即可定位,日志信息定位效率提升10倍以上。
3)加強系統監控:平臺上線前維護人員需要手工登錄各個系統,并查看刷新的日志記錄是否存在異常,大量異常信息無法實時捕捉到,無法進行系統的實時監控;平臺上線后,日志采集程序在各個主機平臺實時采集分析日志信息,實時定位異常信息點,并告警通知相關維護人員,保證了各系統7*24小時的實時監控,提升了系統的穩定性。
4)縮短故障處理時間:平臺上線前,故障處理人員需要登錄對應主機,查看系統日志進行故障分析,過程需要20分鐘甚至更久;平臺上線后,故障處理人員只需登錄平臺系統在監控和告警管理界面能查看故障信息,就能進行故障定位,只需要5分鐘甚至更少時間,故障定位處理時間縮短15分鐘以上。
5 小結和展望
日志分析管理平臺對BOSS系統的日志信息實現了統一配置采集,統一日志信息展現,去除人工搜索日志信息帶來的時間浪費,維護人員不用再登陸到各個主機上搜索日志,只需登陸到日志平臺查詢各種日志信息,減少重復的人工操作和對主機資源的浪費;平臺對采集到的日志進行錯誤信息實時告警,方便了維護人員對故障問題的發現、定位和解決,提高問題解決的實效性,對提升前臺和客戶滿意度起到較好的效果。
2012年6月,日志采集客戶端部署在CRM三臺中間件主機上運行。后續將根據實際使用情況部署到其他主機上運行。
參考文獻:
[1] 《廣西移動BOSS應用服務評估分析項目技術建議書》神州數碼思特奇信息技術股份有限公司[Z].2011.
好的日志文章范文2
關鍵詞:網絡安全審計;日志;日志格式
中圖分類號:TP311文獻標識碼:A文章編號:1009-3044(2008)14-20803-02
1 引言
防火墻、入侵檢測系統和安全審計系統等安全產品為內部網絡提供了良好的保護作用。安全審計系統提供了一種通過收集各種網絡信息從而發現有用信息的機制,將這種機制應用于局域網內部,從多種網絡安全產品中收集日志和警報信息并分析,從而實現效能的融合,與防火墻、入侵檢測系統等安全產品形成合力,為局域網的安全提供強有力的保障。
如何高效的從各種網絡設備所生成的海量的日志數據信息中提取有用信息,通過格式的統一整合后為安全審計系統提供統一接口,這是安全審計系統一項十分關鍵的工作,也是影響整個系統性能的一個重要因素,本文就此進行探討。
2 安全審計系統的功能需求
安全監控與審計技術通過實時監控網絡活動,分析用戶和系統的行為、審計系統配置和漏洞、評估敏感系統和數據的完整性、識別攻擊行為、對異常行為進行統計、跟蹤識別違反安全法則的行為等功能,使系統管理員可以有效地監控、評估自己的系統和網絡。監控審計技術是對防火墻和入侵檢測系統的有效補充,彌補了傳統防火墻對網絡傳輸內容粗粒度(傳輸層以下)的控制不足,同時作為一種重要的網絡安全防范手段,對檢測手段單一的入侵檢測系統也是有益的補充,能及時對網絡進行監控,規范網絡的使用[1]。
目前,安全審計系統是網絡安全領域的一個研究熱點,許多研究者都提出了不同的系統模型,這包括對內容進行審計的安全審計系統、對用戶行為進行審計的安全審計系統以及對各種安全設備生成的日志進行審計的安全審計系統等等。
基于日志的網絡安全審計系統是一個日志接收與日志分析的審計系統,該系統能夠接收、分析審計局域網內的防火墻、入侵檢測系統等網絡安全產品生成的日志,審計局域網內的網絡信息安全?;谌罩镜木W絡安全審計系統的功能需求如下:
(1) 集中管理:審計系統通過提供一個統一的集中管理平臺,實現對日志、安全審計中心、日志數據庫的集中管理,包括對日包更新、備份和刪除等操作。
(2) 能采集各種操作系統的日志,防火墻系統日志,入侵檢測系統日志,網絡交換及路由設備的日志,各種服務和應用系統日志,并且具備處理多日志來源、多種不同格式日志的能力。
(3) 審計系統不僅要能對不同來源的日志進行識別、歸類和存儲,還應能自動將其收集到的各種日志轉換為統一的日志格式,以供系統調用。并且能以多種方式查詢網絡中的日志記錄信息,以報表的形式顯示。
(4) 能及時發現網絡存在的安全問題并通知管理員采取相應措施。系統必須從海量的數據信息中找出可疑或危險的日志信息,并及時以響鈴、E-mail或其他方式報警,通知管理員采取應對措施及修復漏洞。
(5) 審計系統的存在應盡可能少的占用網絡資源,不對網絡造成任何不良的影響。
(6) 具備一定的隱蔽性和自我保護能力。具有隱蔽性是說系統的存在應該合理“隱藏”起來,做到對于入侵者來說是透明而不易察覺系統的存在。
(7) 保證安全審計系統使用的各種數據源的安全性和有效性。若采用未經加密的明文進行數據傳輸,很容易被截獲、篡改和偽造,工作站與服務器之間的通訊應進行加密傳輸,可采用SSL、AES、3DES等加密方式。
(8) 具有友好的操作界面。
3 安全審計系統的模型概述
如圖1所示,基于日志的安全審計系統主要包含如下模塊:
(1) :負責收集各種日志數據,包括各種操作系統的日志,防火墻系統日志、入侵檢測系統日志、網絡交換及路由設備的日志、各種服務和應用系統日志等。定時或實時發送到審計中心。其間,日志數據的傳送采用加密方式進行發送,防止數據被截獲、篡改和偽造。
(2) 數據預處理模塊:將采集到的日志數據經過解密后按照數據來源存入相應的數據庫中。
(3) 系統管理模塊:負責對日志、安全審計中心、日志數據庫的集中管理,包括對日志數據的更新、備份和刪除等操作。
(4) 數據處理模塊:負責自動將收集到的各種日志轉換為統一的日志格式,并且從海量的數據中通過模式匹配,發現并找出可疑或危險的日志信息,交由“日志報警處理模塊”進行處理。
(5) 日志報警處理模塊:處理已發現的問題,以響鈴、E-mail或其他方式報警通知管理員采取應對措施。
(6) 數據庫模塊:負責接收、保存各種日志數據,包括策略庫也存放其中。
(7) 接口模塊:供用戶訪問、查詢。
4 安全審計系統中有用數據整合的方法
4.1 安全審計系統的數據源
安全審計系統可以利用的日志大致分為以下四類[2]:
4.1.1 操作系統日志
a) Windows系統日志。Windows NT/2K/XP的系統日志文件有應用程序日志、安全日志和系統日志等,日志默認位置在%systemroot%\system32\config目錄下。Windows是使用一種特殊的格式存放它的日志文件,這種格式的文件通常只可以通過事件查看器EVENT VIEWER讀取。
b) Linux/Unix系統日志。在Linux/Unix系統中,有三個主要的日志子系統:連接時間日志、進程統計日志和錯誤日志。錯誤日志――由syslogd(8)執行。各種系統守護進程、用戶程序和內核通過syslog向文件/var/log/messages報告值得注意的事件。
4.1.2 安全設備日志
安全設備日志主要是指防火墻,入侵檢測系統等網絡安全設備產生的日志。這部分日志格式沒有統一標準。目前,國內多數防火墻支持WELF(Web Trends Enhanced Log Format)的日志格式,而多數入侵檢測系統的日志兼容Snort產生日志格式。
4.1.3 網絡設備日志
網絡設備日志是指網絡中交換機、路由器等網絡設備產生的日志,這些設備日志通常遵循RFC3164(TheBSD syslog Protocol)規定的日志格式,可以通過syslogd實現方便的轉發和處理。一個典型的syslog記錄包括生成該記錄的進程名字、文本信息、設備和優先級范圍等。
4.1.4 應用系統日志
應用系統日志包含由各種應用程序記錄的事件。應用系統的程序開發員決定記錄哪一個事件。Web應用程序日志往往是系統管理員最關心的應用系統日志之一。
a) Apache日志。Apache日志記錄Apache服務器處理的所有請求和出錯信息,它支持兩種格式的日志:普通記錄格式(Common Log Format),組合記錄格式(Combined Log Format)。
b) IIS日志。IIS日志文件記錄了所有訪問IIS服務程序的信息,IIS日志文件一般位于如下路徑:%systemroot%\system32\LogFiles。IIS支持“W3C擴充日志文件格式”、“NCSA通用日志格式”和“ODBC數據庫日志格式”。
好的日志文章范文3
關鍵詞: Web日志; 序列模式挖掘; GSP算法
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2015)30-0217-02
隨著網絡服務的迅速發展,互聯網上已有龐大數量的網站,且還在不斷的建設,通過對網站服務器的操作和訪問進行專業而詳細的分析,可以了解網站的運行情況并能進一步發現網站所存在的缺陷,為促使網站更好的運營與發展提供可靠的技術支持與決策依據。為了能夠促使網站更好的運營與提供針對性與個性化的服務,必須要了解電子商務網站以及其所展示的各產品模塊的具體訪問情況,而這些信息只能通過獲取對Web服務器上網站的相關運行日志文件,并對其包含的數據信息進行統計與分析得到。
互聯網用戶具有多樣性的特點,全球大概有10億多個網站,網民數量接近30億,他們來自不同的民族,具有不同層次的經濟收入水平,具備不同的教育背景與不同的個人興趣,他們訪問的目的也均不同,但他們在瀏覽Web頁面過程中均留下了訪問信息。特別是像淘寶、京東等大型的電子商務網站,它們每天都有數億的在線交易額,而這些交易以及用戶的瀏覽(指沒有交易的用戶)都產生可謂海量的Web訪問日志數據。Web日志挖掘是Web大數據應用領域或者電子商務商業智能應用中的一個最為重要的內容。
本文以某電子商務網站的Web訪問日志為研究對象,利用SQL Server提供的SSIS服務和T-SQL語句進行數據預處理,得到序列數據庫,然后用java語言編程實現GSP(Generalized Sequential Patterns)算法對其進行序列模式的挖掘測試分析,通過對結果的分析可以為改善該網站的布局以及產品展示方式的調整提供參考。
1 基于Web日志的序列挖掘
Web日志序列挖掘一般分三個步驟,即數據預處理、挖掘算法處理以及模式分析。
數據預處理主要是對Web日志進行序列挖掘之前的對原始日志文件進行數據轉換、清洗等一系列的操作,最終形成可供序列模式挖掘算法所使用的規范化數據。其具體工作主要包含數據凈化、會話識別、用戶識別以及路徑補充等過程。數據凈化工作主要是對挖掘中不需要的相關數據進行刪除操作;會話識別主要是對每個用戶在某一段時間內的所有請求頁面進行分解從而得到用戶會話;用戶識別是將用戶和請求的頁面進行相關聯的過程,其中主要是處理多個用戶通過防火墻或服務器訪問站點的情況。在用戶識別的過程中,不僅需要服務器日志,還需要知道站點的拓撲結構;路徑補充過程就是將本地或服務器緩存所造成的遺留請求也補充完整。執行上面的操作后,就得到了序列模式挖掘算法所需要的輸入信息(用戶會話文件),該文件中包含訪問Web站點的用戶,用戶請求的頁面及請求發生的順序,每一頁瀏覽的時間等信息[1]。
挖掘算法處理主要是指在基于數據預處理的基礎上,通過實現某種序列算法得到挖掘結果,這些結果主要包括如每頁的訪問數,最頻繁的訪問的頁面,每頁的平均瀏覽時間等。序列模式算法主要有兩類:一類是類Apriori算法,以GSP算法為代表,這種算法基于一個事實:一個序列是頻繁的,它的所有子序列必然是頻繁的;另一種挖掘序列模式的思想是基于數據庫投影的序列模式生長技術的應用,如PrefixSpan算法。
模式分析是依據挖掘算法所得到的模式集合,再結合實際所感興趣的模式進行篩選和分析,然后采用可視化技術對這些模式作為挖掘的最終結果進行直觀和個性化的展示。
2 基于GSP算法的實現流程
序列模式挖掘一般分為五個步驟,這些步驟分別為排序階段、大項集階段、轉換階段、序列階段以及選最長序列階段。
GSP算法的主要流程如圖1所示:
1)序列數據庫進行掃描,得到長度為1的序列模式L1,作為初始的種子集。
2)根據長度為i的種子集Li通過連接操作和剪切操作生成長度為i+1的候選序列模式Ci+1;然后掃描序列數據庫,計算每個候選序列的支持數,產生長度為i+1的序列模式Li+1,并將Li+1作為新的種子集。
3)重復第二步,直到沒有新的序列模式或候選序列模式產生為止。
3 網站日志挖掘實例分析
本文采用ECML_PKDD 2005會議提供的公共點擊流數據,它收集了380多萬條電子商務網站的服務器日志記錄,每個日志文件包含的是一個小時所收集的記錄,每個文件包含的信息有時間、IP、會話標識、請求頁面和引用頁面等相關信息。日志記錄形式如下:
16;1074661208;212.209.160.2;09b611d2583514c458f 8946841f880a5;/ls/?id=139;http://shop6.cz/
其主要結構如表1所示。
本文通過取該站點上的一個服務器日志文件,共計353K字節,2978條記錄,為了減少算法的計算量以及提高數據挖掘結果的準確性,利用T-SQ語句和SQL Server的SSIS服務功能將原始數據文件進行數據轉換凈化、訪問的處理、用戶識別、會話識別、鏈接規范化、排序等數據預處理,然后得到序列數據庫,總共是179條記錄,107個序列。
通過java編寫的GSP算法對該電子商務網站的訪問日志進行數據挖掘測試,根據GSP算法,我們將最小支持度設為8,得到了該電子商務網站的頻繁訪問序列總共計9條,其序列模式挖掘的結果如圖2所示:
從運行的結果我們可以很容易看出,用戶對該網站的這9種產品相對比較感興趣,其中最感興趣的是該網站的Digital cameras產品。
4 結束語
本文利用SQL Server對某電子商務網站的日志進行了數據預處理并產生序列數據庫,并通過java編程實現GSP序列模式挖掘算法對其進行測試分析,通過對結果分析可以做出對該網站布局和內容(或產品)調整提供參考,使其更好為其用戶提供針對性的服務。
參考文獻:
[1]朱鶴祥.Web日志挖掘中數據預處理算法的研究[D].大連:大連交通大學,2009.
[2]汪莉棟. Web日志挖掘中數據預處理算法的研究及實現[D].貴陽:貴州大學,2008.
[3]趙暢,楊冬青,唐世渭.Web日志序列模式挖掘[J]. 計算機應用,2000,20(9):15-18.
[4]李林,崔志明.用戶Web日志序列模式挖掘研究[J]. 微機發展,2005,15(5): 119-121.
[5]朱琳玲,胡學鋼,穆斌.基于Web的數據挖掘研究綜述[J].電腦與信息技術,2002,20(6):45-48.
[6]王Z. Web使用記錄挖掘技術綜述[J].四川經濟管理學院學報,2008,20(1):49-50.
[7]王新,馬萬青,潘文林.基于Web日志的用戶訪問模式挖掘[J].計算機工程與應用,2006,21(9):156-158.
[8]劉沛騫,郭海儒,袁玲玲.Web日志挖掘中的用戶訪問模式識別[J].雁北師范學院學報,2006(2).
好的日志文章范文4
關鍵詞:消息中間件(MQ);隊列;隊列管理器;通道;錯誤日志
中圖分類號:P409 文獻標識碼:A 文章編號:1007-9599 (2012) 17-0000-02
1 WebSphere MQ的概述
消息中間件(MQ)是一種獨立的系統軟件或服務程序,分布式應用系統借助這種軟件在不同的技術之間共享資源,管理計算資源和網絡通訊。它在計算機系統中是一個關鍵軟件,它能實現應用的互連和互操作,能保證系統安全、可靠、高效的運行。消息中間件位于用戶應用和操作系統及網絡軟件之間,它為應用提供了公用的通信手段,并且獨立于網絡和操作系統。
消息中間件(MQ)適用于任何需要進行網絡通信的系統,是基于消息隊列的存儲轉發機制,負責建立網絡通信的通道,進行數據或文件發送。 MQ在不同平臺及不同語言編寫的系統之間傳遞消息,只需簡單的調用幾個MQ的API(應用程序接口),就可以實現互相通訊,并不需要考慮底層系統和網絡的復雜性。MQ作為IBM的一個拳頭產品,雖然功能看上去簡單,就是個消息隊列,但它卻是IBM中間件的核心。MQ不僅有很高的性能,而且對各種平臺的支持極優,幾乎你能想到的硬件和操作系統平臺以及編程語言,MQ都有專門的API支持。依靠這些優勢,MQ 在消息類中間件市場上占領了統治地位,已經成為事實上的行業標準,在各類應用中承擔了可靠的信息數據傳輸的基礎支撐。
2 WebSphere MQ的工作原理
MQ的工作原理如圖1所示:
2.1 本地通訊:應用程序A和應用程序B運行于同一系統A,它們之間可以借助消息隊列技術進行彼此的通訊:應用程序A向隊列1發送一條信息,而當應用程序B需要時就可以得到該信息。
2.2 遠程通訊:如果信息傳輸的目標改為在系統B上的應用程序C,這種變化不會對應用程序A產生影響,應用程序A向隊列2發送一條信息,系統A的MQ 發現隊列2所指向的目的隊列實際上位于系統B,它將信息放到本地的一個特殊隊列-傳輸隊列(Transmission Queue)。我們建立一條從系統A到系統B的消息通道,消息通道將從傳輸隊列中讀取消息,并傳遞這條信息到系統B,然后等待確認。只有MQ接到系統 B成功收到信息的確認之后,它才從傳輸隊列中真正將該信息刪除。如果通訊線路不通,或系統B不在運行,信息會留在傳輸隊列中,直到被成功地傳送到目的地。 這是MQ最基本而最重要的技術--確保信息傳輸,并且是一次且僅一次(once-and-only-once)的傳遞。
3 MQ在民航氣象數據庫中的應用
3.1 MQ在民航氣象數據庫系統中的總體架構
如圖2所示氣象數據庫系統是一套分級式的數據交換網絡,通過ATM高速交換網實現了氣象數據共享。以北京為主中心、地區中心為分中心構成了核心的數據交換網絡。在進行數據交換時MQ起到了橋梁的作用,各航站只能與所屬地區中心進行數據交換,各地區分中心與北京主中心進行進一步的數據交換。
3.2 MQ在航站級民航氣象數據庫系統中的架構
下面以本航站(ZYTL)為例,對MQ在民航氣象數據庫系統中的應用進行介紹。
(1)以圖3的數據流程來對民航氣象數據庫系統中航站與中心之間MQ的通訊原則進行說明:
①每個分中心所管理的航站通信分系統通過網絡方式將本航站生成的數據資料(包括報文和產品)傳送到分中心的交換服務器通信系統,交換服務器通信系統將這些數據(除了請求報)全部上傳到二期主業務通信分系統;②每個分中心二期主業務通信分系統將收到的所有數據分別傳送到本分中心的所有數據庫系統(包括交換服務器上的數據庫系統);③每個分中心二期主業務通信分系統收到數據后,根據用戶的指定,將需要分發的數據發送到交換服務器通信系統;④交換服務器通信系統收到二期主業務通信系統發來的數據,根據用戶事先的指定進行分發;⑤交換服務器通信系統收到請求報,將檢索交換服務器上的數據庫系統進行應答。
(2)由圖3可知MQ在航站與中心通訊過程中數據流有三個單向、二個雙向。
單向: 預報平臺 雙向:(即發又收) 航站通信服務器
航站通信服務器 DB00 中心交換服務器
DB01 中心二期主業務
4 MQ常見故障分析與處理
任何一種軟件都會存在一定的系統管理工作,MQ當然也不例外,下面我就對日常維護工作中常見的故障進行分析闡述。其實MQ為我們提供了豐富的故障分析手段,MQ錯誤日志即是一種簡單易行、快速有效的手段,另外MQ還提供了其它方式方法,如:MQ的系統管理命令、MQ的TRACE、FFST等途徑,都是用來對錯誤信息進行追蹤和記錄,從而幫助解決問題。
4.1 錯誤日志分析
當MQ運行過程中出現問題時,第一個應該采取的行動便是查看MQ的錯誤日志。MQ在各種層次上,為用戶提供了豐富的日志文件,這些日志文件包含了所有被啟動的隊列管理器、有關對MQ的隊列管理器操作、以及被啟動的通道的相關信息,當隊列管理器和通道等運行時,有關信息包括出現異常情況時的信息都將在日志文件中有所體現。
日志文件:當系統建立了隊列管理器以后,該隊列管理器所需的日志文件隨之即在/var/mqm/qmgr/QmgrName/errors子目錄下會產生三個日志文件:
AMQERR01.LOG、AMQERR02.LOG、AMQERR03.LOG。它們是以循環方式存儲錯誤消息,因此,最新的錯誤信息總是存儲在AMQERR01.LOG中,歷史信息存儲AMQERR02.LOG 和 AMQERR03.LOG中。我們應該按照該順序查看錯誤信息,并從該文件中獲取信息,根據它的提示采取相應的措施。
4.2 常見故障分析
如果查看錯誤日志經初步分析無法解決問題,則必須更近一步的查找原因,應對如下問題進行深入分析。
MQSeries的通道是MQ的重要組成部分,是MQ的難點和精華,它運行正常與否對MQ系統的正常運行起著致關重要的作用,并且在MQ的網絡環境中,相當數量的異常問題與通道有關,因此,相比而言,對MQ通道的維護工作是MQ系統管理員系統管理工作的重點。
通道狀態異常時應采取的措施:
(1)查看網絡連接是否暢通MQ的通訊是建立在系統網絡運行正常的基礎之上的,當通道不通時,要首先檢查網絡連接是否正常??梢允褂貌僮飨到yping命令,也可以采用ftp方式,在兩個主機之間嘗試進行數據傳輸,以判斷網絡是否正常。(2)查看通道定義是否正確。通道所使用的傳輸隊列定義是否正確,通道兩端的定義是否匹配,如兩條通道最大傳輸的消息長度,Message sequence number wrap是否一致。若不一致,要重新定義通道,可使用腳本命令DEFINE CHANNEL。(3)查看通道的狀態。用以下命令來判斷通道狀態:dis chstatus(ChannelName)或dis chs(ChannelName) 其中,ChannelName代表通道的名稱。(4)查看通道的當前消息序列號。用dis chstatus(ChannelName)或dis chs(ChannelName)查看通道的當前一些屬性值,在通道的屬性值中,current sequence number代表通道當前的消息序列號值,若消息序列號不一致,則可用MQSC命令RESET CHANNEL命令來將消息序列號重新置1。
5 結束語
過通實踐驗證在民航氣象數據庫系統中引用MQ技術,極大優化了系統的架構。系統在數據交換過程中選擇基于隊列等候的MQ 通信方式極大增強了信息的實時性,信息通過隊列可以瞬時完成檢索和發送;同時安全可靠性方面也很到了極大的保障,MQ 通訊不存在忽略或丟失信息的危險,只有證實信息已經從隊列中取出并到達接收端之后,信息才會從發送系統中刪除。一旦信息放到MQ Series 手中,那么交付任務便可保證絕對成功。如果通信過程發生中斷,信息仍會安全存放在隊列中,一旦連接恢復,信息便一次發送過去,對業務的集成不會產生任何影響;日常維護方面MQ日志文件提供較為全面的信息,使機務人員對系統的日常維護和排故工作更加容易開展。MQ所特具的這些先進性、安全性、可管理性和易于維護開發等優勢,使民航氣象數據庫系統的運行效率得到了極大的提升。
參考文獻:
好的日志文章范文5
關鍵詞:Web挖掘;日志挖掘;數據預處理
中圖分類號:TP393 文獻標識碼:A 文章編號:1007—9599 (2012) 14—0000—02
一、引言
隨著信息技術的飛速發展,Web已經成為是信息獲取、及共享的重要途徑,Web上的各類信息越來越齊全、越快速的增長。面對日益膨脹的各類資訊,將數據挖掘技術應用對Web頁面的各類內容、結構以及用戶訪問信息進行有效信息提取,更好的服務于Web事業發展,已經成為眾多研究者的熱門研究方向。
Web挖掘(Web Mining)是指通過對Web資源進行分析和研究,從中發現隱含未知的、有價值的規律和知識的過程。根據Web挖掘的對象和內容的不同,Web挖掘可以分為Web日志挖掘(Web log mining)、Web內容挖掘(Web content mining)和Web結構挖掘(Web structure mining)。其中,Web日志挖掘是指通過挖掘Web日志來發現用戶的訪問行為及模式,可以實現用戶聚類、頁面聚類和發現頻繁訪問路徑,進而改善網站結構設計和為用戶提供個性化服務,已成為眾多研究人員關注的焦點。
二、Web日志挖掘技術概述
(一)Web日志挖掘基本概念
Web日志挖掘是We挖掘技術中的一種,是指通過對Web日志記錄進行挖掘分析,對用戶訪問Web頁面的模式進行分析和總結,得到用戶進行Web訪問中隱含的規律或信息,并借助于這類信息來改進Web站點的性能和組織結構,提高用戶查找信息的效率和質量,并通過統計和關聯的分析找出特定用戶與特定地域、特定頁面、特定時間等要素之間的內在聯系。這在電子商務等領域有著非常重要的作用。用戶使用Web獲取信息的過程中需要不停地從一個Web站點通過超文本鏈接跳轉到另一個站點,這種過程存在一定的普遍性,發現此規律即是Web用戶訪問信息發現。Web日志挖掘是關于用戶行為及潛在顧客信息的發現,一般可以分為以下三個階段,數據預處理(Pre processing)、模式發現(Pattern Discovering)、模式分析(Pattern Analyzing),其體系結構如圖:
(二)數據預處理
數據預處理是指對為了將數據變成適合挖掘的數據格式,將原始日志文件進行篩選、過濾和重組后,并保存到數據庫中,以便不同類型的數據挖掘的進行操作。在Web日志挖掘中,數據挖掘預處理主要包含數據凈化、會話識別、路徑補充、用戶識別以及事物識別等。對Web的數據預處理會直接影響到挖掘算法的模式和結果,是保證Web日志挖掘有一個高質量結果的關鍵。
1.數據凈化
數據凈化是指將Web服務器中的日志中的無效數據進行刪除,消除日志數據中的冗余量,減少所需處理數據的總量。一般情況下,與用戶會話的日志信息中只有HTML文件,因此,可以建立一個后綴名表列,可以幫助刪除經過檢查后無關的URI資源。經過數據凈化后,可以減輕數據的大小,縮小數據預處理的容量,使得數據十分集中。
2.會話識別
會話識別是指將訪問記錄進行分解,分解為單個的會話。用戶的一次會話是某用戶對某個Web站點的一次訪問過程中所引用到的全部頁面。由于用戶的訪問是隨機的,因此用戶何時會離開一個站點是無法預知的。最簡單且最有效的判斷用戶是否已經離開該網站的方法是利用最大的超時來進行判斷。如若兩個頁面的請求時間超過了預設的門限,就認為一個會話已經結束,并且已經開始了一個新的會話。
3.路徑補充
路徑補充是指在用戶的會話文件中將遺漏的請求信息補充進來,也可以根據網絡拓撲結構和引用日志提供的信息把路徑補充完整。檢查Web日志中是否由于Cache而導致重要的頁面訪問記錄丟失。
4.用戶識別
用戶的有效識別是一件非常復雜的事情,這主要是服務器、防火墻或本地緩存所造成的。常用的方法為基于日志的方法,并結合一些啟發性的識別規則。例如:如果IP地址相同,但是信息變了(信息,在IIS5.0環境下的W3C擴展日志文件格式的cs(User—Agent)字段),表明用戶可能是在某個防火墻后面的內網的不同用戶,則可以標記為不同的用戶;還可以將訪問信息,引用信息(cs(Referer)字段)和站點拓撲機構結合,構造出用戶的瀏覽路徑,如果當前請求的頁面同用戶已瀏覽的頁面沒有鏈接關系,則認為存在IP地址相同的多個用戶。然而,使用這些規則并不可以保證一定可以準確識別用戶,用戶識別是個難題。
5.事務識別
事物識別是對用戶會話進行語義分組,即針對用戶會話的數據挖掘活動進行特定的事件定義。在Web日志挖掘領域中,對關聯挖掘任務的粒度太粗,因此要采用特定的算法,將會話分割成更小的事物。經過分割后變成頁面序列,再進行事物識別,可以得到諸多有意義的信息,及用戶會話中的網頁瀏覽路徑。
(三)模式發現階段
模式發現階段是指為了得到數據背后隱含的規律和模式,使用各種挖掘算法的過程,如機器學習、統計分析、模式識別等其他學科領域中已開發出來的方法和算法。當然,要將這些算法和Web日志挖掘的特性結合起來,目前已經得到廣泛應用的算法有序列模式、統計分析、關聯規則和聚類分析等技術。
好的日志文章范文6
關鍵詞:電子商務;Web挖掘;客戶行為
中圖分類號:F224-39
文獻標識碼:A
文章編號:167Z-3198(2009)08-0237-02
1 電子商務中客戶的重要性
營銷學上有個著名的公式;100-1=0,即一個企業即使有100個客戶對其感到很滿意,但是只要有一個客戶對持否定態度,企業的盛名就可能立即化為0,盡管這個觀點有點夸大其實,但是至少它說明了一個問題,即:客戶滿意的重要性。
市場經濟體制下,公司的目標就是為企業持股者爭取利潤的最大化,而公司的利潤從何而來――客戶。換句話說,為客戶服務能創造長期的利益,而長期的利益又能夠滿足持股者的目的需求。雖然,使客戶滿意需要花更多的錢,同時也需要更長的周期,但是長周期加上大量的資金意味著企業更多的利益。所以,客戶對企業的重要性是越來越突出。即使在電子商務領域這個遵循市場經濟體制的網上交易體系。這一重要性也是同樣符合的。
如今Google、Amazon、Yahoo、MSN等一些Web公司都要求員工運用Web挖掘技術來了解客戶行為,并根據挖掘出的信息數據及模式設計更加符合客戶需求的服務和產品。也就是說利用Web挖掘可以了解客戶行為,其分析的數據結果可提供給企業參考,做出合適的調整策略。
2 客戶行為的Web挖掘
2.1 挖掘數據來源
在挖掘過程中,關鍵性步驟是提供合適的挖掘對象。在電子商務中,客戶行為挖掘的數據源,主要有以下幾種:
(1)服務器日志文件。
Web服務器日志文件記錄了客戶每次登錄瀏覽網站的行為信息,包括了IP地址、時間、頁面等,是Web挖掘的主要數據源。
(2)Cookies日志文件。
Cookies是服務器為自動跟蹤網站瀏覽者而在客戶端生成的標志,用于存儲類似于購物手推車狀態信息或者瀏覽者所訪問的電子商務網站的頁面信息或交易信息等。
(3)客戶信息。
客戶信息指客戶通過Web頁在屏幕上輸入的、要提交給服務器的相關信息。在電子商業網站須進行信用授權才能進行交易,因此客戶大量的個人資料會傳到網站上。對這些信息組織序化后,存儲到數據倉庫中可作為長期分析客戶消費趨勢的來源。
2.2 挖掘過程
對客戶行為的Web挖掘并不是雜亂無序的,一般其過程可分為三個階段:
(1)數據的預處理;
預處理主要對用戶訪問日志(包含用戶的訪問日志、引用日志和日志)進行過濾、反蜘蛛化、客戶驗證、會話和路徑補全等處理,形成用戶會話文件。
①過濾:收集完數據后,首要的步驟便是過濾出不想要的記錄,為分析做準備。
②反蜘蛛化:所謂蜘蛛,就是搜索引擎對萬維網的掃描建立索引的半自動化程序。蜘蛛的行為與人的行為不同(要比客戶的全面),在數據處理中要把蜘蛛的行為和客戶的行為區分開來,并過濾掉蜘蛛行為在服務器上的記錄。
③客戶驗證:在會話之前必須識別客戶,一是識別出同一客戶在一次瀏覽中為建立會話而發出的頁面請求,另一目的是識別在多次站點瀏覽的同一客戶,使我們能夠分析客戶在數天,數月或是數年中的行為。
④會話;會話指客戶在一次訪問中訪問的所有Web頁面,通過這些可以反映出訪問者對網站什么地方有興趣或關心。
⑤路徑補全;客戶在瀏覽網時可能出現頁面后退現象,導致路徑損失,所以需要根據客戶訪問前后頁面進行推理,補全訪問路徑。
(2)模式發現:
模式發現是對數據預處理所形成的用戶會話文件,利用數據挖掘的一些有效算法,例如統計分析、關聯規則、聚類、分類等。來發現隱藏的模式、規則。
①統計分析:統計方法是從電子商務網站中抽取知識的最常用的方法??梢愿鶕x擇的特征來分析網頁此特征的點擊次數,根據獲得的數據結果來調整網站。
②關聯規則:根據關聯規則,可以從客戶訪問網站的行為中找出相關性。利用這些相關性,可以改進電子商務網站的結構,例如哪些產品可以擺在一起或捆綁銷售。
③聚類和分類:聚類規則是從一組數據項中聚集出相似特征的一個聚類,可分為用戶聚類和網頁聚類。而分類規則是找出描述并區分數據類或概念的模型,并使用模型預測類標記未知的對象類。
(3)模式分析:
在這個階段,主要是對挖掘出來的模式、規則進行分析,找出用戶感興趣的模式,并輔助理解。最常見的模式分析方法是采用sQL查詢語句進行分析。另一種分析方法是先將數據導入并提供可視化的結果輸出。
3 Web挖掘的應用
網絡個性化服務是目前電子商務商業運作和發展的新方向,它根據用戶興趣、愛好、習慣,以及各個用戶之間的相關性等向用戶在線推薦商品,提供瀏覽建議,通過不定期調整網站的結構方便用戶訪問。動態地為用戶定制個性化的網站等。
如今,許多商家一直在尋求識別有利可圖的市場分割和追蹤網絡使用者的行為習慣,其目的是提醒用戶他們可能感興趣的產品的實用性。這就出現了像亞馬遜網站那樣的一種新模式,根據某一特殊用戶可能感興趣的問題提出所需信息。對于被特征化的用戶,運用一些客戶分類、挖掘技術,讓他們了解所感興趣產品的預報。
網絡個性化服務的本質就是以客戶為中心提供Web服務。首先,客戶瀏覽訪問電子商務網站的資源;其次,系統分析客戶行為特性,創建訪問模型;最后,根據所獲取的信息知識調整服務,系統進行推薦來滿足不同用戶的個性化需求。通過客戶與系統不斷的交互,最終為客戶提供個性化服務。
4 Web挖掘面臨的問題
Web挖掘給電子商務帶來新機遇的同時,也帶來潛在的問題――隱私安全問題。網絡的特點使得我們在網站上留下的信息幾乎都可以被全世界獲得。事實上,對用戶數據的采集和挖掘,有些時候利用了用戶的注冊信息和登記信息,這包括客戶姓名、性別、地址、出生年月、電話號碼、購物習慣、收入、信用卡號碼、電子郵件及經常訪問的Web站點地址等私人信息。如果這些信息的利用未得到客戶的允許,則會涉及到隱私權問題并產生糾紛。
如何對客戶隱私進行保護,我們可以從三個方面著手:第一,立法進行強制性規范;第二,對涉及隱私的網上數據采取技術防范;第三,行業自律,不隨意泄露客戶信息,禁止買賣數據等。