前言:中文期刊網精心挑選了金橘樹范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
金橘樹范文1
大數據服務
我們可以干點兒啥
國家信息中心常務副主任杜平表示,如今在某些應用領域,信息尚未完全流動起來,這給大數據產業以及服務提供了發展空間。目前,大數據已經不單單是概念,應該通過服務表現。而京津冀大數據產業聯合發展,將成為促進大數據產業以及服務進行跨部門、跨區域部署發展的催化劑。
目前,大數據服務如果從第三方的角度來看,大致可以分為兩種類型,一種是平臺商,另一種是服務商。無論是硬件還是軟件,可能人們更關注直接提供服務的這部分市場,特別是聚焦到第三方服務的小市場。
大數據服務在篩選服務對象的過程中,往往遵循這樣的規律:作為企業,首先要具備信息化和標準化的平臺、數據庫,另外涉及這樣的服務需求。實際上對于大數據服務,本身的差異性可以從數據采集的方式,分析方法,從結構化的計算到非結構化等方面表現出來。例如大家經常用的滴滴,每天數據處理量是70TB,甚至現在可以基于滴滴的數據了解到整個城市交通情況的數據?,F在有很多企業通過購物偏好推接購買產品,更多通過對其行為屬性、行為習慣等方面打標簽,甚至從價值觀角度進行判斷。例如一個人如果常年喝依云,購買農夫山泉的可能性有多大?可以根據這樣的屬性推導相應的營銷現場,進而判斷用戶購買路徑、會員服務或購買建議等。所以對于第三方服務來說,基于不同階段的企業會有不同的服務方式。
慧辰資訊TMT互聯網研究部總經理劉贊對《中國信息化周報》記者表示:“大數據服務會有四種趨勢,針對服務的企業對象其信息化基礎不同,服務的三個階段肯定是并存的。從三個階段發展方向來講,第一階段是滿足基礎的信息化需求,下一步是整合內外部數據,第三階段是通過數據為導向的應用要求,未來數據會成為企業的生命線并作為服務基礎?!睆臄祿旧韥碇v,有數據才有大數據服務。如今一些互聯網巨頭,例如谷歌和百度,都把自己資源平臺開放出來,但并不是所有的企業都需要進行私有云的部署。尤其是數據量龐大之后,肯定是會有這樣的公共計算資源平臺。
“實際上現階段不是所有企業都有大數據,但不可否認的是已經有很多企業,例如快銷品行業或手機終端企業,會結合自己本身企業的數據,去做大小數據的結合,這其中包括互聯網數據、環境監測數據等,還有一些企業內部戰略的數據。所謂的大小數據,大數據包括互聯網相關的產品評論數據和用戶參加活動的數據等,小數據是包括企業內部的CRM數據等。如果采用傳統方法,這些數據是很難結合在一起的。如今采用大數據的計算模型就會簡單很多,這或許可以給京津冀大數據企業發展帶來一些啟發?!眲①澭a充道。
為生活洞見數據的美好
2013年,廣州市政府審批一個大項目需要700個工作日,開發了政務數據整合系統,將數據進行打通后,審計進程從700多天減少到27天。這對政府來說是很好地利用大數據整合連接并提高效率,對企業來說也很受鼓舞。
不單單是廣州,京津冀大數據產業的蓬勃發展同樣離不開企業的參與。眾所周知,浪潮是國內硬件產品的代表企業之一,自從進入大數據時代,尤其“互聯網+大數據”熱潮瀕臨之際對許多傳統產業沖擊的同時,浪潮也在不斷思索如何改變自己適應時展的要求,利用大數據方面的知識積累嘗試一些突破,例如搭建創客平臺,幫助廣大中小微企業創業者獲取大數據資源和工具平臺,助力包括京津冀在內的地方政府實現大眾創業、萬眾創新發展。例如,美國將政府的數據做了很好的整合,在谷歌導航中將門牌號、地址全部標準化,基于這種思考,浪潮進行了“卓數平臺”的開發,收集來自互聯網和政府開放數據,通過數據服務、API工具對創客或開發者提供數據服務,延展了“數據開發服務”的思路。“如今隨著大眾創業、萬眾創新的風靡,我們把與數據相關聯的創業人員分兩類,一類是創客,即應用數據的人,另一類是生產數據的人,一起加工處理數據。其中浪潮提供一個治理平臺,涉及到基礎設施、服務器、數據處理工具、數據的挖掘分析工具等,到現在為止有小小進展?!崩顺痹品占瘓F有限公司數據服務事業部總經理徐宏偉對《中國信息化周報》記者說。
在濟南,一家公司利用浪潮的平臺生成了鋼鐵、水泥等數據,做數據服務。開放了一個DP為一千多家建筑公司、兩千多家造價師提供服務,有這樣一個及時并實時提供數據的APP,造價師可以精確地在每一次進行采購時,優化采購的庫存調整。在焦作,浪潮把數據采集提供給河南大學的學生們,他們把當地特產鐵棍山藥的數據做了收集,形成鐵棍山藥產業數據庫。如今政府利用數據庫分析依據,向鐵棍山藥批發、運輸、加工企業提供數據。可以說浪潮將大數據服務的方方面面運用得恰到好處,時刻洞悉數據見證生活美好的道理,為京津冀大數據企業發展做出了榜樣。
大數據
發展正從滲透走向落地
總結大數據產業未來發展的重點方向,首先還需要國家以及政府的指導,這對京津冀大數據發展至關重要,需要充分發揮政府引導作用,努力創新拓展大數據發展領域、內容以及模式。
金橘樹范文2
年歲末,一份懷胎十月、即將分娩的《有色金屬工業“十二五”規劃》,引發了業界高度關注。
根據該規劃,國家將對鎢、鉬、錫、銻、稀土等戰略性小金屬的發展做出專項規劃,并提出“建立完整的國家儲備體系”。
有關“收儲小金屬”的傳言,已有多次,每每帶動小金屬價格一輪接一輪飆升。比如,2011年5月,國務院下發《關于促進稀土行業持續健康發展的若干意見》,明確提出建立稀土戰略儲備,之后兩個月稀土礦產價格上漲超過500%;其他非稀土小金屬也紛紛發力上揚,鎢精礦、甚至用量極有限的精銦價格,均上漲了兩倍多。
2011年后半年,小金屬價格新一漲后,收儲政策卻遲遲不見蹤影。失去政策支撐的市場初現塌陷:一個月間,碳酸稀土價格下跌50%左右,氧化鐠釹下跌約30%,鎢精礦下跌20%,精銦價格下跌30%……
此次,傳說已久的收儲政策是否能夠真的出臺?
小金屬豆腐價
2011年11月26日,商務部公布了2012年第一批有色金屬出口配額,鎢、銻、銦、錫、鉬等5種戰略性小金屬和貴金屬白銀出口配額共計6.28萬噸,與2011年的6.42萬噸相比,略有降低。
這正切合了此前的一個業界傳說:商務部正在調整稀有金屬出口政策,預計其出口配額將以2%至3%的幅度逐年遞減。
按有色金屬使用范圍和產量分類,可統分為基本金屬、貴金屬和小金屬三類?;窘饘偌此^大金屬,主要包括銅、鋁、鉛、鋅等儲量、產量和使用量都較大的品種;貴金屬主要指金、銀、鉑等;而小金屬,一般指除基本金屬和貴金屬之外的有色金屬。其中,鎢、鉬、錫、銻、銦、鍺、鎵、鈮、鉭、鋯,是涉及“十二五”國家戰略儲備的10種小金屬;我國重點保護的稀土類金屬,亦屬小金屬。
從此次配額情況看來,不僅總量微幅下降,其中初級原料的配額量更是大幅收縮。譬如,2012年鎢酸及鹽類的第一批出口配額下降了67.27%,氧化鎢配額也下降了13.24%,但鎢粉及其制品配額卻大幅提升了71.67%。
這清楚表明了我國對稀有小金屬的出口態度:提升產品附加值,不再以簡單、初級產品的出口國面目出現。
這并不足為奇:國家統計局公布的10種有色金屬產量,小金屬產量占比雖不足5%,但卻是現代工業和戰略新興產業不可或缺的礦產。
長期以來,我國對小金屬用途的研發有限,鎢、鉬、錫、銻、銦、鍺等戰略資源一直只是出口創匯的工具。上世紀90年代,國家下放采礦權,各地出于對礦產利益的追逐,各種小金屬和煤礦一樣,都陷入了一哄而上、各自為戰、有水快流的亂局。
“金子賣了豆腐價”。小金屬礦產市場需求量本來不大,嚴重供應過剩更是帶來了競相壓價的惡性競爭,最終導致我國本該掌握的國際市場價格話語權徹底喪失。
比如錫,因為儲量有限,曾與鎢、銻、稀土并稱為中國“四大戰略資源”。在上世紀90年代,錫作為中國優勢礦產,產量一度占到全球1/3;但因大量出口,以及全球電子產業向中國轉移,2005年后中國竟成錫短缺大國,反而大量進口。
再如制作硬質合金必不可少、被譽為“工業牙齒”的鎢。“中國正以65%的儲量,支持著世界85%以上的鎢資源供給,我國鎢資源優勢快速弱化已是不爭的事實”,中國國土資源經濟研究院研究員陳甲斌告訴《財經國家周刊》記者,“目前,我國鎢精礦產量接近10萬噸,而國內消耗不足3萬噸;全球稀缺的鎢礦,我們卻以氧化鎢、鎢酸鹽、鎢釬桿、粗鎢絲等初級產品形式,大量出口到國外”。
依照目前開采進度,我國鎢資源僅能維持不到25年;而俄羅斯與加拿大的靜態儲采比分別達到100年和400年。
“從某種程度上說,中國的一些優勢小金屬,又是‘下一個稀土’,面臨著行業混亂和開采失控的危機局面”,全國礦業聯合會產業發展部總工程師吳榮慶對《財經國家周刊》記者表示。
“國儲”謀局
據工信部原材料工業司司長陳燕海向《財經國家周刊》記者介紹,中國的鎢、銦和稀土等稀有小金屬儲量居全球第一,產量占全球80%以上,鉬、鍺等稀有金屬儲量和產量也居全球前列;但由于國內市場的惡性競爭和低位價格戰,使得中國稀有金屬資源浪費嚴重。
必須迅速建立稀有金屬戰略儲備制度,提升中國在稀有金屬上的貿易定價權和話語權――這幾乎成為所有業界人士的一致呼聲。
《財經國家周刊》記者了解到,即將出臺的《有色金屬工業“十二五”規劃》提出的“完整的國家儲備體系”,包括企業儲備、國家戰略實物儲備和礦產資源地儲備三種。
企業儲備也包含在國家儲備體系中,“這意味著,一些生產比較集中的小金屬,如果企業儲備能夠達到控制產量、穩定價格的目的,國家財政就不會做過多投入”,業界人士如此分析;
業界人士告訴《財經國家周刊》記者,對那些產量較小、戰略地位突出的礦產,如南方重稀土,或者主要依賴進口的礦產,如鈮、鉭、鋯等,可能會更早實施國家實物儲備;對于一些伴生礦,如銦、鍺、鎵等涉及我國下一步新技術轉型,且目前下游開發不足,又受主體礦產影響、市場波動較大的礦產,也會優先考慮國家實物儲備;
而對于產量較大、超采嚴重的品種,如北方輕稀土、鎢、鉬、銻等礦產,將會實施礦產資源地保護政策。
“十二五”期間,我國將在首先滿足國內需求的基礎上,實施礦產資源總量控制,并形成幾個大型綜合礦業集團,結束礦產資源小散亂的生產局面,基本達到礦上生產與資源儲量相匹配的狀態”,吳榮慶對《財經國家周刊》記者表示,“至于礦產價格將由市場自己決定”。
事實上,對于稀有金屬的收儲期待,由來已久。
在《國土資源“十一五”規劃綱要》中,曾經明確提出建立礦產資源儲備機制,并推進重要礦產資源戰略領略,啟動鐵、銅、鋁、錳、鉻、鉀鹽等非能源短缺性礦產和稀土、鎢等優勢礦產的礦產品戰略儲備,逐步推進探明礦產地的戰略儲備。
再往前追溯到上世紀八十年代中期,由于鎢產品供過于求,諸多國有鎢企生存艱難,國家也一度對鎢砂進行了收儲。
“小金屬國儲政策何時出臺我不知道。但是,建立小金屬國家戰略儲備、建立礦產儲備資源基地和采礦權清理整頓的工作正在進行。只是國內外對此過于敏感,我們要悄悄進行”,國土資源部儲備司副司長許大純在接受《財經國家周刊》記者采訪時表示。
許大純認為,小金屬資源保護,其意圖就是要提高礦產資源綜合利用能力、環保能力、后續深加工能力,實施產業升級,對不能達標的企業實施淘汰。
前車之鑒
事實上,在國家層面的收儲尚未出臺之前,地方政府早已經開始了小金屬的收儲嘗試,其中,以包頭和贛州最具代表性。
2008年,全球金融危機導致國際有色金屬行情下滑,出口滯銷,一些以小金屬為支柱產業的地方政府難以承受,于是展開收儲。
2008年12月,內蒙古組建了包鋼稀土國際貿易有限公司,開始對包頭生產的稀土產品進行儲備的初步嘗試;
2009年1月,江西贛州市政府決定收儲18億元的鎢和稀土產品,以支持當地鎢和稀土產業;
2010年2月,內蒙古人民政府批準包鋼稀土國際貿易有限公司實施包頭稀土原料產品戰略儲備方案。其方案是,儲備資金主要由企業自行承擔,自治區、包頭市、包鋼集團共同給予貼息支持,自治區貼息1000萬元,包頭市貼息1000萬元,其余由包鋼集團貼息。
2011年5月,小金屬重要組成部分的稀土,又開始新一輪行業整頓:大量從事開采、選礦、冶煉的民營小企業紛紛被關停或被兼并重組,包鋼稀土(600111.SH)獲得了對包頭稀土礦產的統購、統銷大權;在南方,以五礦、中鋁等央企為核心的稀土礦產整合也初具規模。
與之伴生的,是稀土價格的一路飛漲。2011年5~7月,3個月間稀土價格上漲超過1倍。
不料,2011年8月,稀土開始上演暴跌行情。一個月間,碳酸稀土價格下跌50%左右,氧化鐠釹價格下跌約30%。2011年9月19日,包鋼稀土以90萬元/噸的價格開始收儲回購,價格才得以穩定。
“市場如此動蕩,企業生產幾乎無法進行,所以只能選擇停產、惜售,經濟發展從何談起?”一位稀土永磁材料生產企業的負責人對《財經國家周刊》記者表示。
“先要搞清小金屬價格暴漲暴跌的實質?!比珖V業聯合會總工程師吳榮慶表示。
《財經國家周刊》記者有幸獲得了一份由工信部委托調研的資料。資料顯示,目前國家對于北方輕稀土主產地包頭的年規劃產量只有4萬多噸,而實際調研產量卻達到了9萬多噸;南方重稀土失控更為嚴重,僅廣東河源等地,碳酸稀土規劃產量只有2000噸/年,而實際產量卻達到了3.5萬噸,超產近20倍。
“每一噸的超采都是非法生產。一個將價格建立在違法生產基礎上的產業,勢必在政策的風吹草動前顯得驚恐不安。一旦政府按照規劃產量實施礦產封存儲備,那么,整個依托于非法生產支撐的小金屬市場必然坍塌。”吳榮慶說。
《財經國家周刊》記者了解到,我國的非稀土類小金屬,如鎢、鉬、銻等,都存在著嚴重的非法生產、銷售問題。
以鎢為例,2009年鎢精礦的總量規劃指標只有6.81萬噸,而實際產量卻達到9.91萬噸,超采45.5%;并且,各類加工企業利用國家出口政策漏洞大肆變相出口鎢資源。
金橘樹范文3
正如ESG的創始人兼首席分析師Steve Duplessie所言,數據增長雖然是自然產生的,但是大部分數據都是由于科學研究產生的。如數據擴展、副本、副本的副本、備份副本的副本等等,就像細胞的裂變一樣,并且是無休止的。姑且不論數據的持續增長帶來的是好事,還是壞事,但是很明確的一點就是,企業對于這些數據的依賴度越來越大,這些數據甚至可以影響到企業的生存。面對這樣龐大和重要的數據,企業IT主管不得不開始考慮如何有效、經濟地進行數據存儲和保護,來確保這些數據的完整性和安全性。ESG曾對企業面臨的數據保護難題進行過調查訪問,雖然困擾終端用戶的數據保護難題不僅普遍還五花八門,但是位居首位的難題卻是如何減少備份次數、降低存儲系統成本、跟上被保護數據容量的步伐以及減少恢復次數。
根據企業規模和復雜程度,數據保護進程可分很多種,主要包括從特定的手動干預到高度復雜化的自動連續進程等。顯然,越來越多的企業將磁盤和磁帶存儲系統(本地和異地)視為數據保護架構的一部分來部署,作為一種新的廣域/遠程備份技術和第三方服務。在圖1中,ESG調查的企業被分類顯示,來反映當前市場動態的高級類別。
ESG調查的企業中,大多數(55%)表示,數據最初是備份到本地存儲站點,然后通過移動介質發(如磁帶)送至遠程存儲站點以便長期保存。其中的一部分企業完全依賴本地存儲,并且不將數據轉移至遠程站點進行長期保存。與大型企業(15%)相比,更多中小企業(24%)采取這種危險系數頗高的做法。從這點來看,大型企業(21%)比中小型企業(13%)更有可能將復制并人二級站點作為整個數據保護戰略的一部分,并且更有可能通過廣域網將數據直接備份至二級企業站點。最后,在ESG的抽樣調查中,僅有1%的大型企業目前還依賴第三方提供的備份服務,并將其作為管理備份和恢復進程的主要手段,而中小型企業當中結果幾乎沒有采取這種策略的。
低成本的數據保護技術
正如我們所見,當今的企業困擾的眾多的數據保護難題都導致企業數據有遭受潛在損失的風險。因此,這就促使企業開始尋求更多樣更先進的技術來切實進行數據保護。然而,在當前的經濟形勢下,出于整體運營以及宏觀經濟的考慮,很多企業都開始緊縮IT預算。因此,企業更青睞那些能夠在企業的IT預算內優化企業現有存儲資源的數據保護技術,這些技術能夠提高存儲效率,降低成本,將更少的數據備份至磁盤,恢復速度更快,并且對企業的業務拓展也能夠提供助力。這些技術包括:
容量削減技術:如重復數據刪除的使用,通過削減備份至磁盤的數據量,用戶可以最大限度減少冗余數據的存儲,提高備份速度并最大限度增加磁盤空間。除了減少存儲系統和介質成本,容量削減還意味著減少數據通過WAN遷移和復制所需的帶寬,從而帶來額外的潛在成本節省。除了以上的成本削減以外,部署重復數據刪除技術也許還有一個更加重要的原因:通過降低本地和遠程數據保護所需的存儲量和帶寬,企業可以顯著提升數據保護水平,并快速、可靠、經濟高效地進行數據恢復。
虛擬磁帶庫(VTL):據ESG最近的調查報告顯示,隨著企業對業務連續性、安全性的要求日趨嚴苛,越來越多的用戶采用磁盤或磁盤與磁帶混合的方式來滿足數據保護需求。而在基于磁盤的備份解決方案中,虛擬磁帶庫(VTL)備受用戶的推崇。VTL不僅能夠加快備份和恢復的速度,提高備份成功率并增加數據可用性,同時降低數據保護成本??赏ㄟ^軟件或基于軟件的應用,來部署VTL。
虛擬化:虛擬化不僅可簡化存儲管理的復雜性,降低存儲管理和運行成本,同時還提高存儲效率,降低存儲投資的費用。顯然,在當前的經濟拮據時期,虛擬化更是引起人們的關注。如精簡技術,不僅能降低50%的數據總成本,還可以減少預期存儲成本,幫助企業削減電能和冷卻開支,并能提高其10倍的管理效率。2008年10月的ThelnfoPro Wave 11存儲調研報告顯示,87%的受訪企業已經認識到精簡配置對于其自身數據中心計劃的重要性。
分支機構的遠程備份:所謂遠程備份解決方案,也就是通過廣域網將數據備份至集中管理的數據中心,降低遠程和分支機構的本地存儲硬件、介質以及人力資源的利用率,從而幫助企業降低成本。目前,已經有24%的企業將遠程數據保護解決方案列入了未來幾個月最先考慮的存儲措施,達到實現企業成本縮減的目的。而那些不采用分支機構的遠程備份企業僅僅占到12%,這也就不足為奇了。
磁盤到磁盤的備份:將數據遷移至磁盤到磁盤的備份架構可以直接或間接降低成本,所謂的直接,就是減少或消除磁帶介質以及媒介管理成本;而間接則是通過減少恢復時間、提高可用性以及避免數據丟失和/或應用宕機造成的成本,從而降低成本。
低成本串行ATA磁盤的使用:與主要采用FC磁盤相比,將廉價的串行ATA磁盤作為備份介質能夠節省大量金錢。有知名調研機構聲稱,自從2001年上市以來,串行ATA磁盤的出貨量超過了65000萬。大多數存儲廠商已經將SATA磁盤納入其陣列。
數據保護將推動專業服務發展
現在,企業都非常明白對數據進行保護的重要性。但是對于中小型企業而言,由于人力資源以及專業技能的缺乏,他們很難對數據實施全面的保護,這個時候,他們就迫切需要尋求第三方企業來提供專業服務。ESG曾就面臨數據保護難題(備份和恢復是頭號存儲難題)拇企業與那些尋求相關專業服務的企業之間的相互關系進行過調訪。如圖3所示,關注備份的受訪者中有31%表示,在未來12個月內他們很有可能尋求第三方專業服務公司進行備份和恢復的評估、設計或實施,而并不視備份和恢復為首要的存儲難題的受訪企業中只有19%有此計劃。這表明,中型企業將尋求第三方協助來設計和實施必要的新技術和進程,從而提高備份和恢復成功率。將備份和恢復視為首要存儲挑戰的企業也更為傾向于尋求以災難恢復為目的的評估、設計和實施服務,這表明部分客戶期望更全面地了解其企業的數據保護環境。
管理大師Peter Drucker曾說過:“預測未來就好比是夜間在沒有路燈的鄉間小道中行駛,并不時地透過后背窗看外面的風景。”
金橘樹范文4
電信業的競爭正在全方位地展開,這種競爭必然帶來新的價值鏈模式以及新的計費方式,這些變化對目前的電信運營支撐系統是一個挑戰。比如,多種業務的計費環節將不再是單一的按照時長或通信距離收取費用,而可能是根據時長、內容、使用量等多種參數的組合計費。為了應對這些挑戰,電信企業先后引入了內存數據庫,以提高后臺數據管理的實時性、精確性和靈活性。
內存數據庫
內存數據庫,顧名思義就是將數據放在內存中直接操作的數據庫。相對于磁盤,內存的數據讀寫速度要高出幾個數量級,將數據保存在內存中相比從磁盤上訪問能夠極大地提高應用的性能。同時,內存數據庫拋棄了磁盤數據管理的傳統方式,基于全部數據都在內存中重新設計了體系結構,并且在數據緩存、快速算法、并行操作方面也進行了相應的改進,所以數據處理速度比傳統數據庫的數據處理速度要快很多,一般都在10倍以上。內存數據庫的最大特點是其“主拷貝”或“工作版本”常駐內存,即活動事務只與實時內存數據庫的內存拷貝打交道。顯然,它要求較大的內存量,但并非任何時刻整個數據庫都存放在內存,即內存數據庫系統還是要處理I/O。
盡管內存數據庫已不是傳統磁盤數據庫的概念,但是內存數據庫本質上還是數據庫,它也具有一般數據庫的基本功能:
■ 永久數據的管理,包括數據庫的定義、存儲、維護等;
■ 完成各種數據操作,如查詢處理、存取、完整性檢查;
■ 事務管理,包括調度與并發控制等;
■ 對存取的控制和安全性檢驗;
■ 具有數據庫的可靠性恢復機制。
相對于利用程序開發手段調用內存處理來說,內存數據庫自有其優勢。首先,內存數據庫是產品化的數據庫管理軟件,極大縮短了開發周期; 其次,內存數據庫有著開放的平臺和接口,程序開發和移植更加靈活便捷,也便于維護和二次開發; 第三,可以通過使用統一的SQL語言方便地查詢內存中的數據; 最后,能在數據庫中保障數據的安全性和完整性。這些優勢,對于快速部署和簡化維護都是有利的。
但內存數據庫也有其不可避免的缺點,比如: 不容易恢復,內存數據庫中的數據不總是永久的,為了保證實時,也不一定是一致和絕對正確的,有的是短暫的,有的是暫時不一致或非絕對正確的。
電信企業一直是內存數據庫的主要用戶,近幾年來,隨著計算機硬件技術的飛速發展、內存容量的提高、價格下跌以及計算機進入64位時代操作系統后可以支持更大的地址,為內存數據庫的實現提供了可能。目前內存數據庫在電信行業的應用也日趨成熟,已有超過90G的電信系統案例,能自動擴展內存空間,不需要重啟數據庫,提供ESOL自定義存儲過程,支持多線程,開發效率高,程序移植容易等等。下面以兩個例子來介紹內存數據庫的應用。
電信計費數據的加載
電信的二次批價和實時累賬是計費系統中的兩個必備功能。所謂二次批價是相對于一次批價來說的。一次批價是按照國家標準資費來進行價格計算,比如: 全球通每分鐘本地通話為0.4元,在一次批價完成后,會根據這個用戶的套餐進行再一次的計算。以北京全球通用戶接聽4分鐘的電話為例,一次批價完成后,這條話單的價格是1.6元,如果這個用戶參加了10元包月接聽套餐,那么在二次批價后,這次通話的費用就為0元。一次批價是用于各大運營商之間結算的,而二次批價是針對用戶個人的。
實時累賬是將用戶從每月1號到目前為止的所有費用累加起來,也就是用戶目前可以通過10086查到截止到前一天的實時話費。累賬值可以幫助用戶控制高額話費或是供用戶即時查詢消費信息。
二次批價和實時累賬過程涉及用戶資料、用戶套餐等與用戶相關的信息,電信支撐系統在開始批價時必須加載這些數據。稍大一點的省級運營商的這些數據就會超過1000萬條,計費處理模型也由于套餐的組合、產品的組合以及不同的優惠規則變得相當復雜,加載這部分數據對系統而言是一筆不小的開銷,這就使得現在的計費處理速度比較慢,而且很難做到對數據的實時更新。內存數據庫的引入在一定程度上解決了這個問題。
在計費二次批價過程中數據量最大的是詳單數據,這部分數據不用放在內存數據庫中,每處理完一個話單文件或達到設定的提交記錄數時直接操作磁盤數據庫,不會影響系統性能。最急切的是將用戶資料、套餐、營業套餐和計費套餐對應關系數據、計費套餐模型數據及用戶累計數據放到內存數據庫中,這部分數據查詢操作遠比數據新增和更新操作要頻繁。除了這些數據外,當然還有應用需要的其他數據也都可以加載到內存數據庫。
在采用內存數據庫后,用戶通過營業部或客戶查詢實時話費的時候完全可以做到實時,比目前只能提供查詢到前一天的實時話費在業務上有了質的飛躍。因為系統在處理這部分數據時查詢流程和以前的完全一樣,但系統省去了以往內存中的數據和磁盤數據庫數據同步的環節,所以就能做到了實時查詢。對于信控來說也同樣,以往系統在累完賬后要按照一定周期刷新信控數據,這就存在一個時間差,不能夠完全做到實時。
而采用內存數據庫后,信控可以直接取得內存數據庫中的實時話費累計表中的數據,完全實現實時預警、停機。二次批價和累賬中采用內存數據庫后,對防欺詐、收入保障系統也有相當大的好處,這樣能夠充分保證運營商的切身利益。
另外,在采用內存數據庫后,整體提高了系統批價、累賬的處理速度,大大緩解訪問磁盤數據庫的壓力,提高數據查詢、修改、刪除的效率,也為后付費和預付費的融合提供了可能。
電信計費數據的同步
電信營業數據和計費系統中的數據總是在不斷的變化中,這就涉及內存數據庫中的數據和磁盤數據庫數據的同步問題(為了描述清楚,這里的磁盤數據庫以Oracle DB為例來說明)。數據同步包括兩部分: 從內存數據庫到Oracle DB數據同步和從Oracle DB到內存數據庫的同步。
1. Oracle DB到內存數據庫同步
這部分數據同步采用增量表的方式,營業系統或CRM新增或更新的數據將生成到Oracle的增量表中,計費后臺程序先到這些增量表中查詢數據。如果能在這些增量表中查到數據就把這些數據更新到內存數據庫對應表中,如果查不到,就直接從內存數據庫中直接查詢,從而保證了數據的完整性和實時性。由于增量表的數據量一般會很小,所以這部分操作不會影響系統的性能。
2. 內存數據庫到Oracle DB同步
由于Oracle的計費后臺批價、累賬數據幾乎都加載到了內存數據庫中,所以Oracle數據庫對應的數據表將主要用于對內存數據庫的數據備份。
金橘樹范文5
關鍵詞:聚類分析;初始中心點;K-原型算法;聚類算法;混合屬性數據
中圖分類號:TP301文獻標識碼:A 文章編號:1009-3044(2010)11-2713-04
A K-prototypes Algorithm Based on Improved Initial Center Points
CHEN Dan, WANG Zhen-hua
(Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China)
Abstract: The K-prototypes is the main clustering algorithm that capable of handling mixed numeric and categorical data. However, K-prototypes sensitive to its initial center points, is parameter-dependent and susceptible to noise interference. In order to overcome them, a method is proposed to build initial center points heuristically through the neighbors of objects, and then calculate according the K-prototypes algorithm's procedures. At last, use a rule to optimize the clustering results which able to identify the abnormal points. The proposed algorithm successfully resolved the defects of the traditional algorithm, improves the accuracy of clustering results and stability of the algorithm. Experiments show the proposed algorithm leads to better accurate and scalable, superior to the traditional K-prototypes.
Key words: Clustering analysis; Initial center points; K-prototypes; Clustering algorithm; mixed numeric and categorical data
聚類是數據挖掘中的一種數據分析技術,具有重要意義和很強的挑戰性。其基本原理是將數據劃分成有意義的簇,相同簇的對象之間具有較高的相似性,而不同簇的對象之間則相似程度較低。這種數據分析技術廣泛應用于模式識別、數據分析、圖像處理和商業研究等方面。目前已劃分出多種聚類算法,常見的聚類算法有基于劃分的K-均值,基于密度的DBSCAN算法,基于層次的BRICH算法等?;趧澐值木垲愃惴↘-means簡單快速,對處理大數據集,但它是基于歐氏距離的劃分,難以滿足混合屬性集聚類的要求。文獻[1-2]對K-means算法進行擴展,先后出現了K-modes算法和K-prototypes算法。K-prototypes算法能夠有效地處理混合屬性數據集聚類的問題,但它的缺點也很明顯:1) 對于不同的初始值,可能會導致不同的聚類結果;2) 需要用戶給定初始參數,這些參數的選擇需要用戶具備大量的先驗知識才能確定,而用戶通常對數據集缺乏先驗知識導致所選參數對聚類結果產生很大的影響;3) 算法非常容易受“噪聲”干擾,導致聚類精度下降。
近鄰法是由Cover和Hart于1968年提出的,是非參數法中最重要的方法之一。它的原理是以全部訓練樣本作為代表點,計算測試樣本與所有樣本的距離,并以最近鄰樣本的類別作為決策,具有原理直觀,方法簡單等優點。因此,本文提出了一種基于近鄰法的初始中心點選擇策略對算法進行改進,利用近鄰法,啟發式地獲得初始中心點和k值。最后用一個基于最小距離的規則來識別異常數據點,防止“噪聲”的干擾。
改進后的算法能有效地解決傳統K-prototypes算法的缺點,基本特征有三點:1) 在選擇初始中心點的時候,采用近鄰法,有依據的選擇初始中心,避免了傳統K-prototypes算法對初值選擇的盲目性;2)它可以自動的獲取k個聚類,解決了K-prototypes算法k值必須預先給定的問題;3)為了避免算法中的“噪聲”干擾,采用了一個基于最大距離的啟發式規則,將離聚類中心最遠的數據點識別為“異常數據點”;經過實驗證明,其聚類后的精度和穩定性要優于原算法。
1 K-prototypes算法
K-prototypes算法是由Huang提出的可以對分類屬性和數值屬性相混合的數據進行聚類的一種有效算法[2]。其基本思想和K-均值算法類似,只是在K-prototypes算法中定義了一個對數值與分類兩種屬性都計算的相似性度量,以此作為聚類的目標函數,通過不斷更新聚類原型來達到優化目標函數,獲得最優聚類效果的目的。
算法描述如下:假定待聚類對象集合為X={X1,X2, …,Xn},由n個觀測對象組成,屬于混合型數據集,且每個觀測對象Xi={Xi1,Xi2, …,Xin}有 個屬性,由A1A2, …Am來表示,其中A1A2, …Ap為數字屬性,Ap+1A p+2,…Am為可分類屬性,屬性Aj取值域用Dom(Aj)表示,且xij∈Dom(Aj)。對于可分類屬性有Dom(Aj)={aj(1),aj(2), …,aj(nj)},其中nj指屬性Aj取值的數目。聚類中心用Z表示,相應的,簡單記作Za=(za1,za2, …,zam)。
K-prototypes算法的距離函數d由數值型和可分類型兩部分組成[3-4]:
d(Xi,Za)=dr(Xi,Za)+rdc(Xi,Za)(1)
其中:γ∈[0,1],為分類屬性的權重參數;
dr(Xi,Za)=(xij-zaj)2,由歐式距離度量;
rdc(Xi,Za)= γδ(xij,zaj),
當xij≠zaj時,δ(xij,zaj)=1;
當xij=zaj時,δ(xij,zaj)=0.
K-prototypes算法最小化目標函數[4]:
F(W,Z)=wiad(Xi,Za)(2)
滿足:
wia∈[0,1];1≤i≤n;1≤a≤k
wia=1;1≤i≤n
0≤waai≤n;1≤a≤k
綜上所述,K-prototypes聚類算法具體步驟如下:
1) 初始化初始聚類數k和聚類中心Z,即從數據集中隨機選取k個初始聚類原型;
2) 按照2)式定義的目標函數最小化原則,將數據集中的各個對象劃分到離它最近的聚類原型所代表的類中;
3) 對于每個聚類, 重新計算新的聚類原型;
4) 計算每個數據對象對于新的數據原型的差異度,如果離一個數據對象最近的聚類原型不是當前數據對象所屬聚類原型,則重新分配這兩個聚類的對象;
5) 重復Step 3和Step 4,直到各個聚類中不再有數據對象發生變化。
2對K-prototypes算法的改進
針對上面列出的K-prototypes的不足,該文提出一種基于近鄰的初始點選擇算法,該算法思想來源于近鄰方法[6],可確定初始的中心點集和 值。并在原型算法中加入適當的啟發式規則,使算法能夠有效地辨識異常數據點,綜合這三點改進,算法獲得更好的穩定和聚類結果。算法流程圖如圖1。
2.1 基于近鄰方法的初始中心點選擇策略
基于近鄰方法的初始聚類中心選擇策略基本思想為:以全部樣本數據作為代表點,計算測試數據點與所有樣本之間的距離,如果小于初始閾值,就把該點劃分為與測試數據點相同的類,記數變量增1,同時更新最短距離。最后選擇鄰居數目最多的數據對象作為初始中心點。
樣本點 的鄰居定義為P=Neigbour(x, θ):
{
判斷P是否為x的鄰居;
IfDist(P,x)≤θ返回1;
Else 返回0;
}
其中 為兩個數據對象的相似度量函數。
算法描述如下:
1) 定義一個初始閥值θ和中心點集Z,Z初始值為空;
2) 從數據集中隨機選一個點Q作為起始點;從Q開始遞歸地按照深度優先方式遍歷各點,P=Neigbour(Q, θ) ;如果返回值為1,則判斷P屬于以Q為中心的聚類,更新閥值θ,并使初始值為0的局部變量m=m+1(用于記錄Q的鄰居數目);否則退回到前一點繼續搜索。遍歷數據集中的每一個數據點;
3) 選擇鄰居數目最多的數據對象作為第一個初始中心點,加入到Z中,初始值為0的全局變量k=k+1;
4) 將原數據集刪除中心點及其鄰居,如果還有未被聚簇的點,即在這些數據點集中重復執行(2)-(4);
5) 輸出初始聚類中心Z和k。
2.2 對異常數據點的識別
聚類算法是將數據集中相似的數據歸為一類,因此理論上,一個簇中的所有數據點都應該離簇中心點比較近。然而可能存在一些異常點,它們不屬于任何聚簇。為了有效識別這些異常點,在K-prototypes中加入以下啟發式規則,在算法進行全局搜索的時候,引導算法避免異常數據點的干擾。
加入的算法啟發式規則描述如下:
Min{d(Xi,Za)} ≤ε; 1≤i≤n; 1≤a≤k(3)
其中ε為距離閥值。
算法在最后利用這個啟發式規則來檢驗聚類結果是否滿足這個條件,不滿足則標記為異常點;如果所有的異常點數目小于閥值ψ,則算法結束;否則,則將所有的異常點歸為一類,令k=k+1; 重新迭代,直到所有的異常點數目小于ψ。
2.3 改進后K-prototypes算法步驟
綜上所述,改進后的算法描述如下:
輸入:待處理數據集S,參數 θ,ε,ψ,γ
輸出:k個聚簇
步驟:
Step 1:使用數據預處理技術處理不完整、有噪聲的數據集,為后續聚類做準備。
Step 2:使用基于近鄰的初始中心點選擇方法獲得初始中心點集Za=(za1,za2,…,zam)和聚類數k;
Step 3: 按照(2)式的目標函數最小化原則,將數據集中的各個對象劃分到離它最近的聚類原型所代表的類中;
Step 4:對于每個聚類,重新計算新的聚類原型Za’;計算每個數據對象 對于新的數據原型Za’的差異度d(x,Za’),如果離一個數據對象最近的聚類原型不是當前數據對象所屬聚類原型,則重新分配這兩個聚類的對象;
Step 5:重復Step 3和step 4,如果各個聚類無數據對象發生變化,轉至Step6;
Step 6:利用啟發式規則(3)來檢驗聚類結果,標記異常數據點,如果異常數據點數小于ψ,算法結束;否則將這些異常數據點歸為一類,并使k=k+1,轉至Step3,反復迭代,直至使異常數據點控制在較小范圍內,算法結束。
3 實驗結果與分析
為了驗證所改進后的K-prototypes算法的有效性和可行性, 實驗過程分別采用隨機選擇初始點的K-prototypes算法和改進后的K-prototypes算法對給定數據集進行測試,并比較分析聚類結果。
系統配置為:Intel 酷睿2 雙核 CPU,1G內存,Windows XP,應用Matlab6.5平臺進行實驗仿真。
3.1 實驗1:人造數據實驗
為了顯示的直觀性,我們構造的數據樣本共有300個樣本,可以劃分為3類,分別為A類、B類和C類。每個樣本具有2個特征:一個數值型和一個分類型。使用隨機選取十組初始聚類中心所得到的最壞與最好結果與優化選取初始聚類中心的算法所得到的結果進行比較。如圖2所示。
實驗1參數設置:θ=0.20,ε=4.5,ψ=50;γ取0.5。
從圖4可以直觀地看出,傳統K-prototypes算法對于不同的初始聚類中心會得到差別很大的聚類結果;這說明初始聚類中心的選擇對算法的分類性能有很大的影響;圖5是采用改進后的K-prototypes算法,相比之下,改進后的K-prototypes算法具有更好的分類效果。
3.2 實驗2:標準數據庫數據實驗
實驗2采用UCI機器學習庫[7]中的真實數據集Voting和Cleve作為聚類對象,其中Voting為分類型數據集,而Cleve為混合類型的數據集,分別用原始K-prototypes算法和改進后的K-prototypes算法對其進行聚類分析,數據集描述如表1所示。
上述數據集Voting、Cleve都包含多個屬性,不能直觀地顯示其聚類結果,故從正確識別率和穩定性兩個方面進行分析。
3.2.1 評價標準
為了將原始數據的分類特征與算法得到的聚類結果作比較,本文采用聚類結果正確率作為聚類實驗結果的評價標準。
評價聚類效果的指標如下:
E=(n/N) ×100%
其中:n為正確分類的對象數,N為總對象數。E∈[0,1],為正確識別率,其值越大,表明聚類結果越精確;反之,聚類結果誤差越大。
4.2.2 聚類性能分析
實驗過程中,兩個算法的參數設置分別如下:在改進后的K-prototypes算法中,對于Voting,Cleve兩個數據集,分別設置閾值θ=0.15,ε=4.5,ψ=70;θ=0.20,ε=4.8,ψ=50,…,每組閾值分別運行5次;γ分別取1,0.7。
將傳統算法運行10次,通過打亂數據集的各個數據位置,反復仿真得出以下聚類結果。
表2是對兩組實驗數據的聚類精度值的對表,從表2可以直觀地看出:采用改進后K-prototypes算法進行聚類,得到的聚類精度都在90%以上,比原始K-prototypes算法聚類精度高很多。而采用原始K-prototypes算法聚類得到的結果有時高,有時低,波動比較大,說明原始K-prototypes算法對初始值很敏感,對于不同輸入順序的初始值而得到不同的聚類精度;相比,采用改進后的K-prototypes算法,每組實驗的聚類結果波動很小,聚類精度高。由此可證明,改進后的K-prototypes算法成功地解決了原始算法對初始值非常敏感,參數必須預先設定和對易受“噪聲” 影響等缺點。因此,實驗結果表明:本文提出的基于近鄰法的K-prototypes算法在分類精度和穩定性兩個方面都是十分有效的。
4 結論
該文提出了一種改進的K-prototypes混合屬性數據聚類算法,通過近鄰法獲取初始中心點集和初始聚類數目,避免了初始中心點選擇的盲目性和對聚類數目k值的依賴性;同時加入啟發式規則,防止了“噪聲點”的干擾。通過實驗可以看出該算法成功解決了原K-prototypes算法對初始敏感的缺點,并且自動獲取初始中心點集和初始聚類。通過對聚類結果的精度分析和穩定性分析,可看出改進后的算法優于傳統的K-prototypes聚類算法。
參考文獻:
[1] Ralambondrainy H. A Conceptual Version of the k-means Algorithm[J].Pattern recognition Letters,1995(16):1147-1157.
[2] Huang Zhexue. Extension to the k-means algorithm for clustering large data sets with categorical values[J]. Data Mining and Knowledge Discovery,1998(2):283-304.
[3] 陳寧, 陳安等. 數值型和分類型混合數據的模糊K-prototypes聚類算法[J].軟件學報,2001,12(8):1107-1119.
[4] 尹波,何松華.基于PSO的模糊K-prototypes聚類[J].計算機工程與設計,2008(11):2283-2285.
[5] 吳孟書,吳喜之.一種改進的K-prototypes聚類算法[J].統計與決策,2008(5).
金橘樹范文6
集群(Cluster)技術是使用特定的連接方式,將價格相對較低的硬件設備結合起來,同時也能提供高性能相當的任務處理能力。
本文試圖對當前主要的數據庫集群用到的具體技術和市場上的主流產品進行分析并作點評,從而為讀者提供一個數據庫集群的評價參考。
下面討論的數據庫集群技術分屬兩類體系:基于數據庫引擎的集群技術和基于數據庫網關(中間件)的集群技術。
1關鍵技術
在復雜的數據庫集群技術之間做比較,其實就是比較它所包含的各項子技術性能和它們之間的協調運作能力,下面的文字將介紹數據庫集群最需要得到重視的核心技術,同時也關注到了一些技術細節。
提高處理速度的四種辦法
提高磁盤速度:主要思想是提高磁盤的并發度。盡管實現方法各不相同,但是它們最后的目的都是提供一個邏輯數據庫的存儲映象。
【點評】系統為了提高磁盤訪問速度,建立一個虛擬的涵蓋所有數據“大”數據庫,而不用去考慮數據的實際物理磁盤存放位置。
分散數據的存放:利用多個物理服務器來存放數據集的不同部分,使得不同的服務器進行并行計算成為可能。
ORACLE RAC是共享磁盤的體系結構,用戶只需簡單地增加一個服務器節點,RAC就能自動地將這節點加入到它的集群服務中去,RAC會自動地將數據分配到這節點上,并且會將接下來的數據庫訪問自動分布到合適的物理服務器上,而不用修改應用程序;UDB是非共享磁盤的體系結構,需要手工修改數據分區,MSCS和ASE也是同樣情況。ICX是一種基于中間件的數據庫集群技術,對客戶端和數據庫服務器都是透明的。可以用來集群幾個數據庫集群。
【點評】系統通過化整為零的策略,將數據表格分散到多個服務器或者每個服務器分管幾個內容不同的表格,這樣做的目的在于通過多服務器間并行運算以提高訪問速度。
對稱多處理器系統:
利用多處理機硬件技術來提高數據庫的處理速度。
所有基于數據庫引擎的集群都支持這個技術。
【點評】將多CPU處理器進行合理調度,來同時處理不同的訪問要求,但這種技術在數據庫上的應用的實際收益是很有限的。
交易處理負載均衡:在保持數據集內容同步的前提下,將只讀操作分布到多個獨立的服務器上運行。因為絕大多數的數據庫操作是瀏覽和查詢,如果我們能擁有多個內容同步的數據庫服務器,交易負載均衡就具有最大的潛力(可以遠遠大于上面敘述的最多達四個處理器的對稱多處理器系統)來提高數據庫的處理速度,同時會具有非常高的數據可用性。
所有基于數據庫引擎的集群系統都只支持一個邏輯數據庫映象和一個邏輯或物理的備份。這個備份的主要目的是預防數據災難。因此,備份里的數據只能通過復制機制來更新,應用程序是不能直接更新它的。利用備份數據進行交易負載均衡只適用于一些非常有限的應用,例如報表統計、數據挖掘以及其它非關鍵業務的應用。
【點評】負載平衡算是一項“老”技術了。但將性能提高到最大也是集群設計所追求的終極目標。傳統意義上,利用備份數據進行交易負載均衡只適用于一些非常有限的應用。
上述所有技術在實際部署系統的時候可以混合使用以達到最佳效果。
提高可用性的四種方法
硬件級冗余:讓多處理機同時執行同樣的任務用以屏蔽瞬時和永久的硬件錯誤。有兩種實現方法:構造特殊的冗余處理機和使用多個獨立的數據庫服務器。
基于數據庫的集群系統都是用多個獨立的數據庫服務器來實現一個邏輯數據庫,在任意瞬間,每臺處理器運行的都是不同的任務。這種系統可以屏蔽單個或多個服務器的損壞,但是因為沒有處理的冗余度,每次恢復的時間比較長。
【點評】傳統意義上,硬件越貴,性能越高,但往往事與愿違。想通過追加和升級硬件設備來改善硬件級的冗余,要進行詳細的需求分析和論證。
通訊鏈路級冗余:冗余的通訊鏈路可以屏蔽瞬時和永久的通訊鏈路級的錯誤。
基于數據庫引擎的集群系統有兩種結構:共享磁盤和獨立磁盤。RAC, MSCS 可以認為是共享磁盤的集群系統。UDB和ASE 是獨立磁盤的集群系統。共享磁盤集群系統的通訊的冗余度最小。
【點評】通訊鏈路級的冗余具有容錯功能。
軟件級冗余:由于現代操作系統和數據庫引擎的高度并發性,由競爭條件、死鎖、以及時間相關引發的錯誤占據了非正常停機服務的絕大多數原因。采用多個冗余的運行數據庫進程能屏蔽瞬時和永久的軟件錯誤?;跀祿煲娴募合到y都用多個處理器來實現一個邏輯數據庫,它們只能提供部分軟件冗余,因為每一瞬間每個處理器執行的都是不同的任務。
【點評】改善軟件設計來提高冗余性能和屏蔽軟件級錯誤是每個技術開發商的夢想。傳統的集群系統只能提供部分軟件冗余。
數據冗余:
1. 被動更新數據集:所有目前的數據復制技術(同步或異步),例如磁盤鏡像、數據庫文件復制以及數據庫廠商自帶的數據庫備份工具都只能產生被動復制數據集。它一般只用于災難恢復。
【點評】大多數應用都是采用被動更新數據集的方法。這種方法容災能力差,資源占用多,已面臨淘汰和革新。
2. 主動更新數據集:這種數據集需要一臺或多臺備份數據庫服務器來管理,它可用于報表生成,數據挖掘,災難恢復甚至低質量負載均衡。分同步和異步兩種。
異步主動復制數據集:先把事務處理交給主服務器來完成,然后事務處理再被串行地交給備份服務器以執行同樣操作來保證數據一致性。所有的商用數據庫都支持異步主動復制技術。
同步主動復制數據集:要求所有并發事務處理在所有數據庫服務器上同時完成。直接好處就是解決了隊列管理問題,同時通過負載均衡實現更高性能和可用性。RAC, UDB, MSCS 和 ASE是用完全串行化并結合兩階段提交協議來實現的,設計目標就是為了獲得一份可用于快速災難恢復的數據集。
【點評】主動更新數據集是目前比較先進的數據冗余方法。專業人員還可以進行更底層的技術細節比較。底層技術的差異直接影響著一些重要指標。
提高安全和數據集可擴性的技術
在提高數據庫安全性和數據集可擴性這兩方面,可以創新的空間是很小的。數據庫最常見的安全辦法是口令保護,要么是分布式的,要么是集中式的。在數據庫前面增加防火墻會增加額外的延遲,因此,盡管許多安全侵犯事件是來自于公司內部,但是數據庫防火墻還是很少被采用。如果數據庫集群技術是基于中間件技術實現的,就有可能在不增加額外延遲的情況下,在數據經過的路徑上實現防火墻功能。數據庫數據集的可擴性只能通過將數據分布到多個獨立的物理服務器上來實現。
2主流產品
在數據庫集群產品方面,其中主要包括基于數據庫引擎的集群技術的Oracle RAC、Microsoft MSCS、IBM DB2 UDB、Sybase ASE,以及基于數據庫網關(中間件)的集群技術的ICX-UDS等產品。
Oracle RAC
Oracle RAC 支持 Oracle 數據庫在集群上運行的所有類型的主流商業應用程序。這包括流行的封裝產品,如 SAP、PeopleSoft 和 Oracle E-Business Suite 等,以及自主研發的應用程序,其中包括 OLTP 和 DSS,以及 Oracle 有效支持混合 OLTP/DSS 環境的獨有能力。Oracle 是唯一提供具備這一功能的開放系統數據庫的廠商。 Oracle RAC 運行于集群之上,為 Oracle 數據庫提供了最高級別的可用性、可伸縮性和低成本計算能力。如果集群內的一個節點發生故障,Oracle 將可以繼續在其余的節點上運行。如果需要更高的處理能力,新的節點可輕松添加至集群。為了保持低成本,即使最高端的系統也可以從采用標準化商用組件的小型低成本集群開始逐步構建而成。
Oracle 的主要創新是一項稱為高速緩存合并的技術,它最初是針對 Oracle9i 真正應用集群開發的。高速緩存合并使得集群中的節點可以通過高速集群互聯高效地同步其內存高速緩存,從而最大限度地低降低磁盤 I/O。高速緩存最重要的優勢在于它能夠使集群中所有節點的磁盤共享對所有數據的訪問。數據無需在節點間進行分區。Oracle RAC 支持企業網格。Oracle RAC 的高速緩存合并技術提供了最高等級的可用性和可伸縮性。Oracle RAC能顯著降低了運營成本,增強了靈活性,從而賦予了系統更卓越的適應性、前瞻性和靈活性。動態提供節點、存儲器、CPU 和內存可以在實現所需服務級別的同時,通過提高的利用率不斷降低成本。
Oracle RAC采用了“sharing everything”的實現模式,通過CPU共享和存儲設備共享來實現多節點之間的無縫集群,用戶提交的每一項任務被自動分配給集群中的多臺機器執行,用戶不必通過冗余的硬件來滿足高可靠性要求。另一方面,RAC可以實現CPU的共享,即使普通服務器組成的集群也能實現過去只有大型主機才能提供的高性能。
Microsoft MSCS
數年以來,Microsoft一直致力于對自身服務器解決方案的伸縮能力、可用性與可靠性進行擴展。最初代號為Wolfpack且先后被稱為Microsoft集群服務器與Microsoft集群服務的MSCS是Microsoft在NT集群技術領域中的首次重拳出擊,它是公認的最佳Microsoft集群解決方案。在MSCS群集中,MSCS軟件最多可以同四臺運行在高速網絡上的物理計算機建立連接。通常情況下,群集中的計算機能夠按照“活動--活動”方式共享相同的存儲子系統與功能,這意味著所有集群計算機(節點)均可主動通過共享負載的方式協同完成工作,并在某個節點出現故障時分擔它的工作。MSCS的主要用途是通過自身提供的容錯能力提高應用程序可用性。容錯能力是指將相關處理過程從某個節點上的故障應用程序移植到集群中其它健康節點上的集群功能。當故障應用程序得到恢復后,集群應當能夠對原先的集群節點實現“故障返回”。MSCS能夠在不丟失任何與故障應用程序相關數據的前提下對集群上所運行的應用程序進行故障恢復與故障返回管理,并且能夠在故障恢復過程中維護用戶及應用程序狀態。這種類型的集群功能被稱作有狀態集群功能。MSCS同時還允許用戶在應用程序升級過程中繼續進行工作。您可以采取滾動升級方式(例如每次在一個集群節點上升級應用程序并確保其它節點上的應用程序繼續處于可用狀態)而不必在升級過程中停止使用應用程序。
SQL Server 2005是微軟的下一代數據管理和分析解決方案,給企業級應用數據和分析程序帶來更好的安全性、穩定性和可靠性,更易于創建、部署和管理。它憑借針對故障轉移群集機制的支持能力,得以增強的多實例支持能力以及分析服務對象與數據備份及恢復能力,分析服務的可用性得到了提高。它提供了諸如表分區、快照隔離、64位支持等方面的高級可伸縮,使用戶能輕松構建和部署關鍵應用。表和索引的分區功能顯著增強了對大型數據庫的查詢性能。
3性能指標
這部分將介紹集群系統的細節技術指標。在做系統規劃時,用戶就可去掉一些應用中不太重要的指標,或賦予這些指標以不同的權重,從而進行專業的技術性能比較,選擇最適合自己的數據庫集群系統。
處理速度
磁盤技術:所有集群系統都能很好地應用磁盤技術,但是由于DM,FM會對磁盤系統帶來傳輸速度的負面影響,因此這方面它們相對欠缺。
數據分割:所有基于數據庫引擎的集群系統都有很好數據分割能力。
SMP:所有基于數據庫引擎的集群系統的SMP性能指標都比較接近。
負載均衡:一般的數據庫引擎的集群系統由于使用了備份的數據集,因此只能支持有限的負載均衡。這一指標不同產品之間有差異。
數據可用性
處理器和軟件冗余:只有部分集群系統支持該功能。
通訊鏈路冗余:一般來說,共享磁盤的集群系統通訊鏈路冗余指標較低,獨立磁盤的集群系統指標較高。
數據冗余:
主動異步復制:除了磁盤和文件鏡像外,其他集群系統支持該功能。
主動同步復制:所有集群系統支持該功能,細節指標略有不同。
被動異步復制:所有集群系統該性能指標都比較接近。
被動同步更新:所有集群系統該性能指標都比較接近。
通過廣域網的復制技術:
遠程主動異步復制:所有的集群系統都支持這種復制技術,只不過對隊列的管理能力有所不同。DM,FM和RAID的此性能相對較低。RAID不支持遠程復制功能。
遠程主動同步復制:ICX在這方面做的比較好。
遠程被動異步復制:DM 和 FM支持這種類型的復制,因為DM和FM對集群是透明的,是在集群系統的下一層工作的,所有的集群系統都可以利用它們提供的功能。
遠程被動同步復制:DM和FM支持這種類型的復制,因為這種復制方式只在距離很近的時候才能使用(使用雙模光纖,半徑五英里)。同樣地,因為DM和FM對集群是透明的, 所有的集群系統都可以利用它們提供的功能, 如果部署的話,所有的集群系統都是類似的。
安全性
口令:這是所有集群系統的基本性能。分布式或集中式的口令保護基本上保證了數據的安全。
數據庫防火墻:大多數數據庫集群系統得數據庫防火墻很少被采用,而ICX則采用在數據經過的路徑上實現防火墻功能。
數據集的可擴性
數據分區:所有基于數據庫引擎的集群系統都具備數據分區以保證數據集的可擴展。
數據分區的可用性:所有集群系統該性能指標比較接近。
集群管理
共享磁盤的集群系統,比如RAC、MSCS,它們的管理比較方便,其中RAC的服務更多。但是,由于此種系統中的每一單獨的服務器需要特殊處理,和獨立磁盤的集群系統比較,就容易管理多了(雖然進行初始化和修改配置的時候也不那么容易),但它們都要求應用程序對集群不透明,而且配置,修改也比較麻煩。
獨立磁盤的集群系統象 UDB、ASE此性能相對稍低,因為用的都是非共享磁盤,所以管理相對繁瑣。
ICX在易管理性(初始配置和將來的修改)方面和獨立磁盤集群系統的性能相當,但是在對底層數據管理復雜性方面做得比較好。在對數據庫引擎和數據進行底層修復的時候任務需要直接到每臺數據庫處理器上去做。
那些磁盤工具,即DM、FM和RAID,它們對集群是透明的。管理相對簡單得多。
應用透明度
因為在錯誤回復和分區方面對應用程序不透明以及它們對應用程序都有些特殊的要求,基于數據庫引擎的RAC、MSCS、UDB、ASE和ICX在這方面都有待提高的地方。而DM、FM和RAID它們對應用程序可以說是完全透明的。
IBM DB2 UDB
DB2 UDB大量自動或自我管理功能可使管理員能夠節省更多時間來集中精力考慮驅動業務價值的問題,甚至可以消除較小的實施項目對專職管理員的需求。
UDB的優勢體現在DB2的開放無界:支持Unix, Linux 以及Windows等主流操作系統;支持各種開發語言和訪問接口;同時具有良好的數據安全性和穩定性。DB2 V8.2的高可用性災備技術,可在極短時間內使關鍵應用得到恢復。利用DB2數據分區部件(DPF)實現橫向擴展,可以支持多達1000臺服務器組成的龐大數據庫群集,為構建企業級數據倉庫提供堅實的技術基礎。利用DB2的數據分區部件以及DB2信息集成器(DB2 II)技術,數據庫操作可綜合利用網格中的每臺服務器的運算能力,實現真正意義上的網格運算。
UDB V8.2應用更多的創新技術,Design Advisor可以幫助 DBA 制定全面的數據庫設計決策,包括集成復雜的功能劃分、物化查詢表,大大縮短部署時間。自動生成統計信息概要代表了來自 IBM LEO研發項目的首次部署。自主對象維護特性可自動執行基于策略的管理和維護功能,如表重構、統計信息收集和數據庫備份。高可用性災難恢復和客戶機重路由特性實現了具備隨選能力的企業所需的24*7信息可用性和恢復力。此外,DB2 UDB 提供與 Java/Eclipse 和 Microsoft .NET IDE的深入集成或插件。
SYBASE ASE
ASE性能的提高是建立在虛擬服務器架構上的,這是 Sybase 獨有的體系結構。當前的ASE版本是ASE15。與操作系統和相關軟件保持獨立讓ASE15可以更智能化地進行系統自我調優。VSA只需要很少的內存資源和內部交換開銷,所以ASE15可以管理大量的聯機用戶。能夠使ASE提高性能并控制成本的最主要原因是它采用了專利技術的、自調整的優化器和查詢引擎。它可以智能地調整復雜的查詢操作并忽略那些未包含相關信息的分區上的數據。ASE15還通過一系列用來管理和診斷數據庫服務器的新特性來降低運營成本。
ASE15 擁有高可靠性和極低的運行風險。個人數據的安全性是ASE特別關注的領域,使用了一種無需修改應用的獨特加密系統。當應用和安全軟件進行連接時將降低實施成本并避免產生新的安全漏洞。ASE15 還通過一種簡單、直接和可編程的腳本語言來方便進行加密和解密。在解決意外停機問題時,ASE15 在其已證實的可靠性和高系統利用率的基礎上,增加了許多顯著的功能來增強系統的可用性和災難恢復過程。新的存儲引擎支持四種數據分區方式,在不同的物理設備上進行不同的分區操作。能幫助數據庫管理員迅速地建立冗余災難恢復節點并在異構的數據平臺上同步數據庫。
ASE15系統新的查詢和存儲引擎被設計用于支持下一代網格計算和集群技術。它結合了充分利用數據分區技術的查詢處理機制和適用于解決集群問題的優化器技術。同時ASE15為事件驅動的企業提供了一個絕好的數據庫平臺。與web services 和 XML的架構將減少系統內部的相互依賴性,并為應用開發提供更大的靈活性。
ICX-UDS
ICX-UDS不受基于數據庫引擎的集群技術限制,可以支持不同的數據庫。
它類似通常的服務器。把ICX放置在關鍵的網絡路徑上,監聽數據庫系統流量。ICX網關將自動過濾出無狀態的查詢訪問,并將負載均衡到所有服務器上。在這里,網關就象一個在線“編譯器”,它將所有對數據庫的更新操作發送到所有數據庫上執行,而將無狀態的查詢操作只發送到其中某一數據庫服務器上。
對于統計報表和數據挖掘類應用,可以通過復制和只讀去獲得更快的處理速度。還能指定更多的只讀來負載均衡。ICX 網關的容錯可以通過備份網關來達到。加載一個非同步的數據庫可以造出不影響主服務機群的近于實時的數據源。
4應用點評
Oracle RAC和Oracle數據庫提供的特定新管理性增強功能實現了企業網格。各種規模的企業都可以采用Oracle RAC來支持各類應用程序。
企業網格采用大型標準化商用組件配置:處理器、網絡和存儲器。利用Oracle RAC的高速緩存合并技術,Oracle數據庫實現了最高可用性和可伸縮性?,F在,利用Oracle數據庫和Oracle RAC將大幅降低了運行成本,進一步增強了靈活性,其動態提供節點、存儲器、CPU和內存的特性可以更輕松、高效地保持服務級別,而通過提高的利用率又進一步降低了成本。企業網格是未來的數據中心,使企業具備更高的適應能力、前瞻性和敏捷性。
集群技術隨著服務器硬件系統與網絡操作系統的發展將會在可用性、高可靠性、系統冗余等方面逐步提高。我們匯集了市場上的主流產品,并從分析性能指標的角度出發,對產品進行了簡要評價。
Sybase ASE是一個深受用戶歡迎的高性能數據庫,它具有一個開放的、可擴展的體系結構,易于使用的事務處理系統,以及低廉的維護成本。
ASE可支持傳統的、關鍵任務的OLTP和DSS應用,并且滿足Internet應用的發展需要,Sybase可以很好地滿足關鍵任務的企業業務應用的需求,提供數據庫可靠性、集成性和高性能。ASE有效的多線索結構,內部并行機制和有效的查詢優化技術提供了出色性能和可伸縮性;還可提供先進的企業集成、強健和數據訪問與數據移動技術,支持跨越遠程Sybase和non-Sybase數據庫的分布事務和查詢。ASE進一步擴展了這些功能,通過分布信息和管理商業事務,支持通過企業信息門戶對商業系統進行個性化的用戶訪問。
MSCS對于諸如電子郵件服務器、數據庫應用程序之類的應用程序,是一種良好的運行方式。
假設您決定在一個4節點MSCS群集上運行Microsoft Exchange 2000 Server。當安裝MSCS軟件以及適用于群集的Exchange 2000版本后,您可以對群集進行配置,以便使Exchange 2000能夠在主要節點發生故障時在備份節點上進行故障恢復。當故障發生時,主服務器上肯定存在處于打開狀態的用戶會話,然而,MSCS能夠在不丟失任何數據的情況下快速、自動的完成故障恢復。備份節點將從故障節點上接替工作負載及相關數據,并繼續為用戶提供服務。
ICX的最大優點是在數據庫集群技術面臨的挑戰上有了新的探索,此項基于中間件的數據庫集群技術為獲得具有高可擴性的高性能數據庫提供了一條切實可行的途徑,同時能靈活地適應未來的技術變化。
這種中間件復制技術可位于關鍵的網絡路徑上,監聽所有進出數據庫系統的流量,方便地提供防火墻和其它安全服務,保護物理的數據庫服務器。通過多個服務器的并發處理很容易地隱藏了處理的延遲。實時并行同步交易復制:一旦我們突破了實時并行同步交易復制的技術障礙,用戶就能通過由多個數據庫服務器構成的集群來獲得高性能,高可用性和高安全性。
DB2 UDB是一個可以隨企業增長的數據庫。當對網站的事務需求達到峰值時它可以迅速響應,它可以進行擴展以容納分布在許多不同數據庫中的數量不斷增長的信息。
隨著信息基礎結構從一個處理器發展到多個處理器再到高度并行的多個群集,它也隨之擴展。將分區技術和群集技術集成到新的 DB2 UDB Enterprise Server Edition 中意味著該版本很靈活。DB2 UDB還添加了自主數據庫技術,它使數據庫管理員可以選擇使用增強的自動化技術來配置、調優和管理他們的數據庫。自主數據庫管理意味著管理員可以在管理日常任務上花費較少的時間。表的多維群集減輕了 DBA 創建索引的工作負擔,同時提供了數據群集以快速查詢。DB2內置的已規劃的和未規劃的可用性能力確保了業務應用程序在任何時候都可用。諸如索引重建、索引創建和表裝載之類的聯機實用程序以及可以不停止數據庫進行更改的配置參數,都意味著改進的性能和高可用性。
【相關鏈接】
理想的數據庫集群應具備的特點
提高速度:只通過簡單地增加數據庫服務器就能相對提高數據庫處理速度。
數據同步:在任何時刻需要有多個隨時可用的實時同步數據服務。最好有多個異地的同步數據服務。
安全保證:除了密碼保護之外,我們最好能控制企業內部對數據庫的非法訪問。
可擴展性:應保證我們能任意增大數據集而沒有對可用性產生負面影響。
一般來說,有關數據庫集群的技術都非常龐雜。更具挑戰性的是,實際應用要求在提高速度、數據同步、安全保證、可擴展性方面的指標能同時提升,而不是單純提升某一指標而犧牲其他指標。全面提升這些技術指標是數據庫集群技術都將面臨的重大課題。
【名詞解釋】
集群:是一組通過協同工作方式運行同一套應用程序并針對客戶端及應用程序提供單一系統映像的獨立計算機。集群技術的目標在于通過多層網絡結構進一步提高伸縮能力、可用性與可靠性。
可伸縮性:是指一臺計算機在維持可接受性能的前提下處理不斷提高的工作負載的能力。