大數據技術范例6篇

前言:中文期刊網精心挑選了大數據技術范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

大數據技術

大數據技術范文1

關鍵詞:大數據;數據庫集群技術;分布集群

一、分布集群數據庫在大數據中的應用

目前,許多數據增長率很高的大型數據庫系統正被用于改善全球人類活動,如通信、社交網絡、交易、銀行等,分布集群數據庫已成為提高數據訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數據訪問,分布集群數據庫的問題不僅在于如何管理大量的數據,而且在于如何組織分布式存儲中的數據模式。智能數據組織是提高檢索速度、減少磁盤I/O數量、縮短查詢響應時間的最佳方法之一?;谝巹t的聚類是提供數據庫自動聚類和數據存儲模式解釋的解決方案之一,基于規則的集群通過分析屬性和記錄上的數據庫結構,將數據模式表示為規則。使用不同規則池分區的每個集群,每個規則與內部集群中的規則相似,與外部集群中的規則不同。分布集群數據庫是一種有向圖結構的進化優化技術,用于數據分類,在緊湊的程序中具有顯著的表示能力,這源于節點的可重用性,而節點本身就是圖形結構的功能。為了實現基于規則的集群,分布集群數據庫可以通過分析記錄來處理數據集的規則提取。分布集群數據庫的圖形結構由三種節點組成:起始節點、判斷節點和處理節點。開始節點表示節點轉換的開始位置;判斷節點表示要在數據庫中檢查的屬性。分布集群數據庫規則提取的節點準備包括兩個階段:節點定義和節點排列。節點定義的目的是準備創建規則,節點排列是選擇重要的節點,以便高效地提取大量規則。節點排列由以下兩個順序過程執行,第一個過程是查找模板規則,第二個過程是結合第一個過程中創建的模板生成規則。提取模板以獲得數據集中經常發生的屬性組合。在模板提取過程中,分布集群數據庫規則提取中只使用了少數幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規則的方法相比,該節點排列方法具有更好的聚類結果,這兩個過程中的規則生成都是通過圖結構的演化來實現。

二、在線規則更新系統的應用

在線規則更新系統用于通過分析所有記錄從數據集中提取規則,在大數據應用中,每個節點都有自己的節點號,描述每個節點號的節點信息。程序大小取決于節點的數量,這會影響程序創建的規則的數量。起始節點表示根據連接順序執行的判斷節點序列的起始點,開始節點的多個位置將允許一個人提取各種規則。判斷節點表示數據集的屬性,顯示屬性索引。在大數據應用環節,從每個起始節點開始的節點序列用虛線a、b和c表示,節點序列流動,直到支持判斷節點的下一個組合不滿足閾值。在節點序列中,如果具有已出現在上一個節點序列,將跳過這些節點。在更新每個集群中的規則時,重要的是要找到與最新數據不匹配的屬性。因此,規則更新中要考慮的屬性由以下過程確定。當計算集群中每個屬性和數據之間的輪廓值時,閾值設置為0.85,只有輪廓值低于0.85的屬性。將為規則更新過程中的判斷節點的屬性選擇。一些數據的庫存值和權重值低于0.85,因此這些值不包括在國民生產總值的規則更新中。在線規則更新系統中包含用于更新規則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質量的錨定點,進而影響輪廓值。在線規則更新系統應用中,完成主要的規則提取過程,這是一個標準的規則提取,在線規則更新系統考慮到數據集中的所有屬性。執行該過程,對初始數據集進行初始集群;改善規則更新過程,僅對輪廓值低于閾值的數據執行。

三、大規模并行處理技術的應用

大規模并行處理技術主要用于編寫和調試現代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數據應用中,會產生很多數據,在數據的分析和計算中,應該結合編程技術,標準語言是面向傳統體系結構的,這就是為什么編譯器不能使用所有可能的DSP體系結構以最佳效率生成代碼的原因。為了獲得一個良好的優化代碼,有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務,可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器,使用并行結構化的編程語言可以獲得比在C/C++中翻譯的應用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內核的并行性和其他特性。低級匯編代碼是由所有編譯器生成的,但是它們與傳統的基于文本的語言(如C/C++)一起工作。大數據應用環節,在數據分類和計算中,當兩個計算操作在不同的操作單元上執行時,才能在一個dsp核心的vliw命令中并行執行兩個計算操作。根據運算執行單元的不同,計算運算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執行兩個操作成為可能。第一種類型包括由算術和邏輯單元執行的操作,第二種類型包括由乘法器、移位器ms執行的操作。在模板中,標記“1”表示第一種類型的標識,標記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數據依賴關系,則可以進行并行化,DSP核心的并行性是通過在一個核心中存在多個操作單元來保證的。在大數據計算和分析中,如果有足夠多的通用寄存器來執行這兩個操作,并且它們可以并行執行,代碼就會并行化,提升數據計算的效率。

大數據技術范文2

“大數據時代的預言家”維克托近日在北京面對一萬多名技術信徒再次預言。

顯然,這三大經典的技術信條在大數據時代面臨動搖,

技術信徒的思維模式也即將發生顛覆。

那么,大數據對技術信徒意味著什么?

他們又將如何面對這一顛覆性的變革?

“技術匯成一條大河,一波推動另外一波。”IBM中國開發中心首席技術官兼新技術研發中心總經理毛新生帶著對技術的滿腔癡迷這樣形容道。

一波未平一波又起,移動、社交商務、云計算、大數據等先后涌現的新趨勢正在融合成一股巨大的潮流,將所有的行業IT化,進而推動商業和社會的演進。這也就意味著“科技是第一生產力”在當下有了更深層次的涵義——“IBM認為,在由新一代技術組成的智慧運算時代,中國的企業家們需要更為戰略地思考信息科技的定位,將其運用到自身的變革轉型之中?!?IBM全球副總裁兼大中華區軟件集團總經理胡世忠為企業新發展出謀獻策。

由2012年的“軟件技術峰會”改名為2013年的“技術峰會”,在這么一個盛會上,IBM試圖展示的內容涵蓋范圍更為廣泛——移動應用、大數據、云計算、DevOps軟件持續交付、應用整合、社交商務、專家集成系統等熱議話題,上百場技術主題演講、28場分論壇、22場動手實驗室和80個未來產品的現場演示,再加上被譽為“大數據時代的預言家”的《大數據時代》作者維克托·邁爾-舍恩伯格以及數十位來自IBM的院士、杰出工程師、相關領域的全球首席技術官和首席架構師的現場分享,IBM 2013技術峰會再次成為技術精英們關注的焦點。 大數據的新信條

《大數據時代》作者、牛津大學網絡學院互聯網治理與監管專業教授維克托·邁爾-舍恩伯格的出現著實讓場內數以萬計的技術信徒激動了一把。作為深刻洞察大數據給人類生活、工作和思維帶來的大變革的第一人,維克托以價格預測網站的例子作為開場白,論證了大數據已經悄然在大眾的身邊出現并給他們的生活帶來改變。

“全體性、混雜性和相關性是大數據的三個主要特點,而且這三個特點是互相加強的?!本S克托歸納出了大數據對應的思維變革。收集和分析更多的數據才能獲取足夠的數據隱含的細節,這些細節恰恰是隨機抽樣所錯失的?!案蓛簟钡?、高質量的數據不再是標的,大數據需要我們摒棄對宏觀上精確性的追求,轉而獲得微觀上的準確性,即接受混雜的數據。最重要的是,人們不再沉迷于追尋數據之間的因果關系,即不再糾結于為什么,而是直接獲得“是什么”的答案,并通過應用相關關系,更好地捕捉現在和預測未來——抽樣因錯失細節得不償失,盲目追求精確性已經過時,執著于因果關系喪失機遇。

如何在大數據時代生存?維克托指出了兩個關鍵點:一是意識到技術或者規模并不是成功的充分條件。遺忘規模經濟,因為它的效益會逐漸淡化。20年前,一個公司只有擁有上十萬臺的服務器才能提供搜索服務,但在大數據時代,由于云計算的便利性,不擁有實體服務器的公司,如前文提到的,它只有30個員工,但它有能力為其上10億的用戶提供數據分析。二是為了在大數據時代獲得勝利,大數據的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍色被谷歌選為搜索窗口的色彩,但藍色實際上有51種,而且這51種藍色人依靠裸眼無法明確區分,卻能在心理層面給人帶來不同的感受。經過大數據分析,谷歌發現原本由人工選出來的藍色會導致谷歌損失200億~300億美元的收入,因為這一種藍色并不最具備誘惑力,無法激起人們點擊的欲望。

大數據的力量需要具備大數據的思維模式,并有效利用大數據的工具去發掘。IBM杰出工程師、InfoSphere Stream高級開發經理James R Giles闡述了IBM對大數據的看法:“我們正一步步走到了一個新紀元——大數據時代。如同對待自然資源一樣,我們需要開掘、轉變、銷售、保護大數據資源;不同的是,大數據資源是無窮無盡的,我們不能任由大數據淹沒自己,而應該在獲得洞察需求的驅使下獲得價值?!?/p>

大數據的類型廣義而言有移動數據和靜態數據,還有結構性數據和非結構性數據,這對應著不同的處理方式?!凹夹g人員的責任是,能夠去管理這些數據,能夠理解這些從不同的數據源而來、不同類型的數據,能夠分析這些數據,得出結論,讓其提供決策支持,為企業擁抱新的大數據時代提供技術支撐,以保證管理、安全、商業的持續性。” James R Giles號召技術人員積極行動,以大數據的思維模式展現技術的價值和魅力。

找到內在聯系

技術的趨勢總是融合,也只有有機融合才能形成合力,發揮更大的威力,而實現這一合力的前提是明確各個趨勢之間的內在聯系。

“實際上,社交商務、移動、大數據、云計算是一體化的?!泵律ㄗh技術人員用一個全面的、融合的范式來沉著看待和應對紛繁的熱點技術,理解這些熱點會如何影響整個IT的走向,進而明晰IT如何可以很好地支持各行各業的業務轉型和創新,“讓每個行業都可以從新的技術轉型當中獲得足夠的原動力”。

從貼近最終用戶的角度來看,移動技術、社交技術改變了商業機構與其雇員、客戶進行互動的方式?!熬臀覀€人的經歷而言,航空公司的移動應用可以提供更好的客戶交互。我是西北航空公司的粉絲,因為它家的移動應用服務很貼心,比如查詢航班信息、根據我的喜好預留位置、定制化地進行社交推薦等。”毛新生以一個普通消費者的感受證明了企業通過移動應用收集并利用用戶行為數據所帶來的服務質量的提升。

移動催生了“一種嶄新的服務交付端點”,即為用戶提供了更多樣化的服務體驗點,讓用戶隨時隨地可以利用碎片化的時間去獲得業務服務,也為企業帶來了全新的服務交付渠道。移動這個渠道提供了更為豐富的全樣性數據,在此基礎上,大數據分析就更可信?!耙苿铀邆涞乃槠攸c會帶來更大量的用戶行為信息。當把所有的人的行為結合在一起,就可以做群體的社會性分析。社會性分析會得到比較準確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機會?!泵律J為移動與大數據結合給企業提供了新的商業機會。

移動的設備無處不在。人、汽車,甚至建筑物、道路、橋梁,它們無時無刻不在提供數據,這就是新的數據源,是它們引領我們來到維克托所描述的更為廣闊的大數據世界。

移動和社交商務的便捷性使得企業的整個業務流程變得非常自動化,用戶可以享受自助服務,對應到企業端就意味著業務流程對前端的需求要反應得更為迅速,也意味著各個業務系統之間無縫連接,否則沒有辦法支撐以最終用戶為中心的服務體驗,但跨部門和跨應用的整合實屬不易。進一步延伸開來,對用戶體驗的追求是無止境的,合作伙伴的API和服務可以作為補充,這即是“跨企業邊界”的行為。這種行為必然導致大規模的用戶訪問。這些整合和外部拓展都需要云計算提供靈活有效的基礎。沒有云計算,移動前端的體驗、大數據分析的效果都會大打折扣?!霸频幕A設施使大規?;?、大規模數據處理、大規模應用可以更好地服務我們?!泵律赋?。

環境變化加速,競爭更加激烈,要求企業的反應速度越來越快,應用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應用和業務流程的設計、開發、部署、測試、維護的整個過程要大大加快,也就是所謂的DevOps。只有把敏捷的開發和運維結合起來,生命周期變得以天為周期,才能響應新的商業環境?!?/p>

“移動、云計算、大數據、社交商務之間的緊密聯系讓我們應該以整體的眼光來審視它們?!焙乐覉孕牛鼈兊慕M合可以創造可持續的競爭優勢,可以迸發變革的力量。

至于一個企業應該從哪里下手來實現這一幅宏偉藍圖?毛新生給出的答案是:“每一個企業,因為它所處的行業或者特定的情況而擁有不同的切入點,有一些企業需要從移動開始,有一些企業需要從云計算開始,有一些企業需要從大數據開始,但是它們是不可分割的整體,只有綜合地運用它們,找到適合自己的切入點,一步一步腳踏實地,才能掌握先機,打造競爭力。在這個過程中,要擁有正確的思維,改變既有思維,理解趨勢,制定策略。”

例如,銀行、保險、零售業這一類和最終消費者打交道的服務業在很大概率上需要先從移動、社交商務入手,從而使其有機會改善和用戶交互的過程。而以數據為生的行業會琢磨如何將自己的內容和資源數據增值,而傳統的運營基礎設施的重資產企業,會追求將資產數字化,得到數據并進行分析,以優化資產的生命周期管理來預防性地降低維護成本,這些企業是以大數據作為切入點的。還有一些企業希望跨行業整合進行業務創新,背后牽扯到它們自身現有的業務模式和新業務模式的整合,這種情況下需要以云的方式構建新的應用、服務、商業流程。

毛新生認為切入點不同只是表象,每一種場景到最后都是綜合性的運用,要把這幾個技術綜合運用起來。從前端開始,首先是利用移動,并借助社交渠道交流,很快這些渠道會得到新的數據,這些新的數據和原有的交易數據和積累的數據結合起來做進一步的數據分析,這就是大數據分析。大數據分析以后可以做社交推薦、關聯推薦了。隨后,能不能跨界再實現更廣泛的銷售?跟別的價值鏈上的合作伙伴合作,那么引入云是解決之道。數據量增大,用戶數增多,云的基礎設施可以讓成本更合理。“所以說,到最后都是綜合性的應用,盡管起點不一樣”,毛新生說。

對技術人員而言,IT就是交付業務流程的基礎,是信息化的工具。它的目標無非是優化業務流程或者創新業務流程。創新到達一定程度后,業務流程的量變會導致質變?!斑@就解釋了為何全球越來越多的CEO將技術視為驅動企業發展的首要因素?!?IBM軟件集團大中華區中間件集團總經理李紅焰強調,技術人員有能力,也有責任將“看不見的技術轉變為看得見的享受”。

移動開發的轉變

在大數據的帶領下我們進入移動時代,企業有了新機遇,技術人員卻有了新挑戰。為什么移動開發和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術人員腦子里最主要的兩個問題。

IBM杰出工程師及IBM移動平臺首席架構師Greg Truty解答了這兩個疑問。他認為,很多企業現在所做的事情與在移動的狀態下做的事情是不一樣的,移動狀態下的任務和規劃更具有戰略性。移動應用是在不穩定的網絡上運行的,所占用的資源更少。用戶在移動設備上和非移動設備上的體驗是完全不一樣的,他們會希望在不穩定的網絡上仍然能夠獲得良好的體驗。企業現在需要思考的是,怎么樣把大量數據、大量體驗變成一些有意義的體驗。同時,移動管理的需求也不一樣了,開發的特性也不一樣了。比如對一個企業來說,移動開發周期更短,有更多設備需要支持,有更多開發方法可供選擇,也有更多的工具和庫可供選擇,這時候企業就需要仔細斟酌,哪些開發方法和工具是自己需要的。

自然而然,對于設備的管理也有了變化,因為應用變化了。“一直以來,客戶端服務器的應用架構是企業在使用的。你需要協調在服務器端的服務以及在客戶端的服務,挑戰非常大。你不可能強迫客戶運行你的應用,而必須能協調和兼容原有的系統。這是非常關鍵的一點?!?Greg Truty強調了設備管理的重要性。

此外,產品種類也非常多,新應用層出不窮。Greg Truty 認為多而新的局面下更需要冷靜處理:“我們會把應用和數據結合起來,移動和社交網絡結合起來,這樣做會創造一些新的得到數據的機會,需要進行管理。新的機會、新的技術,給整個IT組織帶來了更多的挑戰。”

大數據技術范文3

關鍵詞:煙草;數據中心;大數據;Hadoop;Impala

1.大數據技術現狀

當前許多企業都已基本實現了信息化建設,企業積累了海量數據。同時企業間的競爭日益加劇,企業為了生存及發展需要保證自身能夠更加準確、快速和個性化地為客戶提品及服務。而大數據技術能夠從海量的數據中獲取傳統數據分析手段無法獲知的價值和模式,幫助企業更加迅速、科學、準確地進行決策和預測。

1.1大數據技術現狀

廣大企業的迫切需求反之也促進了大數據技術的飛速發展,涌現出了諸如Hadoop、Spark等實用的架構平臺。其中,目前最主流的就是Hadoop。Hadoop的分布式處理架構支持大規模的集群,允許使用簡單的編程模型進行跨計算機集群的分布式大數據處理。通過使用專門為分布式計算設計的文件系統HDFS,計算的時候只需要將計算代碼推送到存儲節點上,即可在存儲節點上完成數據本地化計算。因此,Hadoop實現了高可靠性、高可拓展性、高容錯性和高效性,可以輕松應對PB級別的數據處理。

1.2大數據技術對煙草數據中心建設的影響

當前,煙草企業基于多年的信息化建設已經積累了海量數據,同時每天還不斷有新的各種數據產生。在高并發、大體量的情況下,需要在數據采集、存儲和運算方面采用與以往完全不同的計算存儲模式,這就不可避免地需要采用大數據技術。同時,除了購進單、卷煙交易數據、貨源投放數據等結構化數據外,還產生越來越多的非結構化數據,利用大數據技術,對非結構化數據進行預處理,可為人工判斷和機器學縮減范圍。對海量數據以及非結構化的信息進行分析統計,僅僅依靠傳統的技術手段很難實現,只有引入大數據技術才能充分的將所有的數據資源利用起來,成為企業決策的助力。

2.江蘇煙草數據中心應用現狀

2.1江蘇煙草數據中心體系架構

目前江蘇煙草數據中心以一體化數據中心、一體化數據管理和一體化數據分析三個部分為核心,構建了一套完整的數據中心架構。一體化數據中心是整個數據中心最核心的部分。通過數據倉庫模型、數據存儲、ETL工具等組成部分,構建了業務數據的收集、加工、存儲、分發的總體架構。建立了按ODS(SODS、UODS)、DW、DM三層結構設計建設的數據倉庫。一體化數據管理通過主數據管理、信息代碼管理、ESB平臺構建了企業主數據收集、標準化、同步分發過程。結合指標管理,全面管控企業的公用基礎信息。通過數據質量管理,全面有效管控數據質量。通過數據服務管理,有效提升數據中心的對外服務能力與水平。通過元數據管理來管理數據中心元數據。一體化數據分析通過構建移動信息、業務分析、數據挖掘三大模塊,針對性解決當前不同人員的決策、管理以及操作需求,發揮數據中心的數據、技術、平臺優勢。通過移動信息模塊為各級領導提供決策支持;通過業務分析模塊為業務人員的日常工作提供支撐;通過數據挖掘模塊,發掘數據所蘊含的隱性價值?;谏鲜鲆徽准軜嫷闹?,目前數據中心構建了全省范圍的數據集成、交換體系,一方面提升了全省基礎數據、業務數據的規范化程度和數據質量,另一方面為在建業務系統的實施、已有系統的改造提供了標準化的高質量數據保障。

2.2大數據技術的應用場景分析

隨著江蘇數據中心的不斷運行,一些基于傳統技術架構的功能逐漸暴露出種種問題。其中較為突出的問題有:一是使用者對于大數據量數據的查詢需求?;趥鹘y技術架構的查詢功能響應較慢;二是分析支持靈活性的不足。傳統統計分析應用的數據結構大多是預先定義好的,面對靈活的非傳統的統計查詢需求難以支撐,需要進行額外的加工處理。江蘇煙草數據中心結合互聯網大數據技術特性,引入Hadoop平臺以及Impala等工具,搭建基于大數據的自定義數據查詢平臺,以補充基于傳統技術架構的功能不足,并為未來進一步發展建設基于大數據技術和云環境的數據中心做好準備。

3.基于大數據的自定義數據查詢平臺實現

3.1設計思路及架構

基于大數據的自定義數據查詢平臺是在現有數據中心的建設成果之上,以數據中心的數據存儲為基礎,以Hadoop、Hive、Impala等大數據技術工具為手段,以簡單靈活、快速高效的查詢展現為目標,建立的數據查詢分析支持平臺。

3.2技術方案

自定義數據查詢平臺的建設主要涉及數據存儲架構、后臺數據加工準備、前端展現三塊內容。自定義數據查詢平臺的數據存儲分為兩部分。一部分為KETTLE、Impala等工具以及自定義查詢相關的元數據存儲,另一部分則是查詢所需的各種統計數據的存儲。元數據的存儲根據元數據庫的不同主要分為兩部分。第一部分為基于Mysql數據庫的元數據存儲。這部分元數據主要包括有ETL工具KETTLE的元數據,以及前端自定義查詢需要定義的權限、數據源、表、列和表列關系等信息。第二部分為基于Hive的元數據存儲。這部分存儲的是前端查詢需要使用的Impala工具的元數據。統計數據的存儲則是使用Hadoop的HDFS實現的。根據Hadoop平臺架構,自定義數據查詢平臺的HDFS建立在6臺虛擬主機構建的集群上的。其中:2臺虛擬主機作為NameNode,一臺為主節點,另一臺為備份節點;其余4臺虛擬主機都作為DataNode用于存儲數據。所有數據將會統一分塊自動分配存儲到4個DataNode上。自定義數據查詢平臺的數據加工,是通過開源ETL工具KETTLE實現的。通過KETTLE從數據中心現有數據倉庫及數據集市中讀取需要的數據,根據自定義數據查詢平臺的數據模型定義對數據進行處理,最終加載到Hadoop的HDFS文件系統中。自定義數據查詢平臺的前端展現功能,主要是基于JSP技術實現頁面開發,通過JDBC或者ODBC對后臺Mysql數據庫進行訪問。使用者在查詢頁面中組織定義查詢的內容,查詢服務自動根據獲取的元數據信息將定義的查詢內容拼接轉換成為查詢SQL,之后通過Impala執行查詢SQL對HDFS文件系統中的統計數據進行查詢。

3.3系統實現效果

利用大數據技術,自定義數據查詢平臺較好地解決了目前數據中心所面對的問題,滿足了使用人員對于大數據量以及分析靈活性的需求。面對使用人員層出不窮的查詢需求,自定義數據查詢平臺通過預先梳理、分類定義各種維度以及統計指標。使用者可以自由的根據實際需求選擇分析所需的維度及統計指標,同時還可以基于這些基礎的內容更進一步自定義過濾條件以及計算公式,并指定其展現形式。在大數據量查詢效率方面,自定義查詢平臺相比傳統架構的查詢功能有了較大提升。

4.結束語

大數據技術的發展方興未艾,應用前景無比廣闊,對各行各業的巨大作用正在逐步展現。江蘇煙草數據中心的建設既要看到大數據技術未來的前景,更需要明確地認識到大數據平臺的建設并非一朝一夕,需要有明確而長遠的規劃,不斷完善數據環境建設、云計算環境的構建以及數據服務的擴展。

參考文獻

[1]陳鵬.大數據時代下的信息安全問題研究[J].電子制,2015,18:48

[2]劉憶魯,劉長銀,侯艷權.大數據時代下的信息安全問題論述[J].信息通信.2016,181-182

大數據技術范文4

【關鍵詞】數據挖掘 數據分類算法

在當前的時代背景下,很多的行業都引入了大數據挖掘的理念,這既給計算機產業帶來了發展機遇,也帶來了挑戰。因為想要做好大數據挖掘的相關工作,就一定要掌握數據分類算法,而數據分類算法可稱得上是數據挖掘中的一道難關。隨著數據分析的研究不斷深入,人們開發了多種多樣的分類算法,用以不斷減輕其難度。通常都是以數據分類器為基準,進行相應的數據分類,包括決策樹類、Bayes類、基于關聯規則類以及利用數據庫技術類,本文將對它們進行簡單的闡述。

1 決策樹分類算法

1.1 傳統算法

C4.5算法作為傳統的數據分類算法,有著很明顯的優點,如規則簡單易懂,實際操作易于上手。但是隨著計算機的不斷普及,數據的規模變的越來越龐大,其復雜程度也是日漸增長。C4.5已經逐漸無法滿足新時期的數據分類處理工作了。并且由于決策樹分類算法的規則,決定了在數據分類的過程中,要對數據進行多次重復的掃描和排序。特別是在構造樹的時候,這種缺點更加明顯。這不僅會影響數據分析的速度,也浪費了更多的系統資源。對于大數據挖掘來說,C4.5更加無法勝任,因為C4.5算法的適用范圍十分有限,只能夠處理小于系統內存數量的數據,對于內存無法保留的過于龐大的數據集,C4.5甚至會出現無法運行的情況。

1.2 衍生算法

(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而來,在其基礎上做了一些技術性的完善,例如增強了數據的排序技術,并采取了廣度優先的處理策略。這使得SLIQ算法能夠很好地記錄數據處理的個數,并具有相當優秀的可擴展性,為處理大數據提供了基礎條件。但是SLIQ算法也存在一些缺點,由于它是以C4.5算法為基礎的,因此在進行數據處理時,仍需要將數據集保留在內存中,這就導致SLIQ算法的可處理數據集的大小受到了限制。即數據記錄的長度一旦超過了排序的預定長度,SLIQ算法就很難完成數據處理和排序的工作。

(2)SPRINT 算法是為了解決SLIQ算法中數據集大小受到內存限制的問題而開發出來的。SPRINT 算法重新定義了決策樹算法的數據分析結構,改變了傳統算法將數據集停留在內存中的做法。值得一提的是,它沒有像SLIQ 算法那樣講數據列表存儲在內存當中,而是將其融合到了每個數據集的屬性列表中,這樣既避免了數據查詢時重復掃描造成的速度緩慢,又釋放了內存的壓力。特別是在進行大數據挖掘時,由于數據的基數過大,在每個數據集的屬性列表內尋找所需數據能夠大大節省分析的時間,對數據進行分類的工作也變得更加便捷。但是SPRIT算法同樣存在一些缺點,對于不具有可分裂屬性的數據列表,由于它只能在數據集內進行分析,結果可能不是十分準確,導致其拓展性受到了限制。

2 其他分類算法

2.1 Bayes分類算法

Bayes分類算法是利用概率統計學而開發出來的一種算法,在目前數據分類中應用比較廣泛。但是其缺點也比較明顯,由于Bayes分類算法需要在分析之前對數據的特性做出一定的假設,而這種假設往往缺少實際數據的理論支持,因此在數據分析過程中就很難做到準確有效。在此之上,TAN算法又被開發出來,它是為了提高Bayes分類算法的假設命題的準確率,也就是降低了NB任意屬性之間獨立的假設。

2.2 CBA分類數據算法

基于關聯規則的分類算法就是CBA分類數據算法。這種算法一般需要用到數據構造分類器,在數據分析的過程中,先搜索到所有的右部為類別的類別關聯規則,這被稱為CAR;然后再從CAR中選擇合適的數據集。CBA算法中主要用到的是Apriori算法技術,它能夠使潛在的數據關聯規則呈現到表面,方便進行歸納整理。但是由于其在進行數據分類時容易出現疏漏,因此經常采用設置最小支持度為0的辦法來減少遺漏的數據,這就造成了算法的優化作用不能完全發揮,降低了運行效率。

2.3 MIND和GAC-RDB算法分類算法

在大數據挖掘的背景下,未來數據分類算法的發展方向應當是以數據庫技術為基礎的的分類算法。盡管很久之前就已經有一些專門研究數據庫的人員發現并提出了基于數據庫技術的分類算法,但是并沒有得到實際運用。因為在進行數據挖掘和數據分析的時候,很難將其與數據庫的系統集成,目前來說,MIND和GAC-RDB算法還能夠較好地解決這個問題。

2.3.1 MIND算法

MIND算法與決策樹算法有些相似,都是通過構造數據分類器來進行數據分析。但是MIND算法采用了UDF方法和SQL語句來與數據庫系統實現關聯。在進行數據分析時,UDF方法能夠大大縮短對每個節點的數據特性進行分析的時間,這樣就在為數據庫的集成提供了理論基礎。SQL語句是通過對數據集的屬性進行分析,以便從中選擇出最合適的分裂屬性,然后給數據排序,這樣就節省了數據分類的時間。但是MIND算法還不能直接在數據庫系統中實現查詢功能,更重要的是,該算法的維護成本過高,不利于普及。

2.3.2 GAR-RDB算法

GAR-RDB算法在MIND算法的基礎上進行了更多的改進,能夠充分利用數據庫系統進行聚集運算,也就是實現了數據庫系統的集成。該算法擁有分類準確,分析迅速,執行更快的優點,同時可拓展性也比較出色。更重要的是,它可以充分利用數據庫提供的查詢功能,從而避免了重復掃描數據集的現象,縮短了分析的時間,節約了系統資源。只要在自動確定參數取值的技術上進行一些改進,該算法就能很好地勝任大數據挖掘的數據處理工作。

3 總結

大數據挖掘是時展的潮流,因此數據分類算法的重要性也將隨著顯現。通過分析幾種不同的算法,能夠在數據分析速度、可擴展性和結果的準確性上進行比較,從而選擇最適合的數據分類算法。它們都在不同程度上有著各自的優缺點,因此要繼續深入研究以開發出更好的分類算法。

參考文獻

[1]錢雙艷.關于數據挖掘中的數據分類算法的綜述,2014(13).

[2]劉紅巖.數據挖掘中的數據分類算法綜述,2002(06).

大數據技術范文5

21世紀,我國的經濟進入飛速發展階段。經濟全球化和信息共享推動了各個領域的發展和創新。人們的生活水平不斷提高,對生活的質量要求也越來越高?;ヂ摼W進入家家戶戶,為人們的生活帶去了便利?;ヂ摼W覆蓋面極廣。無論是建筑、教育、新媒體,還是醫療、工業,都不同程度的使用了互聯網?;ヂ摼W帶動了大數據時代,每天都有海量的信息充斥著人們的生活。如何在大數據環境下保證網絡安全技術是本文研究的主要內容。

【關鍵詞】

互聯網;大數據;網絡安全技術

大數據已經開始影響人們的生活了,人們越來越依賴大數據。在商業領域,大數據成為預測行情、找準營銷方向點的重要載體;在公共的服務領域,大數據為人們的出行、旅游、健康、環保等方面提供出參考信息;大數據為人們生活帶來了方便、快捷、靈通的消息和服務。但是,也在人們的生活中增添了很多危險的因素。在大數據環境下,人們上網、購物、消費的同時也暴露了個人信息。提高網絡的安全技術,在社會發展的同時保障人們的合法權益。

1大數據時代

最早提出大數據的人是維克托•邁爾-舍恩伯格及肯尼斯•庫克耶,他們認為大數據是一個巨量資料庫。大數據具有大量、高速、多樣、價值等四個主要特點,大數據以多元的形式將很多信息資源收集在一起,形成一個實效性特別強的數據組。大數據與云計算的關系密不可分,在大數據需要使用分布式的計算結構時,云計算會幫助大數據進行分布式處理、建立分布式數據庫和云存儲。在人們的意識里,數據就是簡單的信息。在互聯網時代到來之后,大數據時代也緊跟著到來。大數據不是簡單的互聯網信息,在工業設備、汽車、電表、機械等方面安裝上數碼傳感器,隨著空氣、溫度、濕度、環境的變化數碼傳感器會發生變化,隨之產生很多的數據信息,將這些數據匯集到一起進行研究處理就形成了數據庫,也就是大數據。大數據的產生對社會的發展有著很大的影響,它可以通過數據間的信息變化,設計出適合生產的軟件。將大數據運用到社會的各個領域中,可以節省資源、提高生產效益。企業中可以利用大數據對大量消費者的消費狀況有一個詳細的了解,找到消費者們共同的消費領域,制訂精準的營銷方案。大數據時代下,一些小型企業可以借助大數據的優勢做服務轉型。大數據環境下,企業的創新之路會走的更順暢更久遠。

2大數據環境中存在的問題

隨著大數據時代的到來,很多新興技術和軟件應運而生?;ヂ摼W的普及是人們出門攜帶的物品越來越少,甚至有人說拿著一部手機就可以走遍天下。無論是購物,還是吃飯,一個手機APP就可以全部搞定。但是,現在的軟件都是實名制的,隨著使用的數據軟件越多,人們的個人信息就暴露的越全面。近幾年,網絡詐騙的案件層出不窮,人們的姓名、身份證信息、家庭住址等等,都已經不再是秘密。大數據環境下,人們的個人信息被盜取是最大的問題。在2014年,支付寶前技術員工利用職位便利將20萬的支付寶用戶信息非法賣給了他人,這個事件發生之后,在社會上引起了很大的轟動。人們開始意識到自己的信息并不安全,有了防范心理。但是,騙子的手段也是層出不窮,每年都有很多人因為輕信網絡信息,被騙取了大量錢財。海量數據的安全存儲問題大數據環境中的數據存儲太多,存儲數據的系統無法滿足大數據的運用。大數據所帶來的存儲容量問題、延遲、并發訪問、安全問題、成本問題等,對大數據的存儲和安全保護系統提出了新的挑戰。大數據的存儲分為結構化存儲和非結構化存儲。結構化數據的存儲中安全防護存在很大的漏洞,諸如物理故障、軟件問題、病毒、黑客攻擊等因素是威脅數據安全的問題。非結構化數據占大數據總量的80%,在對數據存儲進行管理和處理工作中,一般使用NOSQL存儲技術。雖然NOSQL存儲技術有很大的優點,但是數據的多、雜、亂依然使數據存儲工作一團糟。在非結構化的數據存儲出現了訪問控制和隱私管理模式問題、技術漏洞問題、驗證安全問題等。

3提高網絡安全技術的措施

出現問題就要解決問題,大數據在促進社會發展的過程中也產生了很多的弊端。找到問題的源頭后,就應該付出實踐去解決問題。通過對數據進行網絡安全監控,提高大數據環境的安全性能。網絡安全技術是在數據傳輸中保證數據安全性的一種技術手段,網絡安全技術又分為網絡結構安全分析技術、系統安全結構分析技術以及物理安全分析技術和管理安全分析技術。提高網絡安全技術,在大數據環境中建立健全的網絡安全體系。提高網絡安全技術的具有措施有以下幾點:

3.1使用入侵檢測系統

入侵檢測系統是網絡安全技術中的新型系統,主要對數據進行實時的入侵檢測,是一種保證數據安全、無病毒的防護系統。入侵檢測系統分為兩類,一類基于主機;一類基于網絡。機遇主機的入侵檢測系統可以保護重要的服務器,隨時監測并可疑連接、非法訪問的入侵?;诰W絡則是用來監控網絡主要的路徑信息、不良信息。一旦發現入侵現象立馬發出警報,并自動采取防護措施。

3.2提高網絡安全技術人員的綜合素養

“監守自盜”是大數據時代下經常出現的問題,負責保護整理數據的人員成了販賣數據信息的人。在企業或者媒體平臺中,應該對所有的職員進行培訓。建立網絡數據管理制度,對不遵守制度的人嚴懲不貸。提高網絡安全技術人員的專業能力和職業素養,對企業中的數據進行嚴格保管,不做有損人民利益和企業形象的事情。

4結語

在這個日新月異的時代中,人們的生活每天都有新的變化。隨著大數據時代的到來,人們可以輕松解決很多事情。沒有了時間和空間的上的阻礙,經濟發展的腳步會越來越快的。將來,大數據在教育、消費、電力、能源、交通、健康、金融等全球七大重點領域都會得到全面廣泛的應用。大數據已經成為了國家發展的趨勢。為保證大數據能夠利國利民的進行,國家的網絡安全監測人員需要不斷地提升自己的專業能力,加強對網絡安全的管理。提高網絡安全技術,使人們能有一個健康、安全的生活環境。

參考文獻

[1]王元卓,靳小龍,程學旗等.網絡大數據:現狀與展望[J].計算機學報,2013,36(06):1125-1138.

[2]李建中,劉顯敏.大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013,50(06):1147-1162.

大數據技術范文6

摘要:“大數據”無疑是當下最熱門的話題,但隨著人們對于“大數據”研究的逐漸深入,大數據技術問題面臨嚴峻的挑戰,本文在分析了大數據背景和研究意義的基礎上提出了當前大數據面臨的技術挑戰,并從資源基礎觀的視角對能耗、算法、安全等幾個角度闡述了大數據技術的應對策略。

關鍵詞:大數據;技術挑戰;能耗;算法;資源基礎觀一、引言

隨著科學技術的發展和人們需求的不斷變化,信息數據量逐年增加,尤其是過去幾年結構化數據、半結構化數據等多種類型的數據幾乎呈現爆炸式增長。維克托•邁爾―舍恩伯格曾說,世界的本質就是數據,大數據的發展動力主要來源于人類測量、記錄和分析世界的渴望。

阿爾文•托夫勒(1980)在其《第三次浪潮》一書中首次提到“大數據”一詞。隨后在20 世紀90 年代,被稱為“數據倉庫之父”的比爾•伊蒙(Bill Inmon)明確提出了“大數據”的概念。但“大數據”的說法在當時并沒有引起人們的過多關注。2012年3月22日,奧巴馬宣稱美國政府即將投資2億美金啟動“大數據研究和發展計劃”。這項計劃的實施更提高了研究者們對于“大數據”的關注度。

二、大數據的研究意義

隨著人們對于大數據的關注度越來越熱,研究者們發現大數據存在巨大的科學價值和社會價值。一旦思維轉變,挖掘數據就能被用來激發新產品和新服務,只要善于挖掘、抽取和利用數據,不僅能夠成為企業之間競爭的核心力量,同時也成為國家競爭力的一部分。2009年時,甲型H1N1流感迅速傳播,谷歌公司解釋了怎樣預測冬季流感的傳播。這種預測方法在之前是被人們所忽視的,建立在大數據的基礎上的一種前所未有的方式,通過對海量數據進行檢索與分析,獲得了巨大的價值。到2012年為止,Farecast系統的檢索了將近10萬億條價格記錄在預測美國國內航班的記錄,這種預測工具使得購買機票的旅客,平均每張機票科節省50美元,等等都被稱為是大數據應用的經典案例。顯然,有效挖掘、利用大數據能夠產生巨大的科學價值和社會價值,大數據逐漸成為現代社會基礎設施的一部分。

三、大數據面臨的技術挑戰

無數成功的案例,無不證明了大數據帶來的潛在價值,而且國家在大數據技術方面已經投入大量的人力、物力等,然而如果沒有與大數據相匹配的科學技術帶動的話,我們將無法有效利用大數據的潛在價值。

《中國電子科學研究院學報》編輯部在《中國電子科學研究院學報》[1]中講到大數據的特點時,不僅強調了大數據多樣化、海量、快速、靈活等四個特點,更加強調了大數據復雜性的特點,使得對大數據的處理更加艱巨,并且傳統的基于網格分布式型數據庫的商務智能已經不再適合對大數據進行處理了,所以大數據對軟件技術提出了更高的要求。維克托•邁爾- 舍恩伯格在其著作《大數據時代》中也指出這一點,“數據量的大幅增加會造成結果的不準確,一些錯誤的數據會混進數據庫,造成數據庫的混雜性”[2]。在數據從數據產生到數據的利用經歷了許多的過程,而且任何一次數據的篩選與分類都無法回避面臨的技術方面的挑戰,如圖1所示為數據的整個處理流程:圖1大數據處理流程

如上圖所示,在對源數據進行簡單的篩選和抽取后,大量的數據主要以結構化數據、半結構化數據和非結構化數據三種形式存在,雖然目前Hadoop和NoSQL等分布式處理技術已經能對非結構化的數據進行挖掘、抽取并有效利用,但是還沒有一個比較全面而完善的解決方案。

四、 大數據技術的應對策略

隨著各種分類和存儲技術的發展,大數據的研究帶來巨大的價值,但是同時也付出了巨大的代價,從資源基礎觀的角度,大數據技術在帶來巨大價值的同時,我們更加應該關注付出的成本,畢竟凈價值才是大數據的終極目標。本文主要從資源基礎觀的角度對大數據面臨的技術挑戰,從能耗、算法、安全等幾個方面來闡述大數據技術的應對策略。

(1)大數據能耗問題的應對策略。吳金紅等人在《大數據:企業競爭情報的機遇、挑戰及對策研究》中談到大數據時代即將面臨的能源消耗問題。麥肯錫公司經過一年的調查研究,最終在《紐約時報》上發表文章“Power,pollution andthe Internet”.據調查研究,能耗在目前數據管理系統中的費用大約占總能耗的16%左右。我國的“十二五”規劃中,明確了對于能源的要求,我們更要節約能源、資源,有效的利用資源。大數據新型存儲技術中的閃存和相變存儲器PCM,能夠有效降低能耗的問題。閃存比磁盤能耗更低,讀取數據的能耗只占磁盤的2%,而且寫操作也只有磁盤的30%,閃存的出現為目前大數據研究帶來的高耗能問題提供了有力的支持。PCM是一種基于微型存儲單元的相變存儲器,保存數據或代碼不需要刷新電流,而且不容易流失,這將或許成為降低耗能更好的選擇[3]。

(2)大數據算法問題的應對策略。目前許多傳統的數據抽取和存儲技術已經不再適用,而且大數據模型中算法的優化需要長時間的積累與沉淀,越早研究就越有利用競爭,越能夠降低成本,因此研發具有世界先進水平的大數據算法技術具有迫切的意義。

大數據模型的優化主要核心就是要確定目標函數的參數,通過優化相應的目標函數來優化傳統的算法。目前針對算法技術的難題,我們可以采用隨機梯度下降模型來優化目標函數,即先找到目標函數f(w),然后采用迭代的策略,從初始點W0開始,沿著目標函數初始點的負梯度方向進行研究,即Wt+1=Wt-αf(Wt),直到不能再繼續迭代,則會得到最優解W*。目標函數的形式一般假設為f(w)=∑i=1…nf(w,xi),其中:xi為第i個數據項[4]。隨機梯度下降能夠有效的處理非機構化數據的并行問題而且對數據的容錯性較高。

(3)大數據安全技術的應對策略。在談到大數據的風險問題時,不可回避的一個問題就是大數據帶來的安全問題。資源基礎觀強調了研發新技術產生價值的同時也要利用技術來降低資源的浪費。在亞洲、南美等新興市場,數據保護的缺失更加嚴重。海量數據技術的發展能夠有效跟蹤網絡異常行為,把實時安全和應用聯合在一起進行對數據的有效防護。關于數據安全存儲的應對策略主要從以下四個方面來隊數據安全進行解決與維護:一、數據加密。通過關鍵技術對數據加密能夠有效保護隱私和防止黑客攻擊;二、分離密鑰和加密數據;三、使用過濾器;四、數據備份。通過以上四個方面對數據端對端的保護,能夠有效確保大數據信息的安全[5]。

五、結論與展望

本文對近幾年來國內外關于大數據的產生背景和研究意義進行了回顧和總結,并對當前技術面臨的挑戰從資源基礎觀的角度提出了一些應對的策略。但目前我國關于大數據的研究還在初期階段,我們隨后將會通過提出更加有針對性的解決措施或相關的評價性研究等方式來降低風險,提高利用大數據的有效性。

參考文獻

[1]《中國電子科學研究院學報》編輯部.中國電子科學研究院學報.2013(1).

[2][英]維克托•邁爾•舍恩伯格、肯尼思•庫克耶著,盛楊燕等譯,《大數據時代》,浙江人民出版社.

[3]金培權等.面向新型存儲的大數據存儲架構與核心算法綜述[J].計算機工程與科學.2013(10).

亚洲精品一二三区-久久