前言:中文期刊網精心挑選了大數據分析范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
大數據分析范文1
大數據在如今社會已經成為熱點詞匯,不僅在計算機領域,在其他各個行業都能夠得到運用,為各個行業提供便捷,為了讓大數據能夠得到充分利用,下文將對大數據分析相關方面進行討論。
一、大數據與大數據時代
(一)大數據大數據是在當今科技飛速發展的情況下,一種新興的信息數據處理技術。隨著社會科技的進步,各行各業對于數據的應用也越來越廣泛,傳統的數據處理技術耗時較長且精準度較為低下,已經不能滿足現代科技對數據應用的要求。新時代的大數據系統具有超大的數據容量,同時兼容半結構化與結構化的數據,遠遠超出傳統數據庫管理系統的管理能力。因此新的大數據技術就此誕生。大數據在發展過程中,具有比為鮮明的特點。與傳統數據處理技術相比,大數據具有數量龐大、多樣化、速率快、價值高的特點。在信息處理的速度不斷加快的當今社會,這樣的特點為大數據的廣泛應用打下了堅實基礎。由于數據的數量較為龐大,且各種數據近年來的增長趨勢呈指數型,其數據的種類和形式也各有不同。其次,合理利用大數據技術,能夠在一定程度上降低成本,提高效率,因此,大數據處理各項關鍵技術的進一步的開發與利用已成為了提高自身效率,實現核心競爭力的重中之重。
(二)大數據時代大數據時代是指在物聯網技術、計算機技術、數據信息處理技術的基礎上,通過互聯網途徑,大量收集并處理分析數據資源,而形成一種新型的信息時代。大數據時代的主要核心內容是對龐大的數據體系進行處理以發揮價值,從而提升數據分析效率以及數據應用價值。大數據時代是由多種信息技術共同組成,可以有效地避免數據處理中不同步、使用不方便的情況發生,具有高效可靠的數據處理、整合、分析及匯總的功能。因此,大數據時代的新型數據處理技術可最大程度的對數據進行分析與挖掘,極大提高處理數據的效率。
二、大數據時代與統計學
(一)大數據時代與統計學的關系統計工作是集數據的搜集、整理、分析和解釋為一體的系統的過程。大數據與統計二者互相依存,通過統計的方法和原理對數據進行整理和分析,提高數據的精確度和適用度,以此來實現數據的價值和利用率。由此看來,大數據與統計學的聯系既緊密,又存在區別。大數據與統計學的關系甚為密切,它們都是關于數字的學科。統計學為大數據提供了了施展方向,而大數據將統計學引領至更深更廣的空間。共性之一就是社會與數據。幾乎所有的行業與大數據都有著密切聯系,這些聯系或直接或間接,而人們正是通過獲取數據并進行分析,從而才能得到商業知識和社會服務等能力。大數據與統計學的區別。首先,信息規模不同。大數據的分析對象是與某事物有關聯的所有數據,要求數據量龐大。統計學則是用樣本來分析和推斷總體的數量特征。在大數據時代,則可以通過各種方法和渠道獲得全面而又完整的的信息資料,從而完成更多從前無法完成的事情。其次,動靜標準不同。數據經過了搜集、整理、分析的過程就很有可能因為精確性不足而被認為失去了用處。而大數據時代,則不必再擔心這個問題,數據的精確性和原始性不在被過分重視,人們可以接受復雜數據。第三,數據搜集形式不同。在以往數據搜集形式主要是抽樣調查,方法局限。而在大數據時代,特點是信息爆炸和互聯網飛速發展,這一情況得到改觀。最后,思維方式不同。大數據時代人們的思維發生轉變,人們開始更多的關注事物的相關關聯。
(二)大數據對統計學研究工作的影響首先,大數據豐富了統計學的研究對象。在大數據時代,我們既可以以結構化數據作為測量單位對文本、圖像和視頻等進行分析,還可以對非結構化數據實行分析。其次,大數據影響了統計學的工作進程。統計數據需求豐富,原有的統計抽樣分析不能在適應時代的發展,而現代科技方法如透過傳感器自動收集數據等方法取代了傳統方法,更加便捷有效。
三、大數據數據分析理念
(一)統計學的應用隨著現代科技的發展,傳統的大數據已經不能滿足人們對數據處理的要求。傳統的抽樣數據調查不能滿足大數據的數據處理以及知識發現。因此,新技術及思維的引進就顯得尤為重要。新的統計學思維以及知識的應用能夠很大程度的提高大數據分析的效率。摒棄對傳統的小數據樣本的依賴,不在用傳統的統計工具對數據進行全部分析。而是對數據進行針對性的分析,使數據分析更加精準,并且能夠更加全面的體現數據的價值。我們利用統計計算工具對數據進行分析從而判斷數據的變化趨勢。統計學的應用可以,為數據分析提供科學的參考依據。
大數據分析范文2
這位CEO手下的經濟學家描繪出一片慘淡的景象,并且計算出經濟低迷對公司意味著什么。但是最終,他還是在自己價值觀念的指引下做出了決定。
這家銀行在意大利已經有了幾十年的歷史。他不希望意大利人覺得他的銀行只能同甘不能共苦。他不希望銀行的員工認為他們在時局艱難之際會棄甲而逃。他決定留在意大利,不管未來有什么危機都要堅持下去,即便付出短期代價也在所不惜。
做決策之時他并沒有忘記那些數據,但最終他采用了另一種不同的思維方式。當然,他是正確的。商業建立在信任之上。信任是一種披著情感外衣的互惠主義。在困境中做出正確決策的人和機構能夠贏得自尊和他人的尊敬,這種感情上的東西是非常寶貴的,即便它不能為數據所捕捉和反映。
這個故事反映出了數據分析的長處和局限。目前這一歷史時期最大的創新就在于,我們的生活現在由收集數據的計算機調控著。在這個時代,頭腦無法理解的復雜情況,數據可以幫我們解讀其中的含義。數據可以彌補我們對直覺的過分自信,數據可以減輕欲望對知覺的扭曲程度。
但有,些事情是“大數據”不擅長的,下面我會一一道來:
數據不懂社交
大腦在數學方面很差勁(不信請迅速心算一下437的平方根是多少),但是大腦懂得社會認知。人們擅長反射彼此的情緒狀態,擅長偵測出不合作的行為,擅長用情緒為事物賦予價值。
計算機數據分析擅長的是測量社會交往的“量”而非“質”。網絡科學家可以測量出你在76%的時間里與6名同事的社交互動情況,但是他們不可能捕捉到你心底對于那些一年才見2次的兒時玩伴的感情,更不必說但丁對于僅有兩面之緣的貝阿特麗斯的感情了。因此,在社交關系的決策中,不要愚蠢到放棄頭腦中那臺充滿魔力的機器,而去相信你辦工作上的那臺機器。
數據不懂背景
人類的決策不是離散的事件,而是鑲嵌在時間序列和背景之中的。經過數百萬年的演化,人腦已經變得善于處理這樣的現實。人們擅長講述交織了多重原因和多重背景的故事。數據分析則不懂得如何敘事,也不懂得思維的浮現過程。即便是一部普普通通的小說,數據分析也無法解釋其中的思路。
數據會制造出更大的“干草垛”
這一觀點是由納西姆塔勒布(Nassim Taleb,著名商業思想家,著有《黑天鵝:如何應對不可知的未來》等書作)提出的。隨著我們掌握的數據越來越多,可以發現的統計上顯著的相關關系也就越來越多。這些相關關系中,有很多都是沒有實際意義的,在真正解決問題時很可能將人引入歧途。這種欺騙性會隨著數據的增多而指數級地增長。在這個龐大的“干草垛”里,我們要找的那根針被越埋越深。大數據時代的特征之一就是,“重大”發現的數量被數據擴張帶來的噪音所淹沒。
大數據無法解決大問題
如果你只想分析哪些郵件可以帶來最多的競選資金贊助,你可以做一個隨機控制實驗。但假設目標是刺激衰退期的經濟形勢,你就不可能找到一個平行世界中的社會來當對照組。最佳的經濟刺激手段到底是什么?人們對此爭論不休,盡管數據像海浪一般涌來,就我所知,這場辯論中尚未有哪位主要“辯手”因為參考了數據分析而改變立場的。
數據偏愛潮流,忽視杰作
當大量個體對某種文化產品迅速產生興趣時,數據分析可以敏銳地偵測到這種趨勢。但是,一些重要的(也是有收益的)產品在一開始就被數據擯棄了,僅僅因為它們的特異之處不為人所熟知。
數據掩蓋了價值觀念
大數據分析范文3
(兗州煤業榆林能化有限公司,陜西榆林719000)
[摘要]隨著信息技術的發展與應用,各種數據信息通過互聯網、云終端、交際圈、物聯網等之間的大規模傳遞,人類進入到一個大數據時代,數據信息之間的傳遞影響著人們的決策成本,傳統的信息不對等所造成的差距條件已經消失,而不起眼的數據卻能夠創造巨大的價值。本文對大數據時代背景下數據分析理念進行分析和指導。
[
關鍵詞 ]大數據時代;數據分析理念;分析
[DOI]10.13939/j.cnki.zgsc.2015.22.074
在傳統的商業運作模式中,在運營過程中對自身經營發展的分析只停留在數據的簡單匯總層面,缺乏有效地對客戶網絡、業務范圍、營銷產品、競爭對手優劣等方面進行深入解析;而在當今大數據時代,通過所接收的大量內部和外部數據中所蘊含的信息中透露的市場彈性,可以預測市場需求,進行分析決策,從而制定更加行之有效的戰略發展計劃?!按髷祿笔且粋€量特別大,數據類別特別大的數據集,并且這樣的數據集無法用傳統數據庫工具對其內容進行抓取、管理和處理。在當今信息時代,很多企業用戶在實際應用中把多個數據集放在一起,已經形成了PB級的數據量;數據類型廣,數據來源種類多,且數據種類和格式日漸豐富,囊括了半結構化和非結構化數據,早已打破傳統的結構化數據范疇,如何在大數據時代背景下進行科學有效的數據分析這需要加強對市場的了解,對泡沫經濟的規避,了解數據所傳遞的信息真假。
1數據化決策的興起與運用
在大數據時代,信息之間的爆炸增長,使得各種信息傳遞非常之快,只需要拿起網絡終端就可以了解到地球另一邊發生了什么。文字、圖形、影像都化作數據流在網絡中以電信號的方式傳遞著信息。數據流在傳遞各行各業的信息同時形成了滲透于各行業的核心資產和創新驅動力。在大數據時代,企業所擁有的數據集合規模及數據的分析和處理能力決定著企業在市場中的核心競爭力。
因此通過數據分析進行決策漸漸成為新的分析理念,例如,在支付寶上進行對電影票房的投資,這些投資通過對導演往期作品和演員的表演張力,及投資方的選角等數據進行分析,預測電影的票房,選取投資可獲利的電影,進行票房投資,從而獲取票房分紅。我國的石油油田根據地震技術的收集數據,進行科學統一規劃的分析處理,形成對地下油田的分析建模,能夠有效直觀地展示地下油藏的分布情況,從而選擇油井的開采點。中國人民銀行通過對人民幣匯率的漲幅,進行數據分析,來制定符合中國國情的外匯貨幣政策,對貨幣進行宏觀調控,這能夠有力的保護人民幣升值時,在國際貿易市場中國進出口貿易所面臨的壓力。在大數據時代背景下,通過直覺和經驗進行決策分析的優勢不斷下降,在商業、政治及公共服務領域中,通過對大數據進行數據分析從而做出符合時代背景的決策,已成了目前的潮流。
2數據分析理念及方法
(1)數據分析要引入統計學思想。在大數據時代背景下,傳統的抽樣分析已經并不適用于對大數據的分析中,在大數據時代應當要轉變思維,轉變抽樣思想,樣本就是總體,要分析與某事物相關的所有數據,而不是依靠少量數據樣本,這樣才能夠在最大限度地明白事物發展變更過程,能夠對數據所表露的信息進行更好地處理[1]。要更樂于接受數據的紛繁蕪雜,不再追求精確的數據,這并不是說其嚴謹性降低了,而是往往不起眼,不符合常理的數據更能夠反映實際的情況。通過對數據網絡之間的聯系進行分析,不再探求難以捉摸的因果關系,通過數據的分析處理更能夠反應數據的變更。這些想法都與統計學相關通過所收集的數據,進行有效的分類處理,能夠更好地反應事物的變化,更有利于做出決策[2]。
(2)數據分析流程。在實際的數據分析過程中,因大數據貫穿區域較廣,在地域和行業之間穿插交錯,顛覆了傳統的線性數據收集模式,而形成了顛覆傳統的、非線性的決策基礎,這種決策方式要求我們通過對數據進行收集,將各行各業所收集的基本信息,轉化為數據,將數據經過初步的整合分類,做出符合當地當時的數據信息,將數據進行深層次的技術處理,將處理過后的信息化為知識,運用到實際的決策中去。在大數據時代,數據的積累并不會貶值,而且還會不斷增值,為了更全面、深入地了解研究對象,往往需要對數據進行整合,這就使得數據的積累尤為重要。
(3)數據分析對統計學的意義。在大數據時代背景下數據分析理念能夠有效地對數據流進行合理地分類處理,進行科學的統計行為,統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,這就意味著所有有用的數據信息均來源于數據分析處理之后的結果。大數據的數據分析理念擴寬了統計學的研究范圍,而不僅僅只是實現數據的對比,而是從根本上豐富了研究的內容,如:一些實時性需求會用到EMC 的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop,滿足大多數常見的分析需求,對傳統的統計工作有著四個轉變。統計研究過程的轉變,使統計過程成為收集與研究。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,統計研究工作思想的轉變,數據的收集不斷增加,信息的錄入不斷升級,其對系統資源,特別是I/O會有極大的占用。這就使得能夠更好地進行數據分析處理決策[3]。
3數據分析過程中注意事項
3.1數據分析要明確變量
將數據收集進行處理是為了明確市場中的某一個變量意義,這就使得在進行數據分析的時候要能夠明確地找尋變量存在前后所發生的變化,通過數據對比可以知道該變量在大數據的市場中所存在的影響因素。是否對市場有著風險或有利于市場的開發利用,能夠在數據分析后做出合理決策。
3.2統計中不再追求精確的數據
大數據時代下,數據的不精確性不僅不會破壞總體信息可靠性,還有利于進行剝絲抽繭,從而了解總體情況。大數據時代,越來越多的數據提供越來越多的信息,也會讓人們越來越了解總體的真實情況。錯綜復雜的數據能夠反映數據之下到底是泥潭還是機遇。數據之間傳遞的信息良莠不齊,如果要一一追求準確性不利于統計工作的開展,因此可以將個別的異常值剔除。大數定律告訴我們,隨著樣本的增加,樣本平均數越來越接近總體,這就使得樣本與總體的差異性很小,更加符合實際情況。
4結論
綜上所述,大數據包含結構內外的海量數據,隨著云計算平臺進行大規模收集處理,通過建立數據庫的手段,對數據分流,使用數據挖掘等方法進行處理、分析,使得所數據結果更加符合顯示狀況。數據分析理念是通過闡明存在于世界、物質、感官享受上的復雜網絡關系,從而做出符合時代背景的分析決策。
參考文獻:
[1]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數據時代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
大數據分析范文4
一、網絡安全現狀及主要問題
當前移動互聯網、大數據及云技術等更新進程不斷加快,數據量成指數級增長,人們對于大數據時代下網絡安全的相關問題也越來越關注。信息技術創新發展伴隨的安全威脅與傳統安全問題相互交織,使得網絡空間安全問題日益復雜隱蔽,面臨的網絡安全風險不斷加大,各種網絡攻擊事件層出不窮。2016年,我國互聯網網絡安全狀況總體平穩,未出現影響互聯網正常運行的重大網絡安全事件,但移動互聯網惡意程序數量持續高速上漲且具有明顯趨利性;來自境外的針對我國境內的網站攻擊事件頻繁發生;聯網智能設備被惡意控制,并用于發起大流量分布式拒絕服務攻擊的現象更加嚴重;網站數據和個人信息泄露帶來的危害不斷擴大;欺詐勒索軟件在互聯網上肆虐;具有國家背景黑客組織發動的高級持續性威脅(APT)攻擊事件直接威脅了國家安全和穩定。由于大數據網絡安全攻擊事件仍呈高發態勢,而且內容多又復雜,利用大數據分析技術特有的特點,為大規模網絡安全事件監測分析提供計算支撐力量,并且對海量的基礎數據進行深度挖掘及分析處理,及時監測發現網絡安全事件,實現對整體網絡安全態勢的感知。
二、大數據基本概述及分析技術
(一)大數據基本概述
隨著信息技術全面融入社會生活,整個世界的信息量正在不斷增多,而且增長的速度也在不斷加快。所謂的大數據是指無法在一定時間范圍內用常規軟件工具進行獲取、存儲、管理和處理分析的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據的規模之大,其在獲取、存儲、分析等方面已經遠遠超出傳統軟件工具能力范圍,業界通常用4個V(即Volume、Variety、Value、Velocity)來概括大數據的特征,分別是大量化,多樣化,快速化,價值密度低。
(二)HadoopMapReduce大數據技術
Hadoop除了提供為大家所共識的HDFS分布式數據存儲功能之外,還提供了叫做MapReduce的數據處理功能。HadoopMapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。概念"Map(映射)"和"Reduce(歸約)",其來源于函數式編程語言或者矢量編程語言里的特性。Mapreduce是一個計算框架,其表現形式就是具有一個輸入(input),mapreduce操作這個輸入(input),通過本身定義好的計算模型,得到一個輸出(output),這個輸出就是最終需要的結果,計算模型如下圖所示:
(三)Spark大數據分析技術
Spark是一個基于內存計算的開源的集群(分布式)計算系統,Spark非常小巧玲瓏,由加州伯克利大學AMP實驗室的Matei為主的小團隊所開發。使用的語言是Scala,項目的core部分的代碼只有63個Scala文件,非常短小精悍。由于是基于內存計算,效率要高于擁有Hadoop,Job中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,節省了磁盤IO耗時,號稱性能比Hadoop快100倍。Spark是繼HadoopMap-Reduce之后新興的基于內存的大數據計算框架,相對于HadoopMapReduce來說,Spark具有一定的優勢。一是計算速度快。大數據處理首先追求的是速度。官方指出“Spark允許Hadoop集群中的應用程序在內存中以100倍的速度運行,即使在磁盤上運行也能快10倍”。二是應用靈活。Spark在簡單的Map及Reduce操作之外,還支持SQL查詢、流式查詢及復雜查詢,比如開箱即用的機器學習算法。同時,用戶可以在同一個工作流中無縫地搭配這些能力,應用十分靈活。三是兼容性好。Spark可以獨立運行,除了可以運行在當下的YARN集群管理外,還可以讀取已有的任何Hadoop數據。它可以運行在任何Hadoop數據源上,比如HBase、HDFS等。四是Spark比Hadoop更通用。Spark提供了大量的庫,包括SQL、DataFrames、MLlib、GraphX、SparkStreaming。開發者可以在同一個應用程序中無縫組合使用這些庫。五是實時處理性能強。Spark很好地支持實時的流計算,依賴SparkStreaming對數據進行實時處理。SparkStreaming具備功能強大的API,允許用戶快速開發流應用程序。而且不像其他的流解決方案,比如Storm,SparkStreaming無須額外的代碼和配置,就可以做大量的恢復和交付工作。隨著UCBerkeleyAMPLab推出的新一代大數據平臺Spark系統的出現和逐步發展成熟,近年來國內外開始關注在Spark平臺上如何實現各種機器學習和數據挖掘并行化算法設計。
三、基于Spark技術的網絡安全大數據分析平臺
(一)大數據分析平臺整體架構
本文提出了基于Spark技術的網絡大數據分析平臺,該平臺分為五層,即數據接入層、解析處理層、后臺分布式數據存儲系統層、數據挖掘分析層、接口層,整體架構圖如圖3。其中,數據接入層提供多源數據的接入。解析處理層負責對接入的多源數據進行解析。后臺分布式數據存儲系統層負責所有數據的存儲、讀取和更新的功能,提供基本的API供上層調用。數據挖掘分析層基于Spark等引擎,實現分布式數據關聯分析、特征提取、統計分析等安全事件挖掘能力,同時提供實時檢索與溯源能力。接口層為用戶可以查詢的功能,其中包括數據上傳、查看、任務的生成、參數設定等。
(二)網絡安全大數據分析平臺實現相關技術
表1網絡安全大數據分析平臺實現相關技術結語總而言之,當前基于大數據下的網絡安全面臨著越來越多的挑戰,因此我們必須高度重視大數據時代下網絡安全問題,應對好大數據分析處理工作。本文從當前網絡安全現狀及面臨的問題出發,淺析HadoopMapReduce和Spark大數據分析技術,提出基于Spark技術的網絡安全大數據分析平臺,實現對海量數據的快速分析,該平臺具有高效、高可擴展性,具有很強的適應性。
作者:陳平陽 單位:國家互聯網應急中心福建分中心
參考文獻:
[1]國家計算機網絡應急技術處理協調中心。《2016年我國互聯網網絡安全態勢綜述》。2016.04.19
[2]鄧坤?;诖髷祿r代下的網絡安全問題分析?!墩n程教育研究:學法教法研究》,2016(18):15-15
大數據分析范文5
關鍵詞:預測分析 大數據處理 大數據應用 數據挖掘
中圖分類號:TP393 文獻標識碼:A 文章編號:1672-3791(2017)06(c)-0053-03
隨著云計算、大數據、物聯網和移動互聯網等新一代信息技術的發展,傳統企業級IT架構正在朝基于互聯網的分布式新架構轉型。大數據作為新一代信息技術的核心,正在使各個領域變得越來越可感知,并走向智能化。大數據將會發揮自身獨特的優勢,帶給我們更多的方便和便捷。大數據分析的方法理論有哪些、在行業、企業的活動中有哪些應用。
1 大數據分析的五個基本要素
1.1 大數據預測性分析
大數據技術的主要應用是預測性分析,如在線教學資源網站通過數據分析用戶會對推薦的教學模是否感興趣,保險公司通過數據預測被保險人是否會違規,地震監測部門通過對大數據的分析,預測某地點發生地震的大致時間,氣象部門利用數據預測天氣變化等。預測是人類本能的一部分,通過大數據預測人類才可以獲得有意義的、智能的信息。許許多多的行業應用都會涉及到大數據,大數據的豐富特征表述了快速增長的存儲數據的復雜性。大數據預測分析打破了數據預測一直是象牙塔里數據科學家和統計學家的工作,伴隨著大數據的出現,并融合到現有的MIS、MRPII、DSS 、CIMS和其他核心業務系統,大數據預測分析將起到越來越重要的作用。
1.2 數據管理和數據質量
大數據分析跟數據質量和數據管理緊密相關,而質量高的數據和有效的數據管理可以使分析結果有價值、真實并得到有力的保證。
1.3 可視化分析
普通用戶和大數據分析專家是大數據分析的直接使用者,因此他們對大數據分析的基本要求就是要可視化,因為他們想通過可視化分析獲得可觀的大數據特征,讓用戶直觀看到結果。
提高解釋信息的能力可以通過數據的可視化展示來實現,而可視化展示主要由圖形和圖表來呈現。要從大量的數據和信息中找尋相關性非常的不容易,而圖形或圖表能夠在短時間內展示數據之間的相關信息,并為用戶提供所需的信息。
1.4 語義引擎
語義引擎是把現有的數據標注語義,其實可以把它理解為結構化或者非結構化的數據集上的一個語義疊迭層。它是數據分析及語義技術最直接的應用,好的語義引擎能夠使大數據分析用戶快而準地獲得比較全面的數據。
數據分析的新挑戰及困難主要表現在非結構化數據與異構數據等的多樣性,必須配合大量的工具去分析、解析、提取數據。語義引擎的設計可以達到能夠從文檔中自動提取有用信息,使語義引擎能挖掘出大數據的特征,在此基礎上科學建模和輸入新的數據,來預測未來的可用數據。
1.5 數據挖掘算法
大數據分析的理論核心就是數據挖掘。各種數據的算法基于不同的數據類型和格式,能更加科學地呈現出數據本身的特點,能更快速地處理大數據。如果采用一個算法需要花好幾年才能得出結論,那大數據價值也就無從f起了。可視化是給人看的,數據挖掘是給機器看的。集群、分割、孤立點分析還有其他的算法可以使我們深入挖掘數據內部的價值,并且這些算法能夠處理大數據的數據量,也可以滿足處理大數據的效率要求。
2 大數據處理方法
大數據處理技術在社會的發展中占有重要的地位,現在有很多的研究者對大數據處理技術進行研究,將大數據處理技術與交互設計結合,讓交叉科學得到發展,計算機技術的進步,讓交叉技術被廣泛應用,并引起了很多人的重視,例如:計算機技術可以在藝術中被應用,進行色彩搭配,還可以將計算機技術應用到垃圾分類里,這些都是研究人員對計算機和交叉設計的結合。這種結合讓設計學與計算機技術緊急的結合在一起,將傳統的調研方式和測試方式應用到交叉科學領域,這種方法的研究可以為用戶調研和測試方法提供依據,能夠減少人工的成本。大數據處理方法其實有很多,筆者根據長時間的實踐,總結了幾種基本的大數據處理方法,如非結構數據處理法、自然語言處理法等,該文主要介紹非結構數據處理流程涉及到的主要方法和技術。非結構化數據處理流程主要以網頁處理為例來闡述,包括3個階段,分別是信息采集、網頁預處理和網頁分類。
2.1 信息采集
信息采集主要是根據相關主題由固定的專業人士來完成,其采集的數據只能用于所針對的主題和相關的模塊,出于對效率和成本的考慮完全不必對整個互聯網進行遍歷,因此,模塊信息采集時往往需要研究以哪種方式預測鏈接指向的頁面與主題的關聯性,并測算其是否值得訪問;然后研究以哪種相關策略訪問Web,以在采集到主題相關頁面的同時,盡可能地減少采集到主題無關的頁面。
預先設定好種子鏈接是信息采集的基本方法,充分使用HTTP協議下載被訪問的頁面,運用分析算法對頁面與主題的相關性進行分析,然后確定待訪問的相關鏈接,預測可能指向主題相關頁面的鏈接,最后循環迭代地運用不同的相關策略訪問網頁。
2.2 網頁預處理
網頁預處理最主要涉及到網頁去重處理,網頁去重可以歸為兩類:一類是基于URL的對比去重,它適用哈希算法;另一類是基于內容的對比去重,它適用基于信息指紋的文本相似度算法。
網頁去重是先抽取文檔對象的特征,再對文檔內容進行分解,將文檔的特征集合表示出來,然后有目的針對特征集合的壓縮編碼,通過將哈希編碼等文本轉為數字串映射方式,為后續的特征存儲以及特征比較提供方便,這樣可以起到減少存儲空間,提高比較速度的作用,最后就是計算文檔的相似度,此步需要根據文檔特征重復比例來確定文檔內容是否重復。一般是提取網頁的某一個信息特征,通常是一組關鍵詞,或者是關鍵詞加權重的組合,調用相應的算法,轉換為一組關鍵代碼,也被稱為指紋,若兩個頁面有大數量的相似指紋,那么可以預測這兩個頁面內容具有很高的重復性。
2.3 網頁分類
網絡時代,人類所面臨的一個非常重要且具有普遍意義的問題就是網頁分類。將網絡信息正確分類,方便人們更好地使用網絡資源,使雜亂無章的網絡環境變得有條理。而網頁分類一般是先對網頁中的文本素材進行分類,通常采用文本分類來完成。文本分類主要應用于電子郵件分類、信息過濾、文獻翻譯、數據檢索等任務,文本分類的一個關鍵問題是特征詞的選擇問題及其權重分配。
在搜索引擎中,文本分類主要有以下用途:相關性排序會根據不同的網頁類型做相應的排序規則;根據網頁是索引頁面還是信息頁面,下載調度時會做不同的調度策略;在做頁面信息抽取的時候,會根據頁面分類的結果做不同的抽取策略;在做檢索意圖識別的時候,會根據用戶所點擊的URL所屬的類別來推斷檢索串的類別等。
網頁分類方法有SVM分方法和樸素貝葉斯方法,其中比較推薦的是支持向量機分類方法(SVM),該算法主要基于統計學理論及線性分類器準則之上,從線性可分入手,再擴展到線性不可分的情況。甚至有時會擴展到使用非線性函數中去,這種分類器統稱為支持向量機。近年來,支持向量機分類方法越來越多的受到網頁分類技術人員的青睞。
3 大數據分析在行業活動中的應用
非結構數據處理和數據挖掘的應用范圍較廣,它可能應用于運營商、銀行、傳統企業和電商,挑選幾個具有代表性的案例與大家分享。
3.1 電信行業
某城市電信運營商的上網日志分析系統,該系統通過收集用戶上網日志歷史記錄數據,分析出每個用戶的偏好。首先該系統通過并行統計出每個人有效歷史上網日志URL;然后從日志URL中抓取網頁內容,提取正文,并通過文本分類算法計算分類;最后通過統計出每個用戶上網關注類別總數,分析出每個用戶的偏好。
3.2 地產行業
某房地產企業的社會化品牌實時營銷系統,該系統通過社交媒體數據,進行網絡口碑監測,負面情緒被及時地發現并制止;通過與客戶進行互動,爭取客戶忠誠度;通過監控同行及競爭對手的各方面資訊,量化評估競爭態勢;快速提升品牌知曉度和美譽度,將媒體影響力轉換為客戶量,縮短人氣聚集周期。
3.3 證券行業
某證券商戰略信息監測通過歷史回顧與信息摘要,提供題目、摘要、原文URL,今日輿情焦點,今日輿論,展示抓取的所有期貨產品相關信息的縮略,并提供全文鏈接。通過熱點事件列表可以看到歷史相似事件對趨勢的影響,通過天氣指數與趨勢對應曲線可以看到歷史相似天氣與歷史趨勢的對照。
3.4 金融行業
某大型股份制商業銀行供應商風險評估系統,該系統通過抓取供應商內部數據,如企業年報、公司變動、領導情況、財務狀況等數據,分析公司運營指數;通過計算各供應商社交數據,對其社會影響力做評估;通過同行之間的數據分析對比,對供應商進行實力評估,這些數據指數可以有效協助商業銀行進行供應商風險評估。
4 結語
大數據處理數據的基本理念是用全體代替抽樣,用效率代替絕對精確,用相關代替因果。證券、微商、地產等行業每天都會產生巨大的數據量,大數據分析與處理已成為大數據技術的最重要的應用,通過大數據技術從海量數據中提取、挖掘對業務發展有價值的、潛在的信息,找出產品或服務未來發展趨勢,為決策者提供有力依據,有益于推動企業內部的科學化、信息化管理。
參考文獻
[1] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,2013,50(1):146-149.
[2] 國際電子商情2013年大數據應用與趨勢調查[Z].
[3] 大數據時代來臨:國內IT企業布局已然落后[EB/OL].新浪網,2012-06-01.
[4] 大數據時代降臨[EB/OL].半月談網,2012-09-22.
[5] 王惠.大數據時代下數據分析理念研究[J].中國市場,2015(22):74.
大數據分析范文6
研究和應用面臨三大挑戰
我們根本目的是從大數據中挖掘出價值。從政府角度來說,要進行大數據的有效管理,制定包括安全在內的各種公共政策,這就是政府要作為,從數據的獲取、標準、規范、安全、保障等等方面研究。作為高校和科研院所來說,最核心的是要進行大數據的分析和處理,也就是智能化的挖掘、關聯、融合、算法分析這些核心技術的探索和研究。作為企業界來說,要結合各自的領域,開展大數據的應用挖掘以及融合應用。所以說我們要形成一個數據是基礎、平臺是支撐、分析挖掘是核心,最根本的是要實現目標導向、問題驅動,實現效率的提升和經濟效益社會效益的挖掘和發揮。
世界頂級大國都把大數據核心技術的研究作為未來搶占大數據產業自主知識產權的一個核心制高點來探索研究。第一從理論和技術角度來看,傳統的計算理論和傳統的數據處理分析技術難以完全適用。一方面是大數據和傳統的中小規模的數據有本質的特征上的差別。第二在傳統的計算平臺計算范式方面也有根本性的轉折。我們知道傳統的數據量是中小規模,現在都是ZB級,10的18次方超大規模的數據量。從數據的結構來說,從傳統的結構化朝大量的非結構化方向發展,從過去以靜態為主朝著流數據發展,從單一的數據源朝著多元異構的方向發展,從多媒體朝著跨媒體融合的方向發展。這些數據特征的變化使得我們傳統計算理論難以適應。從計算平臺和計算范式來說,從過去的集中存儲向現在的各地多數據中心的分布式存儲方向發展,從多線程并行朝著多機協同的方向發展,從存儲和計算相分離朝著數據和計算緊密深度融合的方向發展,從計算密集型或者數據密集型朝著兩者混合的密集型方向發展,從靜態全量計算朝著動態流式計算的方向發展,這些變化都是大數據分析中將要面臨的理論和計算方面的挑戰。在大數據分析與處理方面核心技術嚴重缺乏,我們熟悉的大數據處理核心技術的底層的核心軟件、核心系統,像Spark、Hadood、Hbase這些著名的開源商用軟件幾乎全是被國外壟斷,我們國家在這個領域缺乏自己的自主知識產權。第三,難以適配工程化應用的需求,比如大數據算法在工程化技術方面還處于基本空白狀態。我們雖然有很多好的大數據算法和核心技術,但是應用到實際當中工程方面的適配還處于空白或者盲點。另外缺乏適用于大數據分析的工程化工具和快速的部署手段,核心技術與產業需求存在縫隙,缺乏面向行業的智能大數據決策支持工具和成熟的工程化解決方案,這些方面都是我們今后研究的重點和難點。
西安交通大學申請到了大數據分析技術國家工程實驗室,在大數據的基礎算法、核心技術、數據產品研制、行業工程應用特別是高端人才培養方面打造國內一流的科研和人才培養的平臺。
教育大數據的研究應用
下面介紹一下國家工程實驗室過去幾年在教育領域大數據的研究應用方面所做的工作。
第一,陜西省高等教育大數據平臺的研究與應用。西安交通大學為全省建立了高等教育大數據的匯聚分析和應用的數據中心,可以把全省所有高校的辦學狀態數據、政府管理部門的各方面的教育統計數據以及互聯網上的有關教育的數據匯聚到一起。在這個平臺上不僅有辦學的管理狀態數據,而且有各類慕課課程資源以及師生的信息管理平臺,還有大量的互聯網開放數據聚集在這個平臺中。在這個平臺上我們面向教育主管部門、高校開放為用戶提供各種各樣的學習、管理、質詢、統計分析等應用。這個平臺的數據還可以跟教育部評估中心、教育部規劃司、財務司、學生司等相關司局進行互聯互通,打通了數據之間的壁壘問題。在這個基礎上,我們實現了全省高等教育數據的匯聚,從而打破了各高校數據的孤島。另外可以建立橫向關聯比較分析、縱向自我歷史比較分析,提供高校、政府管理部門、社會科學精準的數據服務,以及為他們的科學服務提供分析。
在這個平臺上,我們開展了四項典型應用。第一,為全省本科高校進行教學質量的審核評估工作,運用互聯網+大數據技術建成了覆蓋全省高等職業教育、本科教育和研究生教育,包含辦學條件、師資隊伍、學科專業、課程教學、畢業就業等全方位一體化的質量監測網絡,省級高等教育監測的大數據平臺,開展了用數據和事實說話的省級學校兩級高等教育的質量常態監控。第二,服務陜西省“一流專業”申報、評審與評估等方面的基礎工作,這個工作現在把全省的教學狀態的數據全部收集到這個系統里。第三,開展陜西省教育經費績效分析與評估,這項工作我們已經進行了三年,對各個大學辦學的基本績效以及辦學的成效進行實時在線的科學精準的統計分析,為政府決策績效獎勵提供支撐服務。第四,畢業生就業質量的跟蹤和評價。已經建成了全省就業質量大數據分析應用服務,并且以這個系統為基礎,高校畢業生就業狀況的報告,過去需要大量的人工工作,現在基本上在這套系統上自動生成就業質量報告。
另外,MOOC中國平臺在現實上的應用也是我們的重要努力方向。我們的目標和理念是做政府想做社會愿做但是單一高校做不了的事情,根本目的是打造互聯網教育公共服務體系的2.0版本。目前這個聯盟已經有117所高校加盟,超過10000門視頻課程,超過10000注冊用戶,300經營講師,收集客戶端下載量超過900萬。MOOC中國這個平臺正在為服務國家“一帶一路”的人才培養提供服務,我們在MOOC中國的平臺基礎上成立了由中國工程院和聯合國教科文組織授予我們的國際工程科學支持的培訓,在泰國建立東盟中心,面向“一帶一路”開展包含中國文化、語言、教育、技術等特色資源,在這個特色資源中我們特別構建了六大主題數據庫,為中國的企業走向“一帶一路”提供各種服務。
通過互動交流、實踐應用等多種形式對絲路國家來華留學的留學生以及中國企業走向“一帶一路”國家發展的工程技術人才培養各種各樣的技術人才。這個平臺在技術方面突破了知識地圖導航學習、知識匯聚核心關鍵技術,為用戶提供可視化的知識聲音導向的個性化資源推薦和服務。
課堂教學質量監測大數據平臺。我們通過把課堂教學質量的實時各類數據,包括學生評價的數據、督導評價的數據等實時錄入這個大數據平臺。在這個平臺上我們可以實現過去對課堂教學質量模糊宏觀的評價,到通過大數據的精準分析實現量化精準的評價;從過去部分隨機抽查課堂教學變成全面覆蓋,從過去期中期末兩次監測變成實時、常態、持續的監測,從過去的事后評價變為實時、動態的在線評價。在這樣的基礎上,我們一方面可以挖掘一些教學質量好、受學生歡迎的老師,也可以對不負責任、課堂教學質量不高的老師提出懲戒,實現精準督導。