前言:中文期刊網精心挑選了大數據時代的定義范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
大數據時代的定義范文1
論文關鍵詞 大數據 隱私 刑法體系
隨著“可佩帶”智能設備的出現,我們每一個人的位置、行為都可被記錄分析,隨之而來的便是大數據時代的來臨。而源自1890年沃倫和布蘭代斯提出的隱私權內涵也不斷地擴張,逐漸成為一項基本權利。大數據和隱私權,兩者隨著各自邊界的延伸而交織在一起,其相互爭奪自身發展權利的場景將是我們這個時代最為重要的事件之一。
一、大數據和網絡隱私權涵義辨析
(一)大數據的內涵
正如諸多新興事物一樣,大數據至今還沒有統一的定義。在維基百科中,大數據是這樣被定義的“大數據,或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息?!笨梢哉f這并不是一個精確的定義,因為定義中采用了“無法通過人工”這樣的否定句式,而“合理時間”亦是一個模糊的范圍。IDC(International Data Corporation)則如此定義“大數據一般會涉及2種或2種以上數據形式。它要收集超過100TB的數據,并且是高速、實時數據流;或者是從小數據開始,但數據每年會增長60%以上?!边@個定義雖然給出了明確的量化標準,但是只強調了大數據數量大、增長快的特征,并沒有把握住其實質內涵。實際上,大數據所蘊含的是一種數據處理理念,即放棄樣本分析而采用所有數據的方法。
(二)網絡隱私權的定義
在諸多論著中,都將網絡隱私權當做一般隱私權在網絡環境下的延伸來對待。而實際上,基于現代網絡海量數據的特性,網絡隱私權已經超出一般隱私權的范疇,正如1988年哥倫比亞廣播公司訴司法部一案中9名大法官指出的一樣,“在一個有組織的社會里,幾乎每一則信息都在不同的時候以不同的方式公開過。但是,就個人隱私而言,不同時期零散地公開和一次性完整地公開,即使內容相同,也有本質的區別?!?/p>
網絡隱私權應當包含以下內容:
信息使用權。權利人對其個人信息享有按自己的意志使用的權利。
信息控制權。權利人有權決定是否允許他人訪問或使用自己的個人信息。
知情權。權利人應當有權知道服務提供者掌握的個人信息以及信息的分享范圍。
大數據時代的定義范文2
關鍵字:大數據;公共危機;公共危機管理
1公共危機管理概述
十六屆五中全會中明確提出要“建立健全社會預警體系和應急救援、社會動員機制,提高處置突發性時間能力”。黨的十七大報告中進一步明確要求“完善突發事件應急管理機制”?,F在對公共危機管理的研究更加深入,學界中研究公共危機管理主要有兩種思想:一是認為對突發事件直接救援的應急管理思想;二是認為公共危機管理是一個全過程的管理,在危機發生前后都具有重大意義,只是在危機發生之時的意義相比之下尤為重要。張小明認為,“公共危機管理”是指對公共危機的管理,其主體不僅包括政府部門、非政府公共部門(NGO),也包括企業,甚至將公民涵蓋在內。我國是一個社會危機和自然災害多發的國家。一方面,我國改革開放以來,社會轉型導致不同社會主體之間的權利和利益重新分配,不同地區不同階層之間的貧富差距不斷拉大,那些受益不足的群體會產生心態上的失衡,這樣就會造成行為上的變異,諸多不穩定因素隨之而來,例如火災、投毒、爆炸、殺害青少年兒童等極端事件不斷發生,公共危機管理將會面臨巨大的挑戰;另一方面,我國疆土遼闊,常發生自然災害,地震、洪水、干旱等。這些自然災害的發生也會給中國帶來巨大的損失,這些自然災害的發生是防不勝防,加強公共危機管理則先需要清楚其本質和存在的問題。因此,對公共危機管理的研究是時代趨勢所需。
2大數據特征及大數據時代下的公共危機管理
大數據時代下的信息傳播迅速,涵蓋的信息量大,影響范圍廣,公共危機事件會在短時間內被大數據時代的新聞媒體等工具快速剖析。公共危機信息是多角度多層次的傳播,信息超鏈接,公共危機信息被強化。大數據,單從字面來看,它表示數據規模的龐大,但是僅僅數量上的龐大顯然無法看出大數據這一概念和以往的“海量數據”(massivedata)、“超大規模數據”(verylargedata)等概念之間有何區別。對于大數據尚未有一個公認的定義,不同的定義基本是從大數據的特征出發,通過這些特征的闡述和歸納試圖給出其定義。在這些定義中,比較有代表性的是3V定義,即認為大數據需滿足3個特點:規模性(volume)、多樣性(variety)和高速性(velocity)。除此之外,還有提出4V定義的,即嘗試在3V的基礎上增加一個新的特性。大數據的定義很難達成一個完全的共識,但事實上,在面對實際問題時,只要把握好3V定義,然后適當地考慮4V特性即可。大數據時代下我國公共危機管理更是遇上了新的挑戰,與傳統媒體相比,大數據時代下公共危機傳播之規模大,形式多樣化,速度快,把內容變得豐富多彩。大數據也解決了反應時間短,“事中反應”困難等問題。一方面,大數據時代下,對公共危機發生之前有相應的管理和設施準備,大數據運用軟件和硬件設施相結合,采集數據。另一方面,管理層面大數據扮演著重要的角色,如系統互聯互通、信息共享,確保信息安全和隱私等,大數據的運用對我國解決公共危機問題提供了新的的思路。
3公共危機的類型
現在,我國已經開始重視公共危機管理,在新時代的背景下,我國不但要增強憂患意識,還要對危機管理開展更加廣泛的研究,在國內學界,胡寧生(1998)在其主編的《中國政府形象戰略》一書中對危機進行了非常細致的分類:按動因性質分為自然危機和人為危機;按影響時空范圍分為國際危機、國內危機、組織危機;按主要成因及涉及范圍分為政治危機、經濟危機、社會危機、價值危機等;按所采取的手段分為和平方式的沖突方式和暴力性的方式;另外還分為特殊狀態的危機,如核危機與非核危機等。危機管理專家薛瀾在《危機管理》一書中,從危機產生的原因上將國內危機事件的類型做了以下的歸納,如表1所示?;诠参C種類的各種劃分標準的討論,可以作如下評述:其一,國外學者對危機類型的學術解讀走在前端,且大多被納為危機涵義的研究視角;其二,國內學界對公共危機的學術分類大多在2003年,這一年因“非典”爆發而被視為我國危機管理研究“系統化學術話語構建的起始之年”;其三,關于公共危機與非公共危機的區別和聯系的并沒有得到完全的界定;其四,自然危機的界定十分清楚,但是對于人為危機并不是十分清楚;其五,公共危機的生成誘因與其基本類型息息相關,只有將公共危機的基本類別分析得很透徹才能參透公共危機的本質,為公共危機管理工作指導思路、指明方向。
4公共危機管理研究現狀分析
公共危機管理的基礎是制度的建設,但是只單純地依靠構建政府危機管理的機制是不能夠完全保證讓社會處于無憂無難,公共危機管理體系的構建是一項綜合系統工程。全社會應該參與進來共同治理公共危機,但是根據社會的相關調查數據表明,很多群眾是不愿意參與到公共危機管理處理工作之中的,我國歷史上就推崇“舍小家為大家”的理念,但是現在人民對公共危機的關注度和參與度并不樂觀,顯然沒有人民群眾的支持,工作很難展開。在這種壓力之下,我國也在盡快完善危機管理的體系,規范危機管理的行為,發揮社會團體的力量,集中社會、管理部門的力量形成合力來提高我國公共危機管理的能力。近年來我國公共危機管理研究受到廣大學者們的青睞,尤其是大數據時代下公共危機管理是更是倍受關注,現以表2,圖1來說明公共危機管理研究的發展趨勢。結論分析:從1995~2000年,公共危機管理研究只占總體的30.8%,主要研究在經濟領域;從2000年開始注重公共危機管理,研究比例比上一個五年增長了30.9%,2010~2015年增長到44.7%;從縱向上看,期刊文章的數量呈明顯上升的趨勢。除此之外,緊急事件和應急機制這一類文章的數量也隨著國家的需求而增加,這表明雖然我國對公共危機管理的研究逐漸增多,但我國還仍然需要對公共危機管理理論進行更加正規化、系統化的深入研究。相比國外公共危機管理而言,我國存在的問題是多方面的:其一是我國預防公共危機體系不健全,相關部門對方案的精髓都不能全部掌握,換句話說,預案的設計沒有與實際情況相結合,更加談不上及時采取相關措施解決公共危機的突然發生;其二是我國沒有全面的法律條文,沒有法律條文的約束就會造成在管理執行過程中產生諸多不確定因素;其三是公共危機管理也被稱為政府危機管理,那么政府作為主體,有職責規范其行為,減少負面信息和誤導公民信息的傳播,但是現在大數據時代下,各種媒體新聞傳播迅速,很多消息的傳播給人們帶來的惶恐不安是相關部門的措施做的不到位,才會導致人心不穩;其四是面對公共危機事件時,大家是一個不可分割的一個整體,社會秩序的穩定是廣大群眾關注的要點之一,安撫好受危機影響群眾的心情,保障涉及危機事件人民的利益。
5公共危機管理存在問題的對策
(1)完善預案體系。我國各地地區都編寫、制定了應急預案和專項應急預案,預案上應該寫入參考的實際情況,提高預案的可操作性,健全預案的策劃、安排、監督、管理和評價機制。如針對社會出現的危機,有公共危機事件也有非公共危機事件,我們公共部門則需要針對公共危機事件做出特別的措施,明確各部門的工作責任,提高工作人員對公共危機事件的專業素養,能夠有效地向上級反應情況,報告數據。(2)健全危機管理的法律法規。我國關于公共危機管理法律并不完整,法律的重點要放在公共危機處理事件中政府和有關部門人員職責上。國外在公共危機管理方面的法律有很多值得我們借鑒的地方,如美國為了提高人民對危機的認識,美國紐約危機管理辦公室建立了危機管理在線定位系統,日本建立了信息管理一體化的評測小組,而我國首先要做到的就是根據我國自身具有的特點制定有利于我國國情下的法律條文,有了法律的保障,才有了危機管理的前提。(3)強化政府對大數據時代下公共危機管理的規范?,F在許多危機事件的發生是防不勝防的,但是公共危機的惡意傳播,造成人們的恐慌是可以避免的。政府應該加強對大數據時代媒體的管理,約束其行為,盡量防止媒體歪曲事實誤導社會公眾的公共危機意識。對不法分子的典范應該嚴懲不貸,顯示出政府在人們心中的威信,讓人們相信政府,在大數據時代下具有明辨是非的判斷力。(4)運用多元治理手段處理好社會的秩序和共勉權利保障?,F代政府的本質在于社會的秩序和共勉權利保障的問題,不管是在正常社會的狀態下,還是在非常社會的狀態下都應該充分發揮其作用。風險社會和和諧社會中的“風險”和“和諧”不僅是一種社會存在,而且是一種公眾的心里暗示。公共危機的頻發打破了社會的秩序,引起了社會的矛盾,給人民的心里帶來了不和諧、不安全的暗示,現代公共危機管理就是要實現對社會公眾不安心理的疏導,恢復和維持社會的有序與和諧。
大數據時代的定義范文3
關鍵詞:大數據 期望最大化 算法
中圖分類號:TN912 文獻標識碼:A 文章編號:1007-9416(2015)04-0124-02
1 引言
隨著信息化時代的到來,公共數據和個人數據都在以幾何級數的速度增長,人們對信息數據的需求、海量數據的處理對傳統數據挖掘算法的挑戰正不可避免, 我們生活在數據時代,全球數據總量的具體數值是難以想象的,面對海量數據,人們在工作、學習、生活的每個領域都要從海量的數據中尋找一個理想的期望值。人們在遨游淘寶、微商和各種網上零售購物,從海量的影片中篩選期望的影片及求職找工作時同時又不同的公司不同的職位進行期望比較。通過數據挖掘,利用數學知識以大學生求職找工作為例來確定最大期望算法中最大似然估計值來找到期望的工作,事實證明當前大數據背景下海量數據的處理。從傳統的數據挖掘算法中,最大期望算法適合大數據的數據挖掘,是我們選擇處理大數據環境的重要方法。
2 大數據和最大期望算法概述
隨著公共數據和個人數據呈幾何級數的急劇增長,大數據已深入到人們的工作、生活、學習當中。面對海量數據,我們會感到束手無策,當我們要對每天的工作進行數據分析,對每一天在生活中所使用的數據以及在獲取知識學習中所產生的數據進行分析時,都有一個共同點,就是要滿足人們在工作、生活、學習中的需要也就是期望,我們可以利用數據挖掘中的最大期望算法來實現。
2.1 大數據的概述
大數據是一個仁者見仁智者見智的廣泛概念,大數據的研究先驅麥肯錫在報告中給出的大數據定義是:大數據指的是大小超出常規的數據庫工具獲取、存儲、管理和分析能力的數據集。但它同時強調,并不是說一定要超過特定TB 值的數據集才能算是大數據。
國際數據公司(IDC)從大數據的四個特征來定義,即海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)、巨大的數據價值(Value)。
亞馬遜的大數據科學家John Rauser 給出了一個簡單的定義:大數據是任何超過了一臺計算機處理能力的數據量。
維基百科中只有短短的一句話:“巨量資料(big data),或稱大數據,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助企業經營決策更積極目的的資訊。”
上面幾個定義,無一例外地都突出了“大”字。誠然“大”是大數據的一個重要特征,但遠遠不是全部。通過采用對多個行業調研、分發調查問卷、面對面交流溝通和參加有關大數據的會議,經過歸納總結給出了自己的定義:大數據是“在多樣的或者大量數據中,迅速獲取信息的能力”。前面幾個定義都是從大數據本身出發,我們的定義更關心大數據的功用。它能幫助大家干什么?在這個定義中,重心是“能力”。大數據的核心能力,是發現規律和預測未來。
2.2 最大期望算法定義
最大期望算法(Expectation Maximization Algorithm,又譯期望最大化算法),是一種迭代算法,其主要核心思想是用于含有隱變量(hidden variable)的概率參數模型的最大似然估計或極大后驗概率估計。最大期望算法經過兩個步驟交替進行計算:第一步是計算期望(E),利用對隱藏變量的現有估計值,計算其最大似然估計值;第二步是最大化(M),最大化在第一步計算期望值E的基礎上求得的最大似然值來計算參數的值。在最大化M 基礎上找到的參數估計值被用于下一個 最大期望計算中,這個過程不斷交替進行。
3 基于大數據的最大期望算法研究
面對海量的數據規模、快速的數據流轉和動態的數據體系、多樣的數據類型、我們采用最大期望算法來獲取巨大的數據價值。本章將對大數據中采用最大期望算法的理論進行分析,對大數據中最大期望算法推導、最大似然估計值進行了相關的研究。
3.1 大數據中采用最大期望算法的理論分析
在海量的數據中,我們用最大期望算法來計算出我們所需要的最大似然估計值。這不太好理解,畢竟數學知識有限,那就舉個典型的例子來對大數據中采用最大期望算法進行形象的說明。來對大數據中采用最大期望算法進行通俗的理論分析。比如說食堂的大師傅炒了一份菜,要等分成兩份給兩個人吃,顯然沒有必要拿來天平一點一點的精確的去稱分量,最簡單的辦法是先隨意的把菜分到兩個碗中,然后觀察是否一樣多,把比較多的那一份取出一點放到另一個碗中,這個過程一直迭代地執行下去,直到大家看不出兩個碗所容納的菜有什么分量上的不同為止。最大期望算法就是這樣,假設我們估計知道A和B兩個參數,在開始狀態下二者都是未知的,并且知道了A的信息就可以得到B的信息,反過來知道了B也就得到了A。可以考慮首先賦予A某種初值,以此得到B的估計值,然后從B的當前值出發,重新估計A的取值,這個過程一直持續到收斂為止。那我們用數學語言來描述為:假如有200人的學生群體,把這群體分為男生和女生兩部分,我們先隨便猜一下男生身高的正態分布的參數,即均值和方差是多少,如果男生的均值是1.7米,方差是0.1米,然后計算出每個人更可能屬于第一個還是第二個正態分布中,有一個同學,他身高是1.8米,那很明顯,他最大可能是屬于男生的那個正態分布。按照同樣的辦法,我們把這200名同學,分成男生和女生的兩個正態分布中。我們根據最大似然值,把剛剛分入男生正態分布的N個人重新進行估計男生正態分布的參數,同時也對200―N個女生重新進行估計女生正態分布的參數。這樣,兩個分布的概率改變了,我們就要調整期望值,如此這樣不停的反復迭代,直到參數基本不在發生變化為止。
3.2 大數據中最大期望算法推導
結合上面的例子,我們把每個人作為一樣本,利用樣本來完整的描述整體,我們把整體看做一個三元組Yi={xi,zi1,zi2}, xi是第i個樣本的觀測值,zi1和zi2是利用高斯分布,zij在由第j個高斯分布產生時值為1,否則為0,假如一個樣本的觀測值為1.8,來自男生的高斯分布,樣本就可表示為{1.8,1,0},此時如果知道zi1和zi2的值,我們就可以知道任何一個樣本是男生還是女生了。而在大數據中,我們雖然能標出具體樣本是男生還是女生,但我們總想要有個最大的期望值,也就是要讓我們找到的樣本最接近、最適合。我們利用概率論的原理,一個隨機變量的期望值就是變量的輸出值乘以其概率的總和,通俗說期望值就是該變量輸出值的平均數。期望值表示為:E[X]=。
3.3 最大似然估計值
最大似然估計值得思想是:已知某個參數能使這個樣本出現的概率最大,在生活中,我們當然不會去選擇其他小概率的樣本,所以干脆就把這個參數作為估計的真實值,這其實也概率論在統計學中的典型應用,也是參數估計的方法之一。
4 基于大數據的最大期望算法應用案例
隨著大數據的應用越來越廣泛,我們每日都可以看到大數據的一些新穎的應用,這些新穎的應用幫助人們從中獲取到真正有用的價值。許多組織或者個人都會受到大數據的剖析影響,但是大數據是怎樣幫助人們挖掘出有價值的信息呢?下面就結合上面的大數據的最大期望算法,以大學生求職為例來進行闡述。我們設想某大學生甲在求職過程中得到了三個公司的面試通知,按面試時間的順序,這三家公司分別記為A、B、C,假定每家公司有三種不同的職位:極好、好和一般,估計能得到這些職位的概率為0.2、0.3、0.4,被拒絕的可能性為0.1,按規定,雙方在面試后要立即作出決定提供、接受或拒絕某種職位,三家公司的工資承諾如表1所示。
現在我們采取最大期望受益的原則。由于面試從A公司開始,甲在選擇A公司三種職位時必須考慮后面B、C公司的待遇,同樣在B公司面試時也必須考試C公司的待遇。因此從C公司開始討論。即第三次面試工資的期望值為:=4000 *0.2+3000*0.3+2500*0.4=2700,而B公司一般職位工資只有2500元,低于C公司的期望工資,因此在面對B公司時只接受極好和好的職位,否則去C公司。而第二次面試的期望值可由以下數據求知:極好的職位工資3900元,好的職位工資2950元,接受第三次面試期望工資2700元。所以第二次面試工資期望值為 =3900*0.2+2950*0.3+2700*0.5=3015元。最后考慮A公司,A公司只有極好職位工資超過3015元,因此甲只接受A公司的極好職位。
這樣,對于三次面試應采取的決策是:A公司只接受極好的職位,否則去B公司,在B公司可接受極好的和好的職位,否則去C公司,在C公司可接受任何可能提供的職位。在這一策略下甲工資總的期望值為3500*0.2+3015*0.8=3112元。因此在求職時收到多份面試通知時,應用期望受益最大的原則不僅可以提高就業機會,同時可提高工資的期望值。
5 結語
本文首先從大數據的定義入手,對大數據進行了簡單的闡述,并對基于大數據的最大期望算法進行了研究,以大學生求職為具體實例,從數據挖掘的角度,利用數學知識來確定大學生求職的最大期望,從計算出來的最大似然估計值,來確定大學生找到自己最期望的工作。事實證明基于大數據的最大期望算法符合大數據數據處理的需要。
參考文獻
[1]王修君.高效數據流和海量文本處理算法研究[D].中國科學技術大學,2011年.
[2]樓巍.面向大數據的高維數據挖掘技術研究[D].上海大學,2013年.
[3]王珊,王會舉,覃雄派,周@.架構大數據:挑戰、現狀與展望[J].計算機學報,2011年10期.
大數據時代的定義范文4
雙方合作旨在重新定義人們的工作方式。具體內容包括:面向零售、保健、銀行、旅游等多個行業推出超過100個iOS應用,IBM將在Iphone和iPad中預裝為各行業量身打造的解決方案,并將IBM的大數據分析能力帶給iPhone手機和iPad平板電腦。雙方的共同愿景是利用IBM的知識、數據、分析和工作流程來為商界專業人士提供獨特的iPhone和iPad應用。
蘋果首席執行官庫克稱:“iPhone和iPad是世界上最好的移動設備,這些產品已經改變了人們的工作方式。我們將有史以來第一次把IBM聞名于世的大數據分析能力交付給iOS用戶,這將為蘋果開辟龐大的企業市場。對于企業來說,這是一種根本性的變革,而只有蘋果和IBM聯手才能帶來這種變革?!?/p>
IBM首席執行官羅睿蘭稱:“移動設備正在與大數據和云服務聯手,以創造歷史的方式對商業和各行各業進行改造。與蘋果之間達成的這項合作將促進我們把創新帶給全球客戶,屆時,用戶可有效利用IBM在分析、云、軟件和服務等領域的領先技術。與蘋果的合作將改造人們的工作方式、行業的運作方式以及公司的運營方式?!?/p>
企業級市場就其體量而言,絕不比消費級市場小。如果從蘋果的角度來看,其競爭對手包括谷歌、亞馬遜、微軟等,均以互聯網、云計算、大數據為依托,在企業級市場收獲頗豐。蘋果雖有iPhone和iPad等硬件、移動互聯和數據優勢,但在企業級市場卻弱于對手。如果從IBM的角度看,一方面由于先天性互聯網基因缺失,在大數據時代陷入有技術、缺數據的困境;另一方面先前在PC時代曾經擁有的硬件終端優勢也不復存在。這使得IBM陷入艱難的轉型困局。
從兩家企業當前的處境來看,這次聯合確實有鮮明的互補性。蘋果可以從IBM獲得全球領先的大數據技術和涉及廣泛領域的企業解決方案,這將使蘋果有機會甩掉對手,一舉占領企業級市場的制高點。IBM則能借助蘋果在終端領域的絕對優勢和蘋果的互聯網基因,獲得大數據,從而在極高的起點上,基于云和大數據重新構造和定義企業級應用。這或許是IBM順利完成其戰略轉型的最后機會。
排他性是兩家公司這次合作極其關鍵的一點。按照雙方的戰略構想,將基于iPhone和iPad和云計算、大數據重新定義企業級應用。如果雙方能實現其戰略構想,那雙方合作的排他性約束就表明,整個安卓陣營和傳統的PC陣營都將被擋在“重新定義的企業級應用”之外。
庫克稱,筆記本電腦在企業中的數量仍然超過平板電腦,二者的比例大約為3:1,但在兩家公司展開合作后,這種狀況可能發生變化??梢韵胂?,有朝一日,企業中將會人手一臺平板電腦。
大數據時代的定義范文5
關鍵詞:大數據時代 ;大數據 ;情報學;學科發展
中圖分類號:G250 文獻標識碼: A 文章編號:1003-1588(2015)08-0002-03
作者簡介:劉艷朵(1987―),南開大學商學院信息資源管理系碩士研究生。
大數據趨勢產生的深層原因是海量數據的存在和越來越多的事物是以數據形式存在的。隨著計算機技術全面融入社會生活,我們的工作、生活,甚至國家經濟的發展都受到了大數據的影響,現在人們已經意識到了大數據的重要性。在大數據時代因素的推動下,情報學的理論研究、研究方法以及情報學技術等都將做出新的改變,趨勢預測性情報的分量將繼續加重,情報產生中的跨界合作將增強,但現在我們對大數據環境下情報學的發展研究還遠遠不夠。
1 大數據的內涵及基本特征
1.1 大數據的內涵
按照維基百科的定義:大數據是指所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息集合。研究機構Gartner的定義:大數據是指需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。麥肯錫的定義:大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行采集、存儲、管理和分析的數據集合。
現在越來越多的領域開始關注和研究大數據,這是因為大數據涉及不同的學科領域,人們從不同的角度、不同的科學領域出發,對大數據的定義進行了詮釋。到目前為止,大數據尚未形成統一明確的定義。筆者認為,大數據的“大”不單單是指數據的量很大,還指數據無時無刻不在急劇增長,數據的形式紛繁多樣,另外,數據的覆蓋面很廣泛,數據之間交互頻繁,數據之間相關關系復雜,這些都是大數據“大”的表現。
1.2 大數據的基本特征
業界有人將大數據的特征歸納為“4V”,即數據種類繁多(Variety),數據體量巨大(Volume),數據生成和處理速度快或理解為流動速度快(Velocity),至于第四個“V”,有人的理解是價值密度低或者理解為數據的價值日益突現(Value),也有人認為大數據具有真實性(Veracity)的特征。筆者更贊同的是Volume、Velocity、Variety、Value四個特征。雖然業界也有很多人贊同上述四個特征,但是對大數據特征含義的理解卻不盡相同。筆者認為,大數據具有以下特征。
1.2.1 數據的體量巨大。據麥肯錫全球研究院(MGI)估計,2010年,企業的磁盤中存儲了超過7EB字節的新數據;用戶在個人PC機和筆記本等設備上的新數據存儲量也超過了6EB字節。2011年全球的數據量達到18Z。體量巨大是大數據的首要特征。
1.2.2 數據生成速度快,并且數據實時變化迅速。在這個信息化的時代,數據時刻在產生,比如銀行交易、淘寶購物、購買車票、打電話、檢索資料等,這些行為都可以以數據的形式呈現,而且數據呈指數級增長。此外,數據是實時變化的,人們對數據的處理速度也提出了更高的要求。
1.2.3 數據種類的多樣性?,F在大數據涉及的領域非常廣泛,數據的種類也趨于多樣化,數據會以數據文本、數據庫、圖片、動畫、音頻、視頻,甚至是以日志文件、網頁、電子郵件等多種形式呈現在人們的面前。隨著信息技術的不斷發展,新的數據來源和數據形式也在不斷地出現。
1.2.4 數據本身的價值密度低。大數據時代,各種數據的生產速度非???,研究員要在冗余的信息中發現其價值并不容易。
2 大數據時代情報學發展所面臨的機遇與挑戰
2.1 大數據時代情報學發展所面臨的機遇
2.1.1 為情報學研究提供豐富的數據資源支持。情報學中的很多研究方法都是建立在大量數據的基礎之上,在這個網絡化和信息化的時代,人們時時刻刻都在以各種各樣的方式生產著不同類型的數據,如前文提到的圖片、動畫、音頻、視頻、日志文件、網頁、電子郵件。大數據時代的到來為情報學的研究提供了豐富的數據資源。
2.1.2 完善情報學學科技術。大數據時代將繼續催生很多新型的產業,基于大數據的數據信息收集、存儲、處理、分析、挖掘技術都是這個時代的產物,例如云計算、移動互聯網、物聯網、文本挖掘、意見挖掘、中文分詞和NLP自然語言處理、神經網絡算法、網絡分析SNA、數據可視化等。這些技術也為情報學的學科技術研究打下了基礎,甚至很多技術都可以直接被用到情報學研究中,如云存儲技術、云計算技術等,在大數據時代,這些計算機互聯網技術都可以為情報學研究所用,它們很好地完善了情報學學科技術。
2.1.3 大數據將助力情報學新的研究范式和方法論。在大數據時代,人們所面臨的數據不僅僅體量巨大、類型多樣化,而且它們還在以驚人的速度生長并發生著實時的變化,這些都對情報學的研究方法提出了新的要求,因此對情報學研究方法而言,唯有創新才有出路。以前,人們通過研究獲得準確的情報并供人們使用,而在大數據時代,情報學將在研究方法上做出改變:情報學的研究方法可以轉向研究數據之間的相關性,并根據數據之間的相關性得出預測性情報,以供人們決策使用。
2.1.4 擴展情報學的學科研究和應用領域。大數據時代,在多種因素的影響下,情報學的研究內容和范圍不斷擴展。在這個信息化的時代,情報學的發展離不開信息技術和網絡技術的支持,情報的獲取、存儲和處理都會涉及與其他學科的交叉合作。比如,在大數據時代,人們的隱私急需得到保護,因此,信息政策和法律法規必將是社會科學研究的一個重要方向,這也將是情報學與其他學科跨界合作的新領域。
2.2 大數據時代情報學發展所面臨的挑戰
2.2.1 價值密度低,獲取有效信息難度加大。數據信息是情報學研究的重要基礎,但在大數據時代,一方面數據的體量巨大,要想從中獲取對所研究主題有用的數據信息不是一件易事;另一方面數據的種類多樣,不僅包括部分結構化數據,還包括圖片、音頻、視頻等多種形式的非結構化數據。此外,在大數據時代,數據信息是實時變化的,這些都加大了情報工作人員獲取有效信息的難度,這是情報學發展中應該重視的一點。
2.2.2 情報學學科研究技術有待進一步開發。在這個信息技術高速發展的時代,情報學技術的發展形勢不容樂觀。由于情報學知識結構的限制,情報學很難培育自己的情報網絡技術,情報學很多技術都是采用拿來主義,把其他領域的技術直接運用到自己的學科研究中,但是在大數據時代,為了保證大數據的價值,必須對數據進行快速有效的處理,而我們現有的情報采集、分析、挖掘、處理等技術已經不再適應現在巨量、多樣化、實時變化的大數據環境。
2.2.3 情報學科呈現泛化發展趨勢。隨著社會的發展,情報學的發展環境也在發生著巨大的變化,情報學是一門綜合性的學科,在情報學的發展過程中,會出現其研究內容與其他學科交叉的現象。一方面,這種現象使情報學可以從其他學科獲取理論、技術等多方面的支持,在一定程度上促進情報學的學科發展;另一方面,在信息和網絡技術高速發展的大數據時代,這種與其他學科的“跨界研究”將會使情報學的學科泛化趨勢更加明顯,從而會導致“過界研究”,處理好“跨界研究”和“過界研究”的關系,將成為文獻信息工作者面臨的一個重要任務。
2.2.4 數據信息的管理問題將是一大挑戰。大數據時代,傳統的數據管理方式不再適用,在數據來源、數據處理方式和數據思維等方面都會帶來革命性的變化,如果在情報學研究中對數據信息管理不當,甚至可能帶來情報安全危機,因此數據信息的管理問題也將是對情報學的一大挑戰,相應的情報道德規范、情報政策、信息法律法規等是必要的。此外,反競爭情報的研究分量也將加重。
3 大數據環境下情報學的發展展望
情報學這一學科的發展離不開情報學的相關理論、應用、技術及情報學管理這幾方面的內容,情報學學科體系主要包括理論情報學、應用情報學、技術情報學、管理情報學四個方面,下面筆者將從情報學學科體系角度對大數據環境下情報學的發展進行探討。
3.1 理論情報學的發展
3.1.1 就情報學內涵而言,在大數據環境下,情報學的內涵將更加豐富。一個學科在發展過程中往往會受到不同的環境、技術等因素的影響,在大數據時代,數據信息類型呈現出多樣化的特征,情報學的研究對象也相應地從單一的、結構化的文獻信息轉向了復雜多樣的非結構化的數據,因此,大數據將在一定程度上豐富情報學的內涵。
3.1.2 就情報學方法論而言,情報學的學科方法可以充分發揮大數據的優勢,發現和利用數據信息的相關關系。在大數據時代,數據信息體量巨大,并且很多數據都是以碎片化的形式存在,情報學可以通過利用數據之間的相關關系拓展出新的情報學研究方法。以情報學研究方法中的文獻計量學方法為例,很多學者利用這個方法對某個數據庫中某一學科領域的文章發表情況或者文章內容進行統計分析研究,假設我們把某個數據擴大到某一學科領域相關的所有數據,或許我們會有新的發現。
3.1.3 情報學學科理論研究泛化。情報學是一門綜合性的學科,在情報學的發展研究中,很多內容會涉及計算機和網絡技術,甚至社會化媒體對情報學的發展都有很大的影響,在這種情況下,企業情報學、經濟情報學、軍事情報學、情報行為學等這樣的情報學分支和交叉學科應運而生,這都是情報學學科泛化的表現,大數據將帶來新的研究領域、技術和方法,情報學學科理論研究也將繼續呈現泛化趨勢。
3.2 應用情報學的發展
3.2.1 情報分析預測與情報甄別的分量加重。預測是大數據的核心,在大數據的環境下,情報學可以充分利用大數據帶來的新技術。一方面,大數據時代的數據價值密度低,信息冗余量大,這對情報學的情報甄別是巨大的挑戰;另一方面,可以從多角度發現并挖掘數據之間的線性關系和非線性相關關系,并在此基礎上進行情報分析預測,為研究和決策服務。
3.2.2 重視情報用戶的需求,向咨詢業進軍。情報是可以直接使用或者直接用于決策的,情報應用中更應該以用戶為中心,情報用戶的需求不是簡單的信息收集匯總或是信息堆砌,而是經過深層次的加工處理,直接為用戶提供可供用戶做決策使用的成熟的、智能的知識,情報學應該向咨詢業進軍。
3.3 技術情報學的發展
3.3.1 大數據時代的數據信息數據量大。大數據時代的數據信息數據量巨大、來源廣泛、種類繁多、實時變化,并表現出碎片化的特征,這給情報的存儲和采集技術提出了要求,情報的存儲技術將在容量大的前提下,增加存儲數據的類型,開發新型的數據采集技術、數據挖掘技術及多媒體檢索技術。
3.3.2 大數據環境下更注重數據之間的相關關系。情報學在這方面的研究技術還相當薄弱,研究大數據之間相關關系的數據模型和情報分析技術有待開發。
3.4 管理情報學的發展
3.4.1 大數據時代個人隱私有被二次利用的危險。在經濟利益的誘惑下,情報學研究也會涉及個人隱私,為了規范情報的管理,情報學學科發展中有必要從情報倫理和情報政策與法規兩個方面規范情報的管理與研究。情報道德規范、情報職業規范、情報素養以及相關的情報政策、信息法律法規都將得到人們的重視,并相繼出臺或完善。
3.4.2 情報學的發展離不開人才支持。情報學是一門綜合性的學科,從目前形勢來看,情報學相對比較缺乏技術上的人才。在大數據環境下,情報學一定要抓住契機,注重人才在學科發展中的作用。
4 結語
大數據將廣泛影響到我們的生活,它將重塑我們的生活、工作以及思維方式,目前,大數據分析思想已經推廣到了多個學科領域,大數據也為情報學的發展開辟了一條嶄新的道路。雖然大數據與其他新技術一樣,必然要經歷技術成熟度曲線,但是情報學的發展不能過度依賴大數據,成為大數據的奴隸,而是應該讓大數據為情報學發展所用??傊?,我們應該勇于面對、勇于創新,迎接大數據帶來的挑戰。
參考文獻:
[1] 陶雪嬌,胡曉峰,劉洋.大數據研究綜述[J].系統仿真學報:增刊,2013:142-146.
[2] 朱東華,張嶷,汪雪鋒,等.大數據環境下技術創新管理方法研究[J].科學學與科學技術管理,2013(4):172-180.
[3] 黃曉斌,鐘輝新.大數據時代企業競爭情報研究的創新與發展[J].圖書與情報,2012(6):9-14.
[4] 宗威,吳鋒.大數據時代下數據質量的挑戰[J].西安交通大學學報:社會科學版,2013(5):38-43.
[5] 彭蘭.“大數據”時代:新聞業面臨的新震蕩[J].編輯之友,2013(1):6-10.
[6] 何非,何克清.大數據及其科學問題與方法的探討[J].武漢大學學報:理論版,2014(1):3-12.
[7] 沈浩,黃曉蘭.大數據助力社會科學研究:挑戰與創新[J].現代傳播,2013(8):13-18.
[8] 夏蓓麗.“‘2008’網絡環境下的情報學發展研討會”綜述[J].社會科學,2008(12):180-181.
[9] 江俞蓉,張天明.大數據時代情報學面臨的挑戰和機遇[J].現代情報,2013(8):58-60.
[10] 王知津,李贊梅,周鵬.二十年以來我國情報學學科體系研究進展[J].圖書館,2012(1):50-54.
大數據時代的定義范文6
賴能和是中國石油集團東方地球物理勘探有限責任公司(簡稱東方地球物理公司)研究院數據處理中心總工程師,他所在的公司主要從事國內外陸地、海上地震勘探及綜合物化探采集、處理、解釋,以及與地球物理(化學)勘探有關的技術及裝備研發、產品研制、技術引進與產品銷售等業務。目前,東方地球物理公司在陸上地震勘探市場份額位居全球第一。
東方地球物理公司還擁有亞洲最大的地震資料處理中心。在北京、新疆庫爾勒、烏魯木齊、甘肅敦煌、西安、唐山、任丘、大港設有處理分部,在伊朗、巴基斯坦、尼日利亞、蘇丹、休斯頓建有處理分中心。
賴能和介紹說,當前石油勘探已進入高密度采集、大數據的時代,需要大規模的計算機處理海量數據。由于近年業務規模發展迅猛,賴能和每年均需要購置大量的存儲空間以存放地震解釋處理數據。目前,東方地球物理公司處理中心存量在線數據超過10PB。由于原始數據量大、計算密集,運算過程又產生更多“中間數據”,因此需要高吞吐、高可靠、高擴展能力的海量并行存儲系統。
此外,之前東方地球物理公司處理中心部署了高性能計算HPC集群系統。為提高HPC計算集群系統的CPU利用率,應用部門加大了應用作業密度,因此在作業處理高峰時段,出現了數據讀寫較為緩慢、處理系統效率降低的現象。
賴能和告訴記者,東方地球物理公司采用了IBM軟件定義的閃存基礎架構解決方案,利用彈性存儲,將3.5TB元數據直接存放到高性能的閃存IBM FlashSystem 810上,其余的數據存放到DS3700存儲系統中。通過把元數據放到閃存中進行處理,明顯提升了系統的交互性能,監測作業進度的應用響應時間甚至縮短了14000倍左右。顯著的性能提升,使東方地球物理公司在以更高的吞吐處理海量數據的同時,還明顯提高了對作業的查詢及監控效率。
閃存技術在大數據時代煥發了新的生命力。閃存技術雖然早已經存在,但由于軟件技術及性價比的原因,其應用一直存在爭議。近年來,隨著閃存價格的下降以及軟件定義存儲的出現,越來越多的企業開始考慮采用閃存代替磁盤,或部分取代。特別在是大數據處理的情況下,由于大量和頻繁的數據調用,閃存比磁盤提供了更快的速度和更高的處理效率,甚至可以做到實時處理。
除了實時海量數據處理外,相對于磁盤存儲,閃存還有許多先天的優勢。閃存沒有機械部件,可以成倍地傳送數據。由于節約了機架磁盤,數據中心可心節省更多的空間用于CPU數據處理。由于閃存不像磁盤那樣轉動,不會產生摩擦,所以產生的熱量也少了很多,更為節能。
其實,閃存技術除了在存儲領域得到發展外,早已經在數據庫領域也取得了廣泛的認可。多家廠商推出內存數據庫,摒棄硬盤而采用內存,打造實時數據處理平臺,成倍提升了海量數據處理的效率。