前言:中文期刊網精心挑選了大數據時代范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
大數據時代范文1
數據革命的浪潮正潛移默化地影響著經濟社會的各個方面,包括作為基礎產業的物流業及其細分領域。
利用大數據驅動信息化建設,物流車隊的整體油耗,車船的位置信息、行程軌跡、運行周期等空間地理數據都能通過系統進行智能化處理,更好地實現精簡流程、提高效率、降低成本的目標。大數據的分析和應用,正助力物流業完成從粗放、低效、高耗的傳統業態向集約、高效、環保的現代物流轉型,幫助物流企業更加精細化地了解和研究客戶需求,從而“量身定制”個性化的產品和服務。
事實上,數據應用一直以來都存在,而在今天的大數據時代,關鍵是如何讓數據變成財富。
對于物流企業來說,盡早針對“大數據”進行產品、業務、管理等一系列的變革和創新,率先挖掘“數據商機”,是掌握未來的核心競爭力乃至生存機會的根本。當然,這一切都要以建立和提高數據的收集、挖掘、處理和應用能力為前提。
沒有人能阻擋時代的步伐,具有前瞻性眼界的企業,正在積極融入大數據時代。
馬云很早就說:“未來的世界是數據的世界。”今年5月,他主導建立的“菜鳥網”,未來也將在數據商機方面深耕細作。而阿里巴巴與十大快遞公司的核心合作點也正在“數據”方面,阿里巴巴物流事業部總經理龔濤指出,阿里巴巴可以通過數據給快遞企業提供線路容量擴容指導,通過數據回溯、監控和預測,快遞公司可預判消費者和商家的服務需求,開展主動服務。
物流業界以數據處理和應用為基礎的各類物流信息平臺在全國范圍內不斷涌現,極大地改變了物流運行業態。而許多物流企業也在積極試水大數據應用。在百世匯通,大數據正在為企業戰略規劃、運營管理和日常運作提供重要支持和指導。據百世物流科技(中國)有限公司副總裁張硯冰介紹,百世匯通嘗試運用大數據來管理、分析和判斷加盟網點的運營行為,通過網點在系統內的足跡建立數據分析模型,成功地預測了幾次網點的異動,使工作方式由被動式變為主動式、前置式,減少了大量客戶投訴,把問題消滅在萌芽階段。圓通快遞幾年前便已開始投資數億元與IBM合作開發以金剛核心業務系統為主體的信息技術平臺,以獲取處理海量數據的能力。
與大數據采集、處理、分析和應用相關的各類產品與設備也陸續在物流作業中投入使用,如能處理物流信息的智能手機、GPS系統以及在車輛或者包裹上的傳感器系統??
大數據時代范文2
這一被稱作中南大學“湘雅臨床大數據系統”(下稱“大數據系統”)的建設項目,已于2014年1月正式啟動。中南大學校長張堯學表示,希望利用中南大學所屬的幾家醫院產生的龐大醫療數據,促進臨床科研、轉化醫學研究,并通過臨床帶動基礎醫學發展。
中南大學湘雅二醫院(下稱“湘雅二院”)是這一項目中必不可少的一環,其自身的臨床數據中心建設正是“大數據系統”的基礎之一,與大數據系統的建設相輔相成,而這意味著,該院的信息化建設邁向了新的高度。
信息化三步走
與國內很多醫院一樣,湘雅二院的信息化也非一蹴而就,該院信息網絡中心主任黃刊迪將其劃分為了三個階段。
“從1990年開始,醫院實現了病案的統計管理,能夠在住院處統計所有患者的出院數據,但這種信息化仍停留在部門級或者叫單機應用型的階段。1995年以后進入了第二階段,開始了全院聯網的信息化建設,在1999年左右投入運用。第三階段則始于2009年,這一階段中,醫院開始向臨床信息化建設的方向發展。”
臨床信息化,意味著信息部門服務的中心由原先的管理部門轉向臨床,也意味著建設過程中要克服大量的難點。
“十年前,大部分院長如果手上有幾千萬肯定是買設備。”院長周勝華笑言,“中國醫院的信息化是慢慢發展的,前幾年大家都不太感興趣,因為信息化不直接產生效益?!彼徽Z道出了國內醫院信息化發展的阻力,一是院長等管理層的重視程度;二是資金的投入。
黃刊迪表示,信息化面向臨床后,首先要面對的就是歷史上積累下來的醫院內部繁多而凌亂的系統。由于一些歷史的原因,一家大醫院往往面臨著其HIS、PACS、電子病歷分別屬于不同公司系統的困境,并且后接入的系統要與前面所有系統進行對接。黃刊迪認為,這首先造成了不必要的大工作量,其次有可能找不到早期系統的設計公司,讓對接十分困難,導致系統的可維護性急劇下降,維護成本升高,維護周期變長。
另外,不同專業的醫生可能有不同的專業要求,信息化越向臨床發展,也就分化出越來越多的系統,如果系統間繼續“點對點”的連接,讓各個系統各自為政,就無法滿足臨床需求。
面對這些系統繁雜凌亂的現狀,建立一個讓多個系統相互共享相互集成的基層平臺,就成為了湘雅二院信息化戰略的有效選擇。
不過,湘雅二院建設臨床數據中心的起步,更得益于周勝華院長的“前衛”意識。
黃刊迪舉例說道,“每一期報表周院長都要先看,看完還會發現哪些數據是錯的,因為早期調數據的時候,容易出現數據不準的情況,而周院長時常下手 術室,對數據非常敏感。”可以說,周勝華對信息化和數據的重視成為了湘雅二院臨床數據中心建設的一大動力,也實現了較大的資金投入。
“臨床數據中心本身的投入非常大,這些都需要錢來做,可能以前所有投入加起來只有幾百萬,現在一個數據中心就是幾百萬,沒有院里的支持和要求,我們可能也無法改變?!秉S刊迪總結道,信息化的第三個階段非常難,如果沒有院長的遠見和決心,是難以推進的。
易化臨床思維
目前,湘雅二院的臨床數據中心第一期已經建設完成,所有的數據都已經在數據中心備份,并且能夠同時刷新。另外,新系統也不再需要跟過去的系統直接對接,只需要連接數據中心。
“第二期差不多做了一半,預計年底將完成第二期的工作。還有幾個小問題沒解決,例如電子病歷和HIS之間的鏈接還未完全斷掉,就像已經搭建的違章建筑,要拆也不容易?!秉S刊迪笑著比喻。
第二期工作完成后,黃刊迪表示臨床數據中心作為“數據中心”的工作就算完成了,但是還沒有完全達到服務于臨床的目的。他認為,信息化改變了診療格局,系統向人靠攏,包括醫護人員和患者,其需求越來越個性化,但這一過程中,如果醫生的主要精力放在計算機而非患者身上,醫療質量和醫療安全都會受到影響。“醫生的臨床思維不應被計算機擾亂。臨床醫生需要在不影響臨床思維的情況下更安全快速地獲取、處理臨床信息,完成醫療事務,如果只是在數據上達到集成,醫生的感受可能不是很深,他們需要在界面和功能的融合上有更好的感覺?!?/p>
舉例來說,過去很多醫院在只有HIS系統的情況下,將醫囑系統加進了HIS系統里,但在電子病歷和其他影像系統出現后,仍然在HIS系統里開醫囑就十分不便。黃刊迪認為,只有把醫囑從HIS中轉移到電子病歷中去,建立以醫囑為核心的電子病歷系統,才算完成以電子病歷為核心的醫院信息化架構,而很多大醫院都沒有完成這一步。因此湘雅二院臨床數據中心建設的第三步,就是要完成臨務一體化平臺,讓醫生在一個界面里處理所有需要處理的事務,包括診療、教學和科研。
但臨床數據中心的作用絕不僅僅是讓操作變得更為簡單,醫療質量和醫療安全的持續改進也是其目標之一。
在湘雅二院構建的醫療服務保障體系(safe-care)中,周勝華十分強調信息化,身為院長的他,同時也是臨床專家,在下一線的過程中,他時常聽到醫生向他反映的各種需求,對信息系統的問題十分了解,因此會在系統的改進上向信息部門提出相當高的要求,力求能夠真正幫助醫生。例如,由于現在新藥和新的醫療手段越來越多,各種適應癥、禁忌癥給醫生的工作也增加了負擔,而臨床數據中心能夠為醫生提供決策支持。因此他強調要將信息化手段作為醫療安全的一個重要支撐條件,以確保醫生的醫療行為可控,避免醫療錯誤。
黃刊迪表示這是臨床信息化建設的一個方向,“信息化向臨床方向發展,最重要的目標是易化臨床思維,而不是干預臨床思維?!?/p>
安全并行
除了作為內部的信息交換平臺,及時為醫生提供決策支持,以及改進醫療質量以外,臨床數據中心還可將所有數據標準化處理后沉淀出一部分數據作為備份,避免了數據丟失。
而隨著時間推移,所積累的數據也越來越多,黃刊迪認為,如果不能將數據集中起來,就如同盲人摸象,凸顯不出數據的價值。然而,數據集中又帶來了安全性的問題。
“數據的安全與價值是一個對立統一的矛盾?!秉S刊迪形容道,“數據放在那里不用,很安全,但只有用的時候才能知道是否準確和真實,同時,只有讓更多的人使用才能體現自己的價值。”不只對于醫院內部而言,醫保部門、衛生行政部門等各級部門也越來越多地認識到數據的重要性,需要醫院的大量數據。而不可否認的是,一些想要非法牟利的公司也盯上了這些數據。因此,如何安全地將數據送出,關系到各級部門能否更有效地利用這些數據,同時也關系到患者的隱私安全,醫院的信息安全。
因此,臨床數據中心還有一個重要的作用就是統一了對外出口。
過去,在沒有臨床數據中心時,由于各級部門經常找醫院要數據,每一次上傳都需要將數據先處理到前置機中再推出去,這種情況下,醫院的數據安全無法得到保障。黃刊迪打了個比方,“這就如同一間大房子有很多通道,每條通道上都有一扇無人看守的門?!备鼑乐氐氖牵瑪祿蟼骱筮€會產生不一致、不準確、不實時等問題。
而臨床數據中心統一出口后,能夠針對不同的需求提供不同的數據傳送服務,并且在數據傳送后會有審計,記錄下向哪個部門報過哪些數據,其次可以收取回執,避免數據泄露后無法追究責任的問題。
為大數據打底
臨床數據中心的建設不僅為本院帶來便利,還是中南大學臨床大數據建設項目的基礎。據了解,該項目由中南大學所屬的湘雅醫院、湘雅二院、湘雅三醫院、湘雅口腔醫院和湘雅醫學院腫瘤醫院承擔,首批共101個項目入選,覆蓋40多個臨床學科,每個項目都將由湘雅多家醫院專家們組成團隊,共同建設。其中,湘雅二院承擔了38個病種的數據庫建設。
黃刊迪透露,大數據項目源于中南大學校長以及幾家醫院院長的理念,那就是要將數據貢獻給湖南人民,貢獻給國家,服務于其他單位,以期提高整個國家的醫療水平。長期以來,很多醫院相對保守,不愿開放數據,這種信息壁壘在長遠上制約著醫院發展和醫療水平的提升,而中南大學能夠直接協調幾家醫院,實現醫院間的數據共享,這種優勢十分難得。
湘雅二院神經外科主任蔣宇鋼對此深有感觸,他提到去年做植物人手術時因為無法查到數據而感到治療困難的窘境,十分感慨,他認為如果能將數據分享給所有醫務人員,就能夠增加對疾病的認識,提高診斷水平和治療效果。
但這一項目并不僅僅是幾家醫院數據的集中和共享,而是“大數據”這一理念在臨床醫學領域的落地。目前,中南大學已研制出面向大數據應用的醫療數據處理原型系統,可實現人體健康信息的遠程采集和實時推送。而在此之前,國內還沒有開展大數據在臨床醫學領域大范圍、系統性的探索和應用。據了解,未來通過對臨床大數據的挖掘和分析,中南大學還將建立國際先進和國內領先的醫療相關數據運營模式,促進智慧醫療、個體化醫療、醫院精細化管理、臨床科研、轉化醫學和基礎醫學的發展,并為衛生行政部門提供決策依據。
黃刊迪表示,大數據能夠為進一步深層次的臨床研究提供方向和路徑。與小樣本臨床研究、循證醫學、多中心臨床研究相比,大數據來自真實課題,在不對臨床過程做太多干擾的情況下收集每個醫院的原始數據,保證了數據的本真性和大信息量。
而湘雅二院作為大數據項目的數據源之一,承擔著提供優質數據的任務,對于二者之間相輔相成的關系,黃刊迪形象地比喻為小水庫與大水庫,“只有建好了小水庫,才能往大水庫輸水,而大水庫的建設反過來對小水庫也有所助益?!?/p>
大數據時代范文3
2.1 大數據數據庫的特點
傳統的關系數據庫,從其創立至現在,長期占據數據庫的絕對統治地位。但是,數據挖掘、商業智能和可視化技術的發展,特別是它們處理非結構化數據的能力,動搖了傳統數據庫的牢固地位。于是善于處理非結構化數據的種種數據庫工具大量產生,這其中必須優先提及的便是NoSQL(意為Not Only SQL)及NewSQL(意為New SQL)兩大數據庫陣營。
現在隨著大數據時代的到來,由Carlo Strozzi開創的NoSQL以其技術上的先進性、方便性得到了越來越多的認可。NoSQL改變了數據的定義范圍,其“數據類型”可以是文本、圖片、影像、網頁,也可以是整個文件;NoSQL數據庫是非關系式的、數據間的關系更加復雜、多樣,類型和相互關系具有多種擴展可能、存儲方式也多采用分布式結構。經過十多年的發展,NoSQL取得了成功,采用NoSQL技術的產品也不斷增長,目前NoSQL網站上()已經收集了150余個相關產品,人們也把采用類似NoSQL結構和原理的數據庫統稱為NoSQL數據庫。
最初NoSQL有意排斥關系數據庫的ACID規則和SQL特性(后發現其弱點又在一定程度和一定范圍內支持數據的一致性要求和SQL特性)。NoSQL堅持分布式領域的CAP理論,CAP的含義為:
Consistency,一致性。數據一致更新,所有節點訪問同一份最新的數據副本;
Availability,可用性。對數據更新具備高可用性;
Partition tolerance,分區容錯性。能容忍網絡分區。
CAP理論主張任何基于網絡的數據共享系統,都最多只能擁有以下三條中的兩條。而這種“三取二”的法則以及具體理解與執行的爭論就一直存在。想同時滿足三者,或者過分強化割舍三者之間聯系均會破壞數據系統的效率和效果。32歲便獲得加州大學伯克利分校終身教授的Eric Brewer提出了BASE理論(Basically Available, Soft state, Eventually consistent;基本可用、軟狀態、最終一致性),它用一種更注重可用性、更便于理解的方式解釋分布式系統的特點。
NewSQL注意到關系數據庫的靈活性不足、數據庫互鎖機制效率低下的特點,同時也意識到NoSQL不支持SQL所帶來的不便,它采用了一種近似折中的方案,既支持SQL并保證一定程度的數據一致性,同時也提供NoSQL數據庫的非關系數據處理的擴展功能,因而從產生之初便受到業界的喜愛,相關產品不斷涌現。NoSQL和NewSQL常見產品及其分類情況如圖所示。
2.2 NoSQL及其發展趨勢
在NoSQL潮流中,最重要的莫過于Apache基金會的Hadoop。它是一個領導者,是一個典型的分布式文件系統,是一個開源系統。用戶可以在不了解分布式底層細節的情況下,借助Hadoop開發分布式程序,它取得了成功,成為分布式數據處理界的巨獸(Hadoop的Logo就是只大象)。 現在甚至出來了“無分布不Hadoop”——每個傳統的數據庫提供商都急切地聲明支持Hadoop。關系數據庫的傳統霸主Oracle公司也將Hadoop集成到自己的NoSQL數據庫中,Microsoft、Sybase、IBM也加入了收納Hadoop功能的競賽中。
第二位領導者,MongoDB,是一個成功的文檔處理型數據庫系統,它被稱為“非關系式數據庫中最像關系式數據庫的產品”。MongoDB查詢功能強大,特別適合高性能的Web數據處理。
Cassandra是這個領域中的一個另類產品,它兼有鍵值數據庫和列值數據庫兩者的長處,它的查詢功能很優秀。雖然運行Cassandra集群難度較高,但它升級后的分析能力使得很多人感到驚訝。
Redis也是相當好的一個產品。對故障恢復的良好支持以及使用Lua的服務器端腳本語言是明顯區別于其他軟件之處。使用Lua確實帶來了一些震動,因為更多的人喜歡和習慣JavaScript服務器端語言。但是,Lua是一個整潔的語言,它并為Redis開啟了潘多拉盒子。
CouchBase在可擴展性和其他潛在因素,使其看起來是一個很好的選擇,盡管Facebook以及Zynga面臨著關鍵開發者離開的風波。CouchDB會變得更好抑或相反?只要數據庫做得好受眾就會歡迎,現在看來,它確實做的很好。
還需要提及的是Riak,在功能性和監控方面它也有了巨大的提升。在穩定性方面,它繼續得到大家的贊美:“像巨石一般穩定、可靠且不顯眼……”。Riak 數據模塊化方面做得很有特色。
在圖中,涉及了多個維度:關系型的與非關系型的、分析型的或操作型的、NoSQL類型與NewSQL類型的。最后的兩個分類中,對于NoSQL有著名的子分類“鍵值類數據庫、文檔數據庫、圖存數據庫和列存數據庫。對于NewSQL本已建立“存儲引擎、簇享數據、云服務”等類別。
大數據時代范文4
關鍵詞:大數據;小數據;數據分析;發展;變革
中圖分類號:TP31 文獻標識碼:A 文章編號:1001-828X(2014)010-00-01
如果說互聯網的浪潮改變了人們的生活,那么大數據將再一次改變整個世界,只有擁有數據的人才有最終話語權,眾多互聯網公司的巨頭們都紛紛追逐這夢想成為時代的弄潮兒,在原本近乎生疏的名詞“大數據”搖身一變,成了我們耳熟能詳的詞匯,無論是傳統企業或是互聯網公司都在邁開步伐向著大數據領域加速前進,然而現階段大數據的火熱程度如同盛夏的溫度一樣,大數據時髦,但非萬能,不必事事、時時與之相連。因此我們需要認清企業本身實際情況,不要盲目一味追求大數據,而忽略了小數據所帶來更精準、精確的數據分析。
《美國計算機學會通訊》幾次刊文談到了小數據,第一位意識到“小數據”重要性的是美國康奈爾大學教授德波哈爾?艾斯汀。他的父親去世之前幾個月,這位計算機科學教授就注意到老人在數字社會脈動中的些許不同,他不再發送電子郵件,不去超市買菜,散步的距離也越來越短。這種逐漸衰弱的狀態,到醫院檢查時,不管是測脈搏還是查病歷,這位90歲的老人都沒有表現出特別明顯的異常??墒聦嵣希粉櫵繒r每刻的個體化數據,他的生活其實已經明顯與之前不同。這種日常小數據帶來的生命訊息的警示和洞察,啟發了這位計算機科學教授,小數據可以看作是一種新的醫學證據,它是“your row of their data”。
一、大數據與小數據的對比
大數據技術(Big Data),或稱巨量資料,指的是所涉及的資料兩規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營更積極目的的資訊。大數據的特點,簡單總結為高容量、多元化、持續性、高價值。
小數據(iData),并不是指數據量小,而是圍繞個人為中心全方位的數據,及其配套的收集、處理、分析和對外交互的綜合系統。人產生的數據,包括生活習慣、社交、財務、行為等,全部被收集和利用進行分析,并對外形成一個富有個人色彩的數據系統,小數據的特點在于以單個人為對象,重點在于深度,對個人數據全方位全天候的挖掘利用。
大數據和小數據有些本質的區別,雖然以創造數據價值為目的思維和大數據是相似的,但是在具體方式上,還是有些不同的區別:
1.數據處理方式:大數據強調標準化,只有數據標準化,才能大規模采集,以后的數據處理概率統計才有了可能。可是數據一標準化,就失去了其數據產生時的特性和背景。而小數據的用戶數據的最大特點就是來源和使用者是同一人,只不過存和取時間和背景不一樣。
2.人的作用:在大數據模式下,數據從人身上產生被收集后,接下來的數據處理分析,就再也跟數據的主人無關了。而在小數據里,所有數據都圍繞一個人產生,所以人在系統發揮中心作用。
3.其他數據性質的區別:比如小數據的數據量相對大數據的數據量小。小數據對數據不需要全部快速反應,相反大數據對數據需要做出快速反應。小數據更加注重非結構化數據之間的關聯,重視深度挖掘,而大數據重在包容所有個體的數據,數據覆蓋面廣。
二、利用大數據中的小數據分析
Amazon(亞馬遜)的一句名言“最成功書籍應該只有一本書,就是用戶要買的下一本書”,即使大數據的先行者Amazon,預測用戶要買的下一本數也并不容易。然而Amazon一向敢于嘗試新的商業模式,Amazon正利用其數據優勢,基于各種小數據分析,通過了解客戶平時關注商品、新聞、愛好等信息,提前預測客戶需求,可以在顧客購物確定下單前預先發貨。
北京朝陽大悅城也有類似研究結果,信息研策部發現,平均每個駕車用戶一次可為商場貢獻約700元的收入,銷售變化與車流變化幅度的相關性接近92%。這都是小數據的魅力,相比電商背后的云數據,朝陽大悅城10萬人的數據樣本只算是小數據,但對于一家要自我革命的購物中心而言足夠了。這對于任何一個可進行數據分析的企業來說,極具借鑒意義。
三、小數據時代的發展未來
1.小數據的未來趨勢
通過數據分析提高銷售水平和服務質量,是任何公司未來發展的重要手段。目前國內對于小數據的分析和利用仍處于起步階段,企業可利用現有數據進行全面分析,并對數據中變量的全面把握,充分利用小數據分析結果對公司進行發展預測;考慮小數據的人文因素,在數據分析日益完善的基礎上,引入社會、心里、人文等因素,能夠多方位、多維度的進行分析,使分析結果更加準確。
2.小數據預測對人才的要求
為了使得數據分析的結果更加精準、精確,從而做出有預測性、有價值的分析。小數據分析人員要求具有統計學、商業分析和自然語言處理能力,能夠對數學、統計學、計算機等多方面知識的全方位掌握。
3.小數據的大服務
小數據作為數據時代的重要組成部分,任何銷售、服務、金融企業可以充分利用數據資源,在做好大數據的基礎上,提取具有鮮明特征且具有價值的小數據,挖掘可利用的客戶個人信息,獲取有價值的客戶信息,降低公司成本,提高運行效率,曾加銷量,更好地為客戶提供量身訂做的優質服務。
一切數據存在的根本在于人。人的需求是所有科技變革發展的動力。不遠的將來,數據變革下一步將從大數據時代進入以人為本的小數據時代。
參考文獻:
[1]董奎勇.說說小數據[M].紡織導報,2014,8.
[2]楊旭珠,岳亞楠.小數據早就大未來[J].環球市場信息導報,2014,4.
[3]王成文.數據力:“大數據”PK“小數據”[J].中國傳媒科技,2013,19.
大數據時代范文5
【關鍵詞】大數據 生物信息 知識提取 數據挖掘
1 數據挖掘的功能
數據挖掘是從大量的數據中四棟搜索隱藏于其中的具有特殊關系性的信息過程。它是數據庫知識發現KDD中的一個步驟。知識發現KDD過程由以下3個階段組成:數據準備、數據挖掘、結果表示和解釋。數據挖掘跟許多學科都交叉關聯,包括數據庫技術、統計學、機器學習、人工智能、云計算和可視化等。
數據挖掘的實際應用功能可分為三大類和六分項:分類和聚類屬于分類去隔類;回歸和時間序列屬于推算預測類;關聯和序列則屬于序列規則類。分類常被用來根據歷史經驗已經分好的數據來研究它們的特征,然后再根據這些特征對其他未經分類或是新的數據做預測。聚類是將數據分群,其目的是找出群間的差異來,同時找出群內成員間相似性。回歸是利用一系列的現有數值來預測一個數值的可能值。基于時間序列的預測與回歸功能類似,只是它是用現有的數值來預測未來的數值。關聯是要找出在某一事件與數據中會同時出現的東西。
2 降維
從降維的角度講,整個數據挖掘的過程就是一個降維的過程。在這個過程中,需要對數據刪除線性關系比較強的特征數據,再用一些算法,如信號分析算法、傅里葉轉換、離散小波轉換等算法,從數據中提取特征,再對數據做主成分析處理,得到最后的特征,再用數據挖掘算法來將這些特征轉化為人類可讀取的數據或信息。
3 分布式數據挖掘解決方案
隨著分布式計算技術、云計算技術、hadoop生態圈和非結構化數據庫等技術的發展,以及對大數據挖掘的需求,出現了一批分布式數據挖掘,比較典型的有Apache推出的基于Hadoop的Mahout和加利福尼亞大學伯克利分校AMP實驗室推出的基于Spark的MLBase。在Mahout中主要實現3種類型的數據挖掘算法:分類、聚類(集群)和協同過濾。相比Mahout而言,MLbase更好的支持迭代計算,它把數據拆分成若干份,對每一份使用不同的算法和參數運算出結果,看哪一種搭配方式得到的結果最優。
4 大數據下的具體應用實例――生物信息學的應用
生物信息學(Bioinformatics)是生命科學、計算機科學、信息科學和數學等學科交匯融合形成的一門交叉學科。近年來隨著先進儀器裝備與信息技術等越來越廣泛和深入的整合到生物技術中來,生物醫學研究中越來越頻繁的涉及到大數據存儲和分析等信息技術。在使用計算機協助生物信息時,處理僅有計算機輔助的方式存儲數據很顯然是不夠的,生物信息學研究的目的是運用計算機強大的計算能力來加速生物數據的分析,理解數據中所包含的生物學意義。當前生物信息學研究的熱點有:
(1)由以序列分析為代表的組成分析轉向功能分析。
(2)由對單個生物分子的研究轉向基因調控忘了等動態信息的研究。
(3)完整基因組數據分析。
(4)綜合分析。
生物信息數據具有如下特點:高通量與大數據量;種類繁多,形式多樣;異構性;網絡性與動態性;高維;序列數據等特點[5]。針對這樣的生物數據信息,要結合當前的大數據分析方法進行分析和理解。當前數據挖掘實現對生物信息分析的支持主要有:生物數據的語義綜合,數據集成;開發生物信息數據挖掘工具;序列的相似性查找和比較;聚類分析;關聯分析,生物文獻挖掘等方面。
參考文獻
[1]許凡.大數據時代的數據挖掘技術探討[J].電子技術與軟件工程,2015(08).
[2]洪松林.數據挖掘技術與工程實踐[M].北京:機械工業出版社,2014(11).
[3]李榮.生物信息數據挖掘若干關鍵問題研究與應用[D].復旦大學(博士論文),2004(11).
[4]宋杰.生物信息數據挖掘中的若干方法及其應用研究[D].大連理工大學(博士論文),2005(04).
[5]孫勤紅.基于梯度采樣局部收斂的生物信息大數據挖掘[J].科技通報,2015(10).
作者簡介
孫勤紅(1979-),女,山東省人。現為三江學院計算機科學與工程學院講師。研究方向為人工智能、數據挖掘。
沈鳳仙(1984-),女,江蘇省人。現供職于三江學院計算機科學與工程學院。研究方向為數據挖掘。
大數據時代范文6
馬年引爆大數據體驗風暴
“大數據”一詞的出現,已是好些年前的事情。之前在中國只是京滬廣深有部分人在研究,其他地方也只是時不時的聽到媒體的吆喝,究竟怎么樣?離我們生活到底有多遠?沒有太多人去關注,但是在馬年的春節悄悄發生了改變。關于大數據,中央電視臺財經頻道重點解讀、各大媒體爭相報道、各路機構狂熱吹捧、大小公司視為新視野,一時間好像不知道“大數據”,就不是生活在新世紀的人了。中央電視臺和百度地圖合作,播報春節全國人民的大遷徙,更是給全國人民上了一堂關于大數據的通俗課,讓老百姓形象地體驗到大數據就在我們身邊的每一個角落,與我們生活息息相關。關于搜索引擎中統計給丈母娘送禮排名第一被統計出來之后,每一個參與者也成為了大數據中的一分子,更關鍵的是讓大數據走下科技、走下高不可攀的神壇,真正和老百姓的衣食住行結合,讓老百姓實實在在地感受了身邊的大數據。馬年春節讓這一切變成了現實!大數據未來的運用將會更多地和老百姓生活結合,和中國人的生活息息相關。
大數據實現的渠道基礎
大數據的統計離不開各種搜索引擎和社交媒體,他們是進行大數據統計的主要渠道。從現在各種媒體報道的數據來看,搜索引擎數據最主要的來源是百度;社交媒體最主要的來源是微博、QQ、微信、專業網站及相關的APP。不管是百度還是微博、QQ、微信、專業網站及相關的APP,他們經過這么多年的發展,積累大量的用戶和數據,在馬年引爆也不是偶然。
這些大數據渠道對于中國人并不陌生,幾乎和我們的生活形影不離。要找到一個不用百度、不用QQ的中國網蟲幾乎沒有,中國人對這些工具的每一次使用,都是對大數據的貢獻;每一項大數據的結果,需要這些平臺在后臺進行大量的統計和分析。要進行大數據分析,離不開個這些平臺的支持。
大數據獲取相對開放
難能可貴的是很對數據平臺的信息是相對開放公開。比如新浪微博的評論數和轉發量,愛奇異視頻的播放量和好評分數等,這些都是可以通過公開進行數據統計活動的。但更多的數據則只有平臺自身才可以看到,比如百度單個詞匯的搜索量。即便如此,并不等于一定要大公司和大機構才能進行大數據分析,這取決于你所要分析的內容。比如,我們想要知道春節期間哪些旅游線路最擁擠,就可以分析攜程網、去哪兒網和途牛旅游網等幾大旅游網站推出的線路報價,報價逐步高漲的一般都是水漲船高,線路越來越擁擠;報價基本維持不變的線路表明選擇的游客不多;相反報價降低或是干脆沒有報價的,一般則是冷門線路或是不適合出行線路。這樣的統計,大眾只需要動動腦、動動筆,勤快一點就可以做。但是要進行全國性的分析,比如馬年春節人口遷徙情況,則只能依靠大的專業機構或中央電視臺這樣的平臺才能做到。
大數據向生活全方位的擴展擁有無限空間