前言:中文期刊網精心挑選了大數據云計算技術范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
大數據云計算技術范文1
關鍵詞:大數據;云計算;職業教育
中圖分類號:G424 文獻標識碼:A 文章編號:1009-3044(2014)09-1853-01
2012年,聯合國大數據政務白皮書,提出了各國政府(包括聯合國在內)的一個歷史性機遇:利用豐富的大數據對社會經濟做出具體的分析,幫助政府更好的運行經濟服務社會。同年,奧巴馬在美國白宮宣布將“大數據戰略”上升為國家意志,將大數據定義為“未來的新石油”并加大投資拉動相關產業。2013年12月5日-5日,由中國計算機學會主辦,中國CCF大數據專家委員會承辦的主題為“應用驅動的架構與技術”的中國大數據技術大會,這次大會成為大數據技術與應用深度結合的新起點,成為產業界、科技界與政府部門密切合作的新平臺,進一步推動我國大數據的產學研。2014年3月1日,在北京舉行的貴州?北京大數據產業推介會上,貴州共獲投730.2億元用于大數據產業的發展,這一偉大的壯舉將全面推動貴州互聯網,網絡營銷發展進而影響貴州經濟發展。百年大計,教育為本,在貴州“后發趕超,跨越發展”的過程中,教育的改善提升成了社會發展步伐是否穩健的重心,隨著大數據的到來,貴州的教育正張開騰飛的羽翼迎接新一輪的跨越趕超,貴州在全國率先完成中小學生學習信息管理系統,學生學籍信息入庫。為加快推進職業人才培養體系建設,促進經濟工作穩定快速發展,省教育廳、人社廳等多家單位攜手并進,聯合出臺了加快職業人才教育培養的實施方案,以貴陽為中心,打造職業教育核心發展區,規劃高職辦學規模達到25萬人,為貴州大數據產業發展提供充足的人才保障,建成具有貴州特色的現代職業教育體系。在大數據背景的前提下,貴州的職業教育發展將踏上更加非凡和精彩的跨越之旅。
1 大數據、云計算簡介
麥肯錫公司在2011年了一個前沿領域的研究:大數據。雖然到現在為止沒有一個明確的定義,但是,大數據不是海量數據的表面理解,具有數據體量巨大,數據類型繁多,價值密度低,處理速度快等特點。 “云計算是通過網絡提供可伸縮的廉價的分布式計算能力”。云計算代表了以虛擬化技術為核心、以低成本為目標的動態可擴展網絡應用基礎設施,是近幾年來最有代表性的網絡計算技術與模式。從技術上看,大數據與云計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單臺的計算機進行處理,必須采用分布式計算架構。它的特色在于對海量數據的挖掘,但它必須依托云計算的分布式處理、分布式數據庫、云存儲和虛擬化技術。
2 高職院校大數據條件下云計算的應用
云計算的應用使得高校在信息工具化的時代能夠脫離原始的“信息孤島”現象,集中了原本分散的國內及世界的教育資源,讓社會與學校,學校與教師,教師與學生之間有了更深的互動和相互帶動,把社會各行各業對教育有利的資源通過計算機與網絡終端帶動教育的發展。高職教育與傳統的本科教育不同,重點是培養學生的實際操作能力,通過資源庫的分析和選取并優化應用,可以提高高職教育的目標性。
2.1 依據社會人才需求信息,調整專業設置
目前的社會公開招聘信息都是通過互聯網至少在全國范圍內進行公開招考的,近幾年,百度等各大網站都可以輕易的分析出
招聘的條件和專業。各大中型企業招聘的專業類型等都可以通過數據提取,數據分析得到各專業的需求狀況,通過這些計算、分析這些大數據,可以適當迅速的調整專業設置和專業學習計劃,以適應信息瞬息萬變的時代需求。
2.2 利用數據庫優秀教育資源,提高教學效果
近年來,各大高校,職院都在進行重點專業的課改工作,很多優秀的課程教學視頻和配套資源等上網,通過相關網站對教育資源的數據進行搜索,在相應的學院,教研室,進行數據的分析和研討,經過相應的更改后可以直接應用我們的教學和管理中,可以充分吸取網絡教育資源的精華,變成自己教學工作進步的工具。
2.3 充分利用電子圖書館,擴展“校企合作”的形式
貴州是教育相對落后的地區,首先,經濟基礎決定上層建筑,資金配套的硬件措施是制
約學校教學工作前進的橋梁,近幾年,國家的西部發展計劃和貴州省對教育尤其是職業教育的大力支持,使得,學校的教學環境有了很大的改善,很多學校都配套修建了電子圖書館和電子信息實訓室?!靶F蠛献鳌笔紫仍诎l達地區開展,在貴州,合作項目近三年才開始試行,以貴州職業技術學院為例,2012年,由政府搭臺的“中興網絡學院”項目達成協議,中興在貴州職院第一次投入一千萬元建立實訓室并開始招生,除了學校教學計劃必須完成的課程外,中興選派有實戰經驗的一線老師加強學生實訓的教學和指導,讓學生更深入的練習自己的職業技能,除了學習學校扎實的基礎理論,更吸收了中興企業信息化的優勢。
3 高職教改的新方向
面向大數據的云計算主要是為學院提供基于云架構的知識、信息的存貯,但對于這些數據的科學性分析和研究并不完備,尤其是職業院校需要的不僅僅是可以相對容易驗證真理的理論知識,主要是一線的先進生產力和技術的學習和研究資料,所以認真學習和研究大數據的處理方式,將是未來高職在大數據方面的發展新方向,當然事物兩面性的原則,大數據的網絡環境也為學院的發展帶來負面的影響,比如,隨處可見的傳感器和攝像頭等,都可能會泄露學校和學生的私人隱私信息,暴露學校的科研痕跡和學生的行蹤軌跡,從而對學生的個人安全等起到威脅作用,所以,隱私信息保護系統也是當下研究的熱點問題。
大數據云計算技術范文2
【關鍵詞】云計算技術 大數據 數據處理
隨著物聯網、網絡、移動通信等的快速發展,特別是互聯網的普及使得信息傳播的規模和速度呈現幾何增長,人們獲取信息的途徑和方式開始變得異常豐富,人們事實上已經進入了“信息大爆炸”時代。與此同時信息傳播的大容量、高效性和準確性也對現有的數據處理體系提出了更高要求。根據大數據摩爾定律,人類世界的數據產生量將按照每兩年一倍的速率增長,預計2020年世界數據量將超過35億GB,“大數據”時代迫在眉睫?!按髷祿本哂须x散型、隨機性、發散性、爆發性等特點。近年來,隨著云技術的興起全面革新了傳統的數據技術,大容量、多樣化、快速處理、信息價值性和準確性為了云技術背景下大數據處理的五大主要特征。如何利用云計算技術對大數據進行高效處理已經成為了信息技術發展亟待解決的關鍵問題。
1 大數據和云計算的關系
云計算技術是指利用集中式遠程計算資源池,通過按需分配的方式,為終端用戶提供強大而廉價的計算服務技術。云計算技術作為一種數據處理方式,其技術特點包括:一是資源池在物理上是對終端用戶完全透明的;二是能夠為任何行業提供規?;嬎惴?,其服務能力可看做是“無限”的;三是其應用部署快速便捷,服務能力和方式是可以完全按照終端客戶要求定制的,具有極強的彈性伸縮能力;四是云端數據獲取方便,能夠資源共享,用戶使用成本低廉。
云計算技術是目前最強大的數據存儲、傳輸和處理平臺,它是大數據處理的最優選擇。云計算能夠為大數據提供幾乎“無限”的存儲空間和處理能力,滿足其超大容量存儲和超級復雜的處理需求,也是傳統存儲方式無法實現的。云計算側重數據的計算處理,而大數據需要強大數據處理能力,因而它是云計算的處理對象。此外大數據所產生的業務需求也為云計算的實現提供了更多的形式。
2 基于云計算的大數據處理技術
2.1 大數據的采集技術
目前數據采集方式主要分為集中式和分布式兩大類。其中分布式的靈活性較強,而集中式的全局性較好。實際上大數據采集的對象通常包括組織內部和相互獨立組織間的各類數據,而云計算恰好具有并行處理的優勢,因而可采取混合式采集方式能夠更加有效地完成數據采集任務。即在各個組織內部采用集中式數據采集方式,通過在組織內配置中心服務器,作為集中式數據注冊機構,用于存儲和共享內部的數據。在相互獨立組織間,采用云計算的集群技術、虛擬化技術等在各獨立組織中心服務器間采用分布式采集方式實現數據采集、組織間對接和共享。大數據結構類型包括結構化、半結構和非結構化數據,因而在應用云計算技術進行分布式采集時,可依托其超強的擴展性和容錯力,將數據池內數據進行同構化,從而實現數據進行分類存儲。
2.2 大數據的存儲技術
由于超大體量、離散、復雜的數據特點,傳統數據存儲模式已經難以滿足大數據存儲要求。一方面單結點的數據倉庫在容量上難以滿足呈幾何增長的數據量,在運行效率上也難以滿足大數據的分析處理需求。另一方面傳統數據倉庫按行存儲模式,雖然可以實現大容量索引和視圖,但實際操作中其時間和空間過高。而云計算主要采取列式存儲模式,即區分數據不同屬性,不同屬性列都單獨存放。云計算中列式存儲的優勢在于在投影數據時只需查詢其屬性列,系統處理量和處理效率顯著提升。此外按數據屬性進行列式存儲,數據倉庫中相鄰列數據的相似性更高,因而能夠得到更高的數據壓縮率,進一步減少存儲所需空間。
2.3 大數據的挖掘技術
聯機分析能夠完成數據的復雜處理,得到直觀結果,實現決策性分析。云計算并行模式下聯機分析能夠基于數據全局,建立多維分析模型對數據進行多維度分析,從而盡可能獲得全面的分析結構。由此可見多維度分析是聯機分析的重要特征,而云計算技術下數據倉庫正好是通過多維數據組織的。
聯機分析對數據的處理僅僅只是表面的,其獲取的信息價值并不高,難以得到數據深層次的含義與內在關聯。而數據挖掘正是在聯機分析的基礎上,從超大體量的數據倉庫中提取數據所蘊含的隱性信息,并將這些信息用規律、概念或是模型等表現出來。基于云計算的數據挖掘主要采用分布式并行挖掘技術。與其他串行方式相比,云計算技術下并行數據挖掘能夠利用機器集群拆分分布式系統中的并行任務,并將拆分后的各個任務分別交由不同的機器去處理,從而實現大規模數據處理,其時間成本也大大降低。
2.4 大數據的可視化技術
上文所述數據挖掘可實現大數據的深層次、多維度分析,獲取更多有用信息。而云計算平臺下可視化技術則能夠將上述信息具體化,從而使數據及其有關結構的相關信息能夠更直觀地表現出來,更容易被發覺和理解??梢暬夹g是指在存儲空間中,將數據庫及其中數據以圖像(圖形)的形式表示出來,并在其中再采用其他的分析手段獲取圖像中所蘊含的未知信息。而原有的數據處理僅僅只能夠從數據本身入手,分析和觀察數據中的內在信息。云計算下的可視化技術不但能夠實現非空間數據的多維度圖像顯示,而且能夠實現檢索過程的直觀圖形顯示,從而幫助人們更好地挖掘和理解信息,信息檢索效率也大大提升。
3 結語
在數據爆炸時代,云計算的出現為大數據的存儲和處理提供了可能,也為數據處理系統的功能擴展提供了重要保障。以往的數據管理將收集和存儲作為重點,而在云計算模式下,大數據管理將更多地側重數據分析、挖掘及管理模式的創新。目前數據采集和統計技術已經較為成熟,利用云計算進一步豐富大數據的存儲和處理方式,實現更高層次的數據挖掘和可視化將是今后需要解決的問題之一。
參考文獻
[1]孟小峰,慈祥.大數據管理:概念,技術與挑戰[J].計算機研究與發展,2013,50(1):146+169.
[2]吳雪琴,基于云計算的大數據信息檢索技術研究[J].電腦知識與技術,2014,10(10):38-41.
[3]迪莉婭.基于云計算的電子政務大數據管理研究[J].信息管理與信息學,2013(12):50-51.
大數據云計算技術范文3
所謂“大數據”(bigdata),就是指所涉及的數據量規模大到無法利用現行主流軟件工具,在一定的時間內實現收集、分析、處理或轉化成為幫助決策者決策的可用信息。大數據有四大特征:數據規模大(Volume),從TB級別躍升到PB、EB乃至ZB級別;數據種類多(Variety),有圖片、地理位置信息、視頻、網絡日志等多種形式;數據要求處理速度快(Velocity),是指數據處理挖掘速度極快;數據價值密度低(Value),指大數據庫包含極高的商業價值,可以深度挖掘出及時、相關和有效的信息。即所謂的“4V”特性。大數據時代,不僅改變了傳統的數據采集、處理和應用技術與方法,還促使人們思維方式的改變。大數據的精髓在于促使人們在采集、處理和使用數據時思維的轉變,這些轉變將改變人們理解和研究社會經濟現象的技術和方法。
二、云計算的定義及特征
“云計算”最早是從IBM和谷歌等大型互聯網公司處理海量數據的實踐中提出。云計算(CloudComputing)是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。美國國家標準與技術研究院對云計算給出的定義是:云計算是一種按使用量付費的模式,這種模式提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池,這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。云計算具有以下特征;支持多人共享資源池,服務由一組資源支撐,云計算借助虛擬化技術,按照客戶需求對存儲、計算、內存、網絡等資源化進行動態的分配;隨需的自助服務,用戶可以隨時隨地的用任何網絡設備調用云計算資源;按需的自助服務,用戶可以根據自身的需求,自行調整或者修改所需計算資源或服務;服務費用低廉,用戶只需支付少量的費用即可滿足對信息處理的需要。
三、大數據、云計算之間的關系
大數據與云計算的關系很密切,大數據離不開云計算,云計算也離不開大數據,兩者相互依賴,互為依存。大數據本身就是一個復雜的問題集,大數據必須有云作為基礎架構,才能得以順暢運營。大數據必須依靠云計算技術來實現對龐大數據資源的挖掘和整理,從而提煉有價值的信息(見圖1)。
四、大數據、云計算助推管理會計轉型升級
(一)基于大數據和云計算的管理會計思維變革
大數據、云計算時代,財務數據的容量在不斷增大,人們不再一味地追求數據的精確度,也不再依賴抽樣分析,數據的時間價值和完整面貌開始顯現,數據價值挖掘的核心向動態、實時、全部的數據處理轉變,人們更加注重利用數據的及時性和完整性;大數據、云計算時代,財務管理決策流程也將發生變革,事物之間直接的因果關系也不再是關注的重點,人們開始轉向認識、研究和利用事物之間的相關關系;大數據、云計算時代,財務分析開始從基于單類型的結構化數據向多類型的非結構化數據轉變,財務信息和非財務信息實現高度融合,財務決策信息更加全面系統深入,相關度、準確度和可靠度不斷提升。(見圖2)
(二)管理會計由注重事后分析向基于過程控制轉變
對企業的經營管理活動進行事后研究和分析是傳統管理會計關注的重點,通過所分析經營管理活動事后反饋的數據結果來發現企業經營管理活動存在的問題,提出相應的整改意見并對未來的經營管理活動給出指導意見。但是,在現階段瞬息萬變的商業環境下,僅在事后對經營管理活動的結果進行分析不能及時,動態,全面和深入地了解企業,要更加注重對經營管理活動過程的分析?;诖髷祿驮朴嬎愕膽?財務人員不再局限于在事后對結果進行分析,反饋和監督,還能夠實現過程中對重要經濟指標偏離的差異分析、關鍵原因查找、糾偏控制及成功的關鍵驅動因素的深挖掘、再甄別、過程行動計劃和方案的動態修訂和完善、核心要素資源的重組和再配置等一系列管理過程。有效助推企業實現從經營性控制向規劃性控制轉變;從事后經營管理向全過程經營管理轉變;從靜態經營管理向動態經營管理轉變?;诖髷祿驮朴嬎愕膽?管理會計能在事前、事中、事后對企業的經營活動實現全過程,多方位,深層次的管控,從而有效的提升管理會計信息的及時性,相關性和有效性。
(三)借助大數據和云計算實現財務信息和非財務信息的高度融合,提高財務決策的相關性和準確性
大數據、云計算時代,對管理者投資決策有用的信息不僅僅限于財務信息,企業內部跨部門的數據、過去和現時跨業務形態的數據、合作伙伴和競爭對手的數據、上下游企業之間形成的供應鏈數據等等結構化和非結構化的數據組成一個廣義的大財務數據系統,形成一個集財務分析、戰略分析、商業模式分析和前景分析于一體的生態系統。基于大數據和云計算的大財務數據系統,有效實現財務信息和非財務信息的高度融合,為企業提供信息更加及時,內涵更加豐富,領域更加廣泛,分析更加深入全面的綜合財務報告,有效的避免了傳統財務報告信息來源單一,內容粗略簡單,結果反饋遲緩等不好的方面,綜合財務報告不僅能夠及時、動態、高效地反映企業所處的商業環境和社會環境,還能對企業戰略規劃、業績狀況、綜合治理、和發展前景等諸多與企業可持續發展息息相關的重要信息進行有效整合,深度解析。大數據、云計算技術使得財務決策更加科學合理,財務信息和非財務信息的高度融合,使得單純依靠財務信息決策導致的不可控的非系統風險得到極大程度的降低。大數據和云計算技術的應用,也使得財務與企業各部門之間的關系更加密不可分,企業各部門各業務系統的數據共享中心形成一個有機的整體,不同業務系統之間的“信息孤島”效應也得到有效的解決,使得企業作為一個大的生態系統運行更加健康有序。
(四)大數據和云計算助力企業提升資金管理水平
良好的資金管理體系不僅能有效強化資金內部控制,確保貨幣資金的安全,提高資金的使用效益,還能有效保障公司經營活動的順利開展,并根據資金的實時流向及動態監控為公司管理者提出合理的資金使用的建議和措施,提升企業的生產、經營管理水平。大數據、云計算技術為集團企業實現全過程、全方位、全覆蓋、全周期的資金管理和科學的經營決策提供了技術支撐。集團企業可可以按年度、月度、每周、每日甚至每時每刻對經營活動、投資活動和籌資活動發生的資金收入和出進行監管、考核和預測,使得企業的資金預算更加準確,最大限度的減少資金積壓,不斷提高資金的使用效率。大數據、云計算時代,企業借助云會計平臺進行實時全過程全方位可視化監控分子公司所有與資金運作的相關信息,記錄分子公司每一筆資金的流向,分析各分子公司資金的利用效率,從而對分子公司進行考核。企業可借助大數據、云計算技術對所有的與資金收付相關的歷史業務數據進行分析,分析企業不同區域,不同時間,不同業務涉及的不同現金流活動,借此幫助企業預測相同區域,相同時間,相同或者類似業務日常經營活動可能發生的資金收入和支出。企業通過云計算技術分析研究存儲在大數據中心與企業資金管理相關的采購數據、銷售數據、現金流數據、同行業及相關行業數據、資金分析數據、銀企互聯數據,實現對企業資金收付管理、資金調撥管理、資金分析和考核管理的動態化全過程監管。在大數據、云計算時代,不僅資金的管理水平得到迅速提升,隨著新型金融業態興起,資金管理由側重于資金集中和調配向不同層次的產融結合轉變。企業可以有效利用資本市場優化企業的資本結構,利用業務支付時間差取得沉淀資金,利用各種金融工具拓展企業的經濟業務,實現企業的資金管理與產業經營、資本運營的深入融合。
(五)大數據和云計算使得企業績效考核更加全面、科學、合理
大數據云計算技術范文4
關鍵詞: 云計算;分布式并行數據挖掘;海量數據
Abstract: In this paper, we develop a parallel and distributed data mining toolkit platform called PDMiner. This platform is based on cloud computing. PDMiner is used to preprocess data, analyze association rules, and parallel classification and clustering. Our experimental results show that the parallel algorithms in PDMiner can tackle data sets up to one terabyte. They are very efficient because they have good speedup, and they are easily extended so that they can be executed in a cluster of commodity machines. This means that full use is made of computing resources. The algorithms are also efficient for practical data mining. We also develop a knowledge flow subsystem that helps the user define a data mining task in PDMiner.
Key words: cloud computing; parallel and distributed data mining; big data
中圖分類號:TN915.03; TP393.03 文獻標志碼:A 文章編號:1009-6868 (2013) 04-0032-007
隨著物聯網、移動通信、移動互聯網和數據自動采集技術的飛速發展以及在各行各業的廣泛應用,人類社會所擁有的數據面臨著前所未有的爆炸式增長。美國互聯網數據中心指出,互聯網上的數據每年以50%的速度增長,每兩年翻一番,而目前世界上90%以上的數據是最近幾年才產生的,人類社會進入了“大數據”時代。因此,信息的獲取非常重要,一定程度上,信息的擁有量已經成為決定和制約社會發展的重要因素。
數據挖掘作為信息獲取的一門重要技術,得到了廣泛的研究。數據挖掘[1]從大量的數據中挖掘出有用的信息,提供給決策者做決策支持,有著廣闊的應用前景。由于要挖掘的信息源中的數據都是海量的,而且以指數級增長,傳統的集中式串行數據挖掘方法不再是一種適當的信息獲取方式。因此擴展數據挖掘算法處理大規模數據的能力,并提高運行速度和執行效率,已經成了一個不可忽視的問題。
為了解決海量數據的挖掘問題,一種簡單的方式就是把所有的數據劃分成若干份,也就是切分成若干個子任務,然后分布到各個計算資源上去進行計算,每個節點完成一個子任務,最后進行集成。分布式計算就是把一個計算問題分解成多個子問題并同時處理的計算模型。基于分布式計算模型,Luo等人[2-4]集成了很多數據挖掘算法到多主體系統。另外一種提高計算效率的方式是并行計算,并行計算也是把一個大的計算問題分割成小任務的形式。近年來,并行計算的體系結構和模型也引起了廣泛的興趣和研究[5-6]。
盡管分布式計算和并行計算有很相似的特點,但是它們之間各有側重,分布式計算強調在所有異構計算資源上同時求解問題,而并行計算則更加強調同一臺計算資源內部多線程并行。這兩種計算方式可以對應到算法之間的并行以及算法內部并行這兩種計算模式。文獻[2-4]提出基于主體技術的算法之間并行的計算模式,他們利用主體技術中主體本身的自主性、智能性等特點,實現不同算法主體之間的并行計算,以消息傳遞的方式實現同步,大大提高了算法的執行效率,減少了運行時間。第二種計算模式,是粒度比較小的并行方式,主要研究的是算法內部的并行。通過把算法分解,盡可能地找出算法中可并行的部分進行并行計算。這種計算模型的最終效率取決于算法本身的可并行程度,如果并行程度非常高,那么就可以大大提高算法的運行效率。由于在很多應用中,只需要執行一種應用(算法),所以研究算法內部的并行實現非常重要。文獻[7]實現了多種機器學習算法在多核計算機上的并行,本文主要針對第二種并行計算模式進行研究,而且可以在大規模計算機集群上運行。
近年來,云計算得到了學術界和業界的廣泛關注,它是一種基于互聯網的、大眾參與的計算模式,其計算資源,包括計算能力、存儲能力、交互能力,是動態、可伸縮、且被虛擬化的,以服務的方式提供給用戶?;诖笠幠祿幚砥脚_——Hadoop,我們研究開發了并行分布式數據挖掘平臺——PDMiner,其目的是設計實現并行數據挖掘算法處理大數據集,且提高執行效率。在PDMiner中包含4個子系統,工作流子系統、用戶接口子系統、數據預處理子系統和數據挖掘子系統。整個數據挖掘平臺提供了一個從海量數據中挖掘有用知識的完整解決方案,而且提供了可擴展的靈活接口。
1 大規模數據處理平臺
——Hadoop
Hadoop是一個軟件計算平臺,可以讓程序員很容易地開發和運行處理海量數據的應用程序。其核心部分包括HDFS[8]和基于MapReduce[9-10]機制的并行算法實現。
1.1 HDFS
Hadoop分布式文件系統HDFS是受Google文件系統啟發,建立在大型集群上可靠存儲大數據集的文件系統。它和現有的分布式文件系統有著很多的相似性,然而和其他的分布式文件系統的區別也是很明顯的。HDFS具有高容錯性,可以部署在低成本的硬件之上。此外,HDFS提供高吞吐量地對應用程序數據的訪問,適合大數據集的應用程序。
HDFS結構包含一個名字節點作為控制主節點,其他的服務器作為數據節點,存儲數據。具體地說,HDFS具有如下幾大特點:
(1)強容錯性
HDFS通過在名字節點和數據節點之間維持心跳檢測、檢測文件塊的完整性、保持集群負載均衡等手段使得系統具有高容錯性,集群里個別機器故障將不會影響到數據的使用。
(2)流式數據訪問與大數據集
運行在HDFS之上的應用程序必須流式地訪問它們的數據集。HDFS適合批量處理數據,典型的HDFS文件是吉字節到太字節的大小,典型的塊大小是64 MB。
(3)硬件和操作系統的異構性
HDFS的跨平臺能力毋庸置疑,得益于Java平臺已經封裝好的文件IO系統,HDFS可以在不同的操作系統和計算機上實現同樣的客戶端和服務端程序。
1.2 MapReduce
MapReduce是Google實驗室提出的一種簡化的分布式程序設計模型,用于處理和生成大量數據集。通過該模型,程序自動分布到一個由普通機器組成的超大機群上并發執行。
Map和Reduce是該模型中的兩大基本操作。其中,Map是把一組數據一對一的映射為另外的一組數據,Reduce是對數據進行規約,映射規則與規約規則可由用戶通過函數來分別指定。現實生活中很多任務的實現都是可以基于類似這樣的映射規約模式。
MapReduce通過把對數據集的大規模操作分發給網絡上的每個節點來實現可靠性,每個節點會周期性地把完成的工作和狀態信息返回給主節點。如果一個節點保持沉默超過一個預設的時間間隔,主節點就認為該節點失效了,并把分配給這個節點的數據發到別的節點,并且因此可以被其他節點所調度執行。
由于MapReduce運行系統已考慮到了輸入數據劃分、節點失效處理、節點之間所需通信等各個細節,使得程序員可以不需要有什么并發處理或者分布式系統的經驗,就可以處理超大規模的分布式系統資源。
2 并行分布式大數據挖掘
平臺體系架構
Hadoop提供了讓程序員易于開發和運行處理海量數據應用程序的平臺,其分布式文件系統HDFS是建立在大型集群上可靠存儲大數據集的文件系統,具有可靠性,強容錯性等特點;MapReduce提供了一種高效編寫并行程序的編程模式。基于此,我們開發了并行數據挖掘平臺——PDMiner,大規模數據存儲在HDFS上,且通過MapReduce實現各種并行數據預處理和數據挖掘算法。
PDMiner是一個集成各種并行算法的數據挖掘平臺,其中的并行計算模式不僅包括算法之間的并行,而且包括算法內部的并行。圖1給出了并行數據挖掘平臺PDMiner的總體系統架構,其中主要包括4個子系統:工作流子系統、用戶接口子系統、并行抽取轉換裝載(ETL)子系統以及并行數據挖掘子系統。工作流子系統提供了友好的界面方便用戶定義各種數據挖掘任務;用戶接口可以對算法的參數進行設置以及通過結果展示模塊分析挖掘結果并做出相應的決策;并行ETL算法子系統和并行數據挖掘算法子系統是PDMiner的核心部分,它們可以直接對存儲在HDFS系統上的數據進行處理,ETL算法處理后的結果也可以作為數據挖掘算法的輸入。
2.1 工作流子系統
工作流子系統提供了友好和統一的用戶接口(UI),使得用戶可以方便地建立數據挖掘任務。在創建挖掘任務過程中,可以選擇ETL數據預處理算法、分類算法、聚類算法、以及關聯規則算法等,右邊下拉框可以選擇服務單元的具體算法。工作流子系統通過圖形化UI界面為用戶提供服務,靈活建立符合業務應用工作流程的自定制挖掘任務。通過工作流界面,可以建立多個工作流任務,不僅每個挖掘任務內部并行,而且不同數據挖掘任務之間也并行。
2.2 用戶接口子系統
用戶接口子系統由2個模塊組成:用戶輸入模塊、結果展示模塊。用戶接口子系統負責與用戶交互,讀寫參數設置,接受用戶操作請求,根據接口實現結果展示。比如并行分類算法中并行樸素貝葉斯算法的參數設置界面如圖2所示,從圖中看到可以方便地設置算法的參數。這些參數包括訓練數據、測試數據、輸出結果以及模型文件的存儲路徑,而且還包括Map和Reduce任務個數的設置。結果展示部分實現了結果可視化理解,比如生成直方圖、餅圖等。
2.3 并行ETL算法子系統
數據預處理算法在數據挖掘中起著非常重要的作用,其輸出通常是數據挖掘算法的輸入。由于數據量的劇增,串行數據預處理過程需要消耗大量的時間來完成操作過程,因此為了提高預處理算法的執行效率,在并行ETL算法子系統中設計開發了19種預處理算法[11],如圖3所示,包括并行采樣Sampling、并行數據預覽PDPreview、并行數據添加標簽PDAddLabel、并行離散化Discretize、并行增加樣本ID、并行屬換AttributeExchange、并行布爾型數據到系列數據的轉換BoolToSerialNum、并行數據歸一化Normalize、并行屬性約簡PCA、并行數據集成DataIntegration、并行統計Statistic、并行屬性約簡AttributeReduction、并行數據區間化Intervalize、并行冗余數據刪除RedundancyRemove、并行屬性添加AttributeAdd、并行屬性修改AttributeModify、并行數據缺失值替換ReplaceMissingValues、并行屬性刪除AttributeDel,以及并行屬性選擇AttributeSelection等。
通常ETL操作都具有很高的并行化程度,比如屬性的刪除,可以把數據劃分成很多塊,算法對每個數據塊的處理都是相對獨立的,因此并行ETL子系統中實現的并行ETL算法具有很好的加速比,大大提高了算法的運行速度和執行效率。
2.4 并行數據挖掘子系統
并行數據挖掘子系統是并行數據挖掘平臺PDMiner的核心部分,主要包括了三大類算法:并行關聯規則算法、并行分類算法[12]以及并行聚類算法等。
目前該并行數據挖掘子系統中已經開發了很多經典的數據挖掘算法,各類并行算法模塊包含的算法如圖4、圖5、圖6所示,其中并行關聯規則算法包括并行Apriori算法[13],并行FP樹FPgrowth以及并行Awfits算法;并行分類算法包括并行超曲面分類算法HSC、并行k近鄰算法Knn、并行樸素貝葉斯算法NaiveBayes,并行決策樹算法C4.5、并行基于范例推理算法CBR、并行基于類中心算法CBC以及并行極限向量機ESVM等;并行聚類算法包括并行DBScan算法,并行Clara算法[14]、并行k均值算法Kmeans[15-16]以及并行EM算法等。
執行數據挖掘算法的一般流程如圖7所示。從算法流程來看,PDMiner是一個用戶友好的系統,用戶不用了解底層算法的設計和實現,就可以很容易使用系統。另外對于并行ETL子系統和并行數據挖掘子系統,還提供靈活的接口方便用戶集成新的算法。
2.5 基于MapReduce實現的算法實例
下面以決策樹為例描述基于MapReduce的并行算法的實現過程。決策樹算法是利用已標記訓練集建立決策樹模型,然后利用生成的決策樹對輸入測試數據進行分類。在以前的很多工作,主要是把數據劃分到多個計算節點上,然后各自建立決策樹模型,最后采用集成的方式得到最終模型[17]。采用MapReduce機制可以很好地解決決策樹算法內部的并行問題,提高算法的執行效率以及處理數據的規模。
圖8給出了并行決策樹算法的流程圖。在該并行算法中,實現了同一層內節點之間、節點內的并行計算,提高算法的執行效率。更重要的是,實現的并行決策樹算法以循環代替了遞歸,使得運行完程序所需要的最大作業(Job)個數可預測(最大數目為樣本集中條件屬性的數目 ),從而有利于控制程序的執行狀態。而在遞歸中,無法預測還有多少節點要運算,這樣就無法預測程序何時結束。由于層與層之間的運算是串行的,因此在基于MapReduce機制的并行決策樹實現中,上一層都會傳遞前綴信息給下一層節點,這些前綴包括從根節點到當前分支的分裂屬性信息等。
從流程圖可以看到每一層只需要一個Job,而不關心有多少個節點。程序需要運行的最大層數由條件屬性的個數決定,因此是可控制的。由于在并行的過程中主要是統計頻率,因此的設計非常重要,設置如下:在訓練過程中,訓練數據被劃分到各個節點中進行運算,Map函數輸入的分別設計為樣本ID和樣本本身;輸出的,key設計為訓練樣本對應的類別+條件屬性的名字+條件屬性的值,value為key出現的次數。Reduce函數的輸入和輸出的的設計均為Map函數輸出的。
當還有前綴的情況下,需要刪除訓練集中包含生成決策規則的樣本,該過程是一個讀寫的過程。對于包含新得到的決策規則的樣本,不再寫入訓練集,這樣在下一次迭代中就只計算那些沒有包含生成決策規則的樣本。
測試過程則非常簡單,每個Map利用已生成的決策樹模型對樣本進行預測,直接樣本的預測標記,不需要Reduce過程。
3 PDMiner的特點
3.1 可擴展性
PDMiner是一個可擴展的并行分布式數據挖掘平臺,我們為系統提供了靈活的接口來擴展集成新的并行算法。通過工作流子系統可以很方便地添加一個新的算法,比如在并行ETL子系統中添加新的算法PDAlgorithm1,則只要添加如下代碼:
通過加入最后一行代碼以后就可以在選項卡PD-Filters下面加入一項PDAlgorithm1。生成空類PDAlgorithm1的代碼如下:
其中在函數listOptions( )、getOptions( )、setOptions( )中編寫配置算法參數的代碼,在run( )函數中編寫調用Map函數和Reduce函數的代碼,用戶可以根據具體的算法編寫相應的Map函數和Reduce函數。并行數據挖掘算法的添加與ETL算法的添加類似。
3.2 支持多挖掘任務
在PDMiner中,不僅支持單個任務的創建和執行,而且支持同時創建和運行多個數據挖掘任務。這些任務可以是不同類別的挖掘任務,比如并行關聯規則任務、并行分類和聚類任務等,當配置完參數,這些任務可以同時在并行分布式系統PDMiner中執行。
支持多挖掘任務功能,具有非常重要的作用。比如要對所有的分類算法進行比較,從而選擇對已有數據集表現最佳的算法。一般的做法是串行測試完所有的算法,然后根據算法的效果進行選擇。而在PDMiner中可以并行地解決該問題,所有的算法都面向同一個數據集(讀取同一個頭文件信息),最后結果通過系統進行展示,從而選擇最合適的算法。從這個比較機制看到,所有的并行算法都是在并行系統中執行,因此可以處理大規模數據;另外,這些算法的執行過程是并行的,評價過程是自動的,因此可以減少算法執行時間和用戶的干預。
3.3 創建復雜挖掘過程
通過工作流子系統,系統還支持創建復雜挖掘任務,可以把并行數據預處理操作和并行數據挖掘算法串聯起來。系統提供并行屬性刪除操作、并行數據歸一化以及并行分類算法樸素貝葉斯的串聯。當配置完所有算法參數后,其執行過程如下:
·執行屬性刪除操作,對數據集進行屬性刪除操作,并且修改頭文件,生成新的頭文件信息。
·接收屬性刪除后更新后的頭文件,進行數據歸一化操作。
·進行分類算法任務。接收從第二步傳遞過來的頭文件信息,然后啟動分類算法任務。當任務執行完后,對分類結果進行展示。
4 實驗分析
并行分布式數據挖掘平臺PDMiner是一個高效的數據處理與分析工具,主要面向海量數據集的處理。在保證算法正確性的情況下,構造大數據集來考察算法的性能。系統中開發的并行算法已經在通信領域的實際數據挖掘中應用,以下給出了一些算法在構造的大數據集上的性能測試結果。鑒于隱私性等原因,這里沒有給出具體的并行算法名稱。
圖9、圖10、圖11、圖12、圖13給出了2個并行ETL算法和3個并行數據挖掘算法的時間性能。ETL測試的數據規模達到太字節級,而關聯規則、分類算法、聚類算法的數據規模分別是30 GB級別、400 GB級別、12 GB級別。我們分別記錄了32個節點,64個節點,128個節點的運行時間。若假設32節點執行的時間是標準的理想狀態下的時間,圖中紅線部分給出了理想情況下64節點和128節點的時間性能。從這些圖中,可以看到:
·通過增加節點,都可以提高算法的運算速度,較少執行時間。
·算法本身越簡單,即并行成分也大,效果越明顯,ETL算法顯然具有較高的加速比,執行效率也比較高;這說明算法的并行效率與自身可并行化的程度有關。
·如圖11所示,算法有時候可以得到線性加速比,說明該并行數據挖掘系統可以有效地利用計算資源。但我們也應該看到這種并行計算模型也不是萬能的,增加節點并不能總是能很好地提高效果(如圖13所示),有時甚至會由于并行通信而使效果變差。
5 結束語
針對大數據的處理和挖掘,本文開發設計了并行分布式數據挖掘平臺——PDMiner?;贖adoop平臺和MapReduce的編程模式,開發實現了各種并行數據預處理操作以及并行數據挖掘算法,包括關聯規則算法,分類算法以及聚類算法等。另外,PDMiner還開放了靈活的接口,方便集成新的ETL算法和數據挖掘算法。實驗測試表明,開發的并行算法可以處理海量數據,且具有很好的加速比性能。
參考文獻
[1] HAN J W, KAMBER M, PEI J. Data mining: Concepts and techniques [M]. 3rd ed. San Francisco, CA,USA: Morgan Kaufmann Publishers, 2011.
[2] LUO P, LU K, SHI Z Z, et al. Distributed data mining in grid computing environments [J]. Future Generation Computer Systems, 2007,23(1):84-91.
[3] LUO P, LU K, HUANG R, et al. A heterogeneous computing system for data mining workflows in multi-agent environments [J]. Expert Systems, 2006,23(5):258-272.
[4] ZHUANG F Z, HE Q, SHI Z Z. Multi-agent based on automatic evaluation system for classification algorithm [C]//Proceedings of the International Conference on Information and Automation(ICIA’08),Jun 20-23,2008, Zhangjiajie, China. Piscataway, NJ, USA:IEEE, 2008: 264-269.
[5] HAMEENANTTILA T, GUAN X L, CAROTHERS J D, et al. The flexible hypercube: A new fault-tolerant architecture for parallel computing [J]. Journal of Parallel and Distributed Computing, 1996,37(2):213-220.
[6] GOUDREAU M W, LANG K, RAO S B, et al. Portable and efficient parallel computing using the BSP model [J]. IEEE Transactions on Computers, 1999,48(7):670-689 .
[7] CHU C T, KIM S K, LIN Y A, et al. Map-reduce for machine learning on multicore [C]//Proceedings of the 21st Annual Conference on Neural Information Processing Systems (NIPS’07), Dec 3-6,2007, Vancouver, Canada. Berlin, Germany: Springer-Verlag, 2007:281-288.
[8] BORTHAKUR D. The hadoop distributed file system: Architecture and design [R]. The Apache Software Foundation, 2007.
[9] DEAN J, GHEMAWAT S. MapReduce: Simplified data processing on large clusters [J]. Communications of the ACM, 2008,51(1):107-113.
[10] 萬至臻. 基于MapReduce模型的并行計算平臺的設計與實現 [D]. 杭州: 浙江大學, 2008.
[11] HE Q, TAN Q, MA X D, et al. The High-activity parallel implementation of data preprocessing based on MapReduce [C]//Proceedings of the 5th International Conference on Rough Set and Knowledge Technology(RSKT’10), Oct 15-17, 2010,Beijing, China. LNCS 6401. Berlin, Germany: Springer-Verlag, 2010:646-654.
[12] HE Q, ZHUANG F Z, LI J C, et al. Parallel implementation of classification algorithms based on MapReduce [C]//Proceedings of the 5th International Conference on Rough Set and Knowledge Technology(RSKT’10), Oct 15-17, 2010, Beijing, China. LNCS 6401. Berlin, Germany: Springer-Verlag, 2010:655-662.
[13] LI N, ZENG L, HE Q, et al. Parallel implementation of apriori algorithm based on MapReduce [C]//Proceedings of the 13th ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel Distributed Computing (SNPD’12), Aug 8-12,2012, Kyoto, Japan. Piscataway, NJ,USA: IEEE, 2012:236-241.
[14] ZHAO W Z, MA H F, HE Q. Parallel K-means clustering based on MapReduce [C]//Proceedings of the1st International Conference on Cloud Computing(CloudCom’09), Dec 1-4, 2009, Beijing, China. LNCS 5931. Berlin, Germany: Springer-Verlag, 2009:674-679.
[15] HE Q, WANG Q, ZHUANG F Z, et al. Parallel CLARANS clustering based on MapReduce [C]//Proceedings of the 3rd International Conference on Machine Learning and Computing (ICMLC’11):Vol 6, Feb 26-28,2011,Singapore. Piscataway, NJ,USA: IEEE,2011: 236-240.
[16] HALL M, FRANK E, HOLMES G, et al. The WEKA data mining software: An update [J]. ACM SIGKDD Explorations Newsletter,2009,11(1):10-18.
[17] 宋曉云, 蘇宏升. 一種并行決策樹學習算法研究 [J]. 現代電子技術, 2007,30(2): 141-144.
作者簡介
大數據云計算技術范文5
投資邏輯:計算機行業是技術驅動型和需求推動型行業。行業下游需求集中在交通、電力、醫療、金融、民生等領域,由于宏觀經濟的不景氣,下游需求不足。我們重點看好的是技術變革帶來的投資機會,云計算、大數據,已經從概念逐步落到實地,在政府大力推動下,這些細分領域內的公司必將迎來發展機遇。
云計算:國際云計算產業快速發展,國際IT巨頭亞馬遜、微軟、谷歌的云計算業務增長迅速。國內的云計算需求正在快速起來,以阿里云為代表的云計算服務公司業績快速增長,我們看好在云計算領域有長遠布局的公司,以及與國外巨頭合作的公司。
大數據:我國政府把大數據產業上升到國家戰略層面,出臺了一系列促進政策,打破數據孤島,政府購買大數據服務。大數據是打造智慧社會的利器,我們看好擁有強大數據處理分析能力的平臺型公司,以及利用自身能力向下游拓展,有數據變現能力的公司。
大數據云計算技術范文6
關鍵詞:云計算;大數據;鋼鐵企業應用
中圖分類號:TP393.09
“云計算”和“大數據”無疑是當下非常熱門的兩個詞匯,在各個行業中被廣泛提及。一些信息技術公司也適時地推出了相關產品,企業實際應用以及帶來的驚奇效果也不斷被各種媒體所報道,似乎一夜之間信息技術進入到了云和大數據的時代。
在相對傳統的鋼鐵行業近幾年向著現代化高速發展,信息系統的也得到了廣泛應用,但是鋼鐵企業一般對新信息技術的敏感以及引入應用要遲緩和慎重許多,然而革命性的信息技術帶來的管理和運營效益又為對這些傳統企業極具吸引力,因此本文將從“云”和“大數據”的基本概念理解的基礎上對鋼鐵企業實際應用可能遇到問題和前景進行相關論述。
1 對云計算和大數據的理解
“云計算”和“大數據”這兩個上看起來有些莫名其妙組合的詞匯,成為信息技術領域中的一項新技讓人難以理解其含義。這兩個熱門詞匯被頻頻提及,但是它們的真正實含義是什么?采用哪些最新的軟硬件技術?企業該如何進行應用?效果如何?這些問題引起各行各業相關人士的廣泛關注。
1.1 云計算。在傳統網絡結構圖中大多以云這種形狀的圖例來表示網絡,大概也是沿用這種圖例習慣,最初Google將基礎的軟硬件網絡廣泛地集成一個很大資源共享池稱之為“云”,用戶可以通過網絡以按需和易其擴展的方式使用資源,它具有虛擬化集成,超高的資源利用率,超大規模計算等功效。
對于“云”的概念給出很多了解讀,簡單理解就是由計算機硬件網絡構成集群平臺,可以提供各種軟件、計算和信息服務,而這種又是服務可以按需為用戶動態定制資源和服務內容,按使用量進行計費的一種信息服務全新模式。更通俗一些的講,可以將云可以比喻成電廠、自來水廠與普通市民之間的關系,每個用戶不需要自建電廠水廠,也不需要知道這些資源是怎么來的,而只根據自身需要使用并進行費用支付即可。
云平臺按應用范圍可以分為企業私有云,公共云和混合云三種,目前云計算技術發展日趨成熟,國外的Googel,Amazon等都有成熟的云平臺投入商業運營,國內的阿里云,百度云也推出相關應用。企業可以租用公共云或者構建自己的私有云,展開相關的應用。
1.2 大數據。如今,數據中心已經成為企業一份重要資產,每時每刻從種種傳感器,信息終端等都會有海量的數據產生。這些數據以近乎爆炸的方式進行膨脹,數據量達到PB、EB或ZB的級別,而傳統的數據處理模式已經遠遠不能滿足需求,因而衍生出“大數據”(big data)概念。
大數據不僅僅是個海量的數據,是規模非常巨大和復雜的數據集,傳統數據庫管理工具處理起來面臨很多問題,比如說獲取、存儲、檢索、共享、分析和可視化,大數據的重要特點可以用三個V來標示,一是數據量(Volume),數據量是持續快速增加的;二是高速度(Velocity)的數據I/0;三是多樣化(Variety)數據類型和來源。
大數據的收集與存儲或許不是最大的難點,最難也是最重要的就是如何從海量的數據中構建數據挖掘分析模型,進而提取出有價值的信息。對于企業來說大數據的核心價值在于,從擁有數據到預判需求,也就是幫助用戶用一種全方位的方法和手段處理數據,發掘出新的業務模式,創造商業機會,發掘潛在用戶。
一些前沿的信息技術公司推出了許多大數據的產品,例如IBM在業界率先提出“大數據平臺”架構,以Hadoop系統、流計算、數據倉庫和信息整合與治理四大核心技術能力,突破了傳統數據倉庫的理念,能夠為企業組織提供實時分析信息流和因特網范圍信息源的能力;國內鋼企廣泛采用的SAP也適時推出了面向大數據大規模處理的產品HANA,其“內存計算”和“列式存儲”技術,使數據處理近百倍的速度提升,HANA能夠貫通云計算、移動應用、商務分析、企業應用和數據庫五大平臺,實現海量數據的高效處理和實時分析。
鋼鐵企業如果部署和應用這些產品,實現大量、多樣化數據的流式傳輸與即時存儲、低延時和高效的處理,并在海量的基礎數據上依據復雜數據分析模型進行高速運算轉化為精準有價值的信息,真正體現的大數據的價值,為企業創造實實在在的經濟效益。
1.3 云計算與大數據的關系。云計算與大數據的產生都是為了應對海量信息的高效處理,進而為應用企業挖掘出有巨大商業價值的信息,它們有著共同一致的目標,許多專家認為,大數據是一個問題集,而云技術是解決大數據問題集最重要有效的手段。云計算提供了基礎架構平臺,大數據在這個平臺上進行分析應用,由此可見云與大數據是相輔相成、緊密甚至不可分割關系。
2 企業落地應用
近十幾年來國內鋼鐵行業在迅猛發展,企業投入巨資購買世界上最先進的設備改建擴建產線,中國粗鋼產量已穩居世界第一。然而高速發展帶來了整個行業產能過剩,價格下跌,利潤微薄,有些鋼鐵企業連續巨額虧損生存都成了問題,嚴峻的市場環境已迫使其從以往追求規模化和營業收入轉化成對產品市場占有率和利潤最大化的追求。這樣就要求企業必須充分利用現有資源,最大限度的發揮人、財、物的效能,建立高效的業務流程,更精細化的成本控制與分析。
現代信息技術,特別ERP、MES、自動控制等系統正是為滿足上述企業需求而產生并不斷發展改進,成為協助企業管理,實現價值的重要技術手段。目前鋼鐵企業大多都已經實施了這些系統,在生產運營過程中,每時每刻都有大量的數據,但是由于缺乏合適的處理技術,很多數據僅僅是存在硬盤中而沒有經過分析和加工轉化成為更有價值的信息,對海量數據的高效快速處理也成為企業信息化深度應用的一個瓶頸。另外,企業的信息化的發展需要引入各種各樣的系統,這些系統又需要服務器或存儲資源,獨占系統占有資源無法實現共享,硬件不停地購置,機房和設備不斷擴張,給企業再信息化的投資、運維和能耗等方面帶來來巨大壓力。
基于鋼鐵企業目前存在的問題,我們認為云計算和大數據的與解決這些問題存在很好的吻合度,但是引入這些新技術并在鋼鐵企業中進行落地應用可能會遇到一些問題:(1)投資與效益方面。前面分析到鋼鐵市場環境惡略,鋼企緊張的資金只可能向生產經營傾斜,信息化的投資必定到壓縮,而實現云平臺和大數據又需要較大的費用,因此信息部門必須提供足夠精準且真實可見的效益去打動高層領導。前期可以集合舊有設備構建輕量級的私有云,資源充分得到利用同時又可減少硬件設備的購置費用,此外要與生產、質量、營銷和財務等重要部門的專業人員進行分析,挑選一些領導關注、業務需求強烈、難以用傳統方式得到的信息用大數據方式進行解決,鋼企的運營的資金都非常龐大,如果引入新的信息技術能為產品品質提升,成本精準分析與控制,市場預測等方面哪怕有很小的百分比提升,帶來的經濟效益也會非常巨大,進而引起決策層的興趣。(2)技術方面。云平臺和大數據的應用對企業信息技術能力的挑戰,新技術的應用會對企業的信息技術人員提出更高技能要求,鋼鐵企業紛繁復雜的應用該系統遷往云端本身就是一個浩大的工程,鋼企的連續生產特性都系統必須程序穩定運行,保障企業生產運行的安全,實現這些系統平穩的遷移技術人員要承擔巨大的技術風險,因此,因此建設云計算與大數據的應用企業必須做好IT技術準備。
針對鋼鐵企業要清醒地認識云平臺和大數據落地應用與高新科技公司的重大差別,不能被熱炒概念和其它行業成功案例所迷惑,在應用前需進行冷靜分析,契合企業實際需求認真研究分析,在實施時建議遵循以下幾點:1)以企業效益為目標,技術服務于應用;2)不盲從,不追逐熱門概念,解決重點需求,求實效;3)做好整體規劃,分步進行實施;
3 結束語
信息技術已經無可阻擋的地向云計算和大數據時代進行快速發展,相應的軟硬件會更趨于成熟,成功案例也會越來越多,在這個時代,掌握信息就掌握了市場先機,傳統的鋼鐵企業更要提高對新信息技術的敏感度,適時地引入并加以實際應用,為其企業創新、創效、持續發展的重要支撐手段。
參考文獻:
[1]潘明惠,徐蓮蔭.SAPHANA內存計算技術項目實戰指南[M].北京:清華大學出版社,2012,08.