前言:中文期刊網精心挑選了數據挖掘技術應用范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
數據挖掘技術應用范文1
隨著科技的進一步發展,已經帶動著各大領域的創新和發展。而我國在近年來,城市信息化的普及也在不斷推進,網絡技術的改革和發展也顯得格外重要。而特別很多企業對于自身的信息和數據儲存、共享以及處理都格外注重,要求技術本身要包含安全性、便捷性以及可靠性。,而是在大數據提出后,數據挖掘技術已經成為了一種新的主流技術,而研究數據挖掘技術的理念、方法以及應用領域,將對我國工程施工領域的未來帶來更多的機遇和挑戰。
關鍵詞:
大數據時代數據挖掘技術分析和研究運用數據挖掘技術,也被稱為數字處理技術,顧名思義,就是對于目前各大企業的內部數據,進行整理、調整、挖掘實施以及評估等一系列處理操作,其主要的目標是保證全局數據都能夠得到充分的優化。而大數據則是區分于以往抽樣調查的方法,而是對于全局數據進行分析,從而保證分析的全面以及完成。而大數據技術也包含4個優點,即高數量、高速度、多元化以及高價值。而筆者將通過本文,就大數據時代的數據挖掘技術與應用進行分析和探討。
1相關概念的簡介
1.1大數據的概念關于大數據的理念提出,可以追溯到麥肯錫研究院于2011年的《大數據:創新、競爭和生產力的下一個新領域》,其中闡述的觀念就涵蓋數據方面,即數據已經融入到了人們的日常生活中,也是生產運作的一個重要因素。而大數據的運用,對于消費以及生產水平都是一種有效的提升提升,根據美國曾經的《大數據研究和發展倡議》資料,截至2011年一年,全球總的數據就增加了1.8ZB,而進行人均計算,相當于每個人都具有至少200GB的數據資源,而且這一數據還在呈現出日益增長的趨勢,根據統計計算,這一數值將會按照約為50%/年的速度增長。
1.2數據挖掘作為一個新型學科,數據挖掘技術源于20世紀的80年代,那時其效用與目前存在本質差異,科學家最初研究大數據,主要是用于一些人工智能技術的開發。簡而言之,技術層面上,數據挖掘就是一個對數據進行發掘創新的過程,即要求目標數據具有隱蔽性、挖掘價值以及挖掘潛力,而且需要操作者在一堆冗雜的、隨機的、模糊的數據庫中進行挖掘;而對于商業層面上來說,數據挖掘就是在一些大量的數據信息中獲得規律以及價值信息,從而為決策提供重要的知識憑據。
2數據挖掘的研究手段
對于數據挖掘而言,不同的研究手段將是其開展的重要基礎,而研究手段的決定,主要需要依靠科學的計算為依據,分析和對比數據中存在的一些不為人知的規則,然后通過研究手段的改變去應付不同的問題,對于實際操作來說,就是針對不同的數據找出不同的解決方法,而常見數據挖掘的研究手段主要可以分為四類,即聚類研究、分類和預測以及關聯研究。
2.1聚類研究將抽選的數據或者對象的庫進行類似“分類”的聚類劃分,然后再將其中的相同或者相近的數據劃分為一個組類,由此建立起多個組類開展研究的過程。整個過程突出的是一種無知識基礎、無監督管控的學習過程。而整個過程由于分類研究有本質的差異,因為聚類研究在事先根本無法得到目標的重要屬性數據,而這種分析方法主要可以用于多個區域,例如心理、統計、醫藥、銷售以及數據識別等,而根據其隸屬度的取值,有能將其分為兩種研究方法,即硬聚類與模糊聚類,對于前者來說,就是將目標按照影響標準進行劃分,即目標如果屬于某類,必定不屬于其他類;而對于后者來說,主要取決與隸屬度的取值不同。而劃分過程可能會將目標劃分入多個聚類中。此外聚類的計算方法也能分為多種,即包含密度算法、層次算法、劃分算法、網格算法以及模型算法等等。
2.2分類與估測對于分類與數值估測來說,都是屬于是問題預測方式,其中前者要求估測各個類中的標號,這些標號都是分散且無規律的,而估測方法可以采用函數模型,要求模型類型為連續值函數。分類估測作為數據挖掘的起始工作,主要需要反應已經獲知的訓練數據庫的特點,從而根據以上基礎完成其中對每一類的情況以及特點完成相應的分類操作,而整個操作也是受到督促的,對于一般的分類算法可以有決策樹、粗糙集、貝葉斯、遺傳等算法,而估測主要是基于分類以及回歸基礎,估測數據將來的動向,即包含局勢外推、時間序列以及回歸分析幾類。
2.3關聯研究關聯研究是源于自然生物間微妙的關系,而某事情的發生和發展也會引發連鎖的事情發展,也就類似所謂“蝴蝶效應”的定義。而關聯研究的研究目標即是研究物與物之間的微妙關系,包含一些依賴關系等等,從而找出其中的規則,基于規則,分析將來的動向。以購物為例,分析購物者的心理規律以及習慣,可以從他們對于購物的一系列表現,例如購物籃的物品類型、放置規律、購物消費理念、購物環境需求等等,而掌握這些規律,足以讓一個銷售企業獲得巨大的消費市場以及商機。
3大數據時代的數據挖掘的運用
3.1數據準備準備流程需要依附于研究者已經建立起長期且豐富數據資源的數據庫,而根據這些無規則的原始數據進行相應的挖掘前的準備的工作,例如數據的處理、擇取、清除、推敲以及轉變,作為基礎的流程,數據準備操作在整個流程中起到重要的基礎作用。
3.2數據挖掘開展數據挖掘操作,需要根據挖掘對象的情況擇選最優的計算方法,從而獲取其中的規律性,例如對應采用決策樹算法、分類算法、神經網絡算法以及Apriori算法等。
3.3數據挖掘的模式評估研究模式評估的對象主要是通過數據挖掘處理過程數據,而評估流程是了解、研究且取得其中數據的規則,然后對數據進行轉變“翻譯”成通俗易懂的語言,供人們去研究和思考。
3.4數據挖掘的知識應用知識應用是數據挖掘的最后一步,通常知識運用就是一種現實運用的過程,通過數據準備、挖掘、研究評估,最后將結果數據或者規律用于現實中,從而體現數據的本身的價值,這就是知識應用的內涵。
4大數據時代的數據挖掘的運用
4.1市場營銷方面市場營銷行業已經是目前數據挖掘采用最多的行業,數據挖掘的作用主要體現在的對于消費者群體的消費習慣以及行為進行解析,從而改變銷售方法,提升產品的銷售量,此外,除了一些購物消費以外,數據挖掘技術以及拓展到了各大金融行業,例如保險行業、銀行行業以及電子商務行業等等。例如:在市場營銷方面,采用數據挖掘中的聚類研究,即客戶一系列無規則、無意識的行為數據,對他們進行識別,即根據客戶的忠誠度、消費意識進行分類,幫助企業尋找其中的潛在客戶以及固定客戶群。
4.2數據挖掘的科學分析科學本身就是一個尋找規律、發現規律以及利用規律的過程,而且任何科學研究都是需要基于數據作為基礎,所以數據挖掘對于科學領域也具有重要的意義和價值,特別是針對一些未知的事物、領域或者知識,通過數據挖掘可以有效展示數據規則。例如對于太空行星的分析,遺傳基因DNA的數據以及遺傳規律等。
4.3制造業與其他行業不同,制造業運用數據挖掘的目的主要是產品質量檢查方面,例如研究產品的數據,找出其中規則。分析整體生產流程,解析其中過程,找出影響生產質量以及效率的問題,然后通過對這些問題進行解決,提升企業經濟效益。對于制造業而言,數據挖掘運用主要體現在決策方面,即首先通過數據篩選,獲取有用的知識和數據,然后采用決策樹算法,統計決策,然后選擇其中正確的決策,即像根據目前產品的流行情況,預測目前生產產品的受歡迎度,然后決策生產的時間以及周期。
4.4教育方面對于教育行業來說,最重要的除了教師的教學方法以外,學生的學習情況、心理動向以及教學評估都是十分重要的,采用數據挖掘技術,則可以有效將這些數據通過分類、篩選以及處理,得出有效的數據規則,供學校教學改革時進行參考。例如:教學質量評估數據挖掘模塊的開發,即將教學質量相關的項目通過QSLSevrer進行整合和存儲,例如教學準備、教學內容、教學方式以及教學態度等,最后學生可以進行自行瀏覽并且完成評估,而評估結果則會上傳系統進行最后通過數據挖掘,篩選其中有用的信息,再通過Apr1ori算法挖掘其中關聯規律。
5結語
雖然數據挖掘技術不是一項新興的技術,但是其還具有較大的研究價值與運用前景,特別是在特殊領域的運用,對于一系列數據進行科學冗雜的處理,然后分析其中規則價值,可以有效提升各大行業的經濟效益。
參考文獻
[1]趙倩倩,程國建,冀乾宇,戎騰學.大數據崛起與數據挖掘芻議[J].電腦知識與技術,2014,11(33):7831-7833.
[2]韓英.淺析大數據時代的數據挖掘與精細管理[J].成都航空職業技術學院學報,2013,12(04):63-71.
數據挖掘技術應用范文2
[關鍵詞]數據挖掘 企業 應用
[中圖分類號]TP[文獻標識碼]A[文章編號]1007-9416(2010)02-0079-02
1 前言
數據挖掘能幫助企業減少不必要投資的同時提高資金回報。數據挖掘給企業帶來的潛在的投資回報幾乎是無止境的。世界范圍內具有創新性的公司都開始采用數據挖掘技術來判斷哪些是他們的最有價值客戶、重新制定他們的產品推廣策略,以用最小的花費得到最好的銷售。
2 數據挖掘概述
數據挖掘是一種決策支持過程,是一類深層次的數據分析方法。它主要基于AI、機器學習、統計學等技術,高度自動化地分析企業原有的數據,作出歸納性地推理,從中挖掘出潛在的模式,預測客戶行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。數據挖掘的商業應用可以描述為:按企業既定業務目標,對大量的企業數據進行探索和分析,揭示隱藏的、未知的或驗證已知的規律性,并進一步將其模型化的先進有效的方法。數據挖掘是一個利用各種分析工具在海量數據中發現模型和數據間關系的過程,這些模型和關系可以用來做出預測。數據挖掘,還可以稱為數據庫中的知識發現(Knowledge Discovery in Database, KDD),是從大量數據中提取出可信、新穎、有效并能被人理解的信息的高級處理過程。
2.1 數據挖掘是在數據庫技術、人工智能技術、概率與數理統計的基礎上發展起來的一種的技術。
2.1.1 數據庫技術
SQL統治數據庫查詢語言標準三十多年這一事實本身就與現在 IT 發展的節拍不符,難道我們“只會查詢”嗎?所以就有很多專家紛紛轉向數據倉庫與數據挖掘技術,從數據查詢轉向數據挖掘、從數據演繹轉向數據歸納。傳統的數據庫系統的體系結構也過于瘦少,只有不協調的兩層,這樣的結構就造成了只有程序員能編程,老板只能求助于這些“專家”。
2.1.2 人工智能技術
人工智能技術的三大難題:“知識獲取、知識表示、缺乏常識”直接制約了它在現實技術市場上的作為。而在與數據倉庫技術的結合上,它可以發揮重要作用,這使得它轉向數據挖掘技術。
2.1.3 概率與數理統計
數理統計技術是應用數學中最重要、最活躍的學科。但在與數據庫技術的結合上作為有限,這從 SQL 中那可憐的幾條匯總函數便可看出。隨著數據挖掘對查詢、歸納對演繹需求的進化,概率與數理統計將獲得新的生命力。
2.2 數據挖掘中最常用的技術:
2.2.1 工神經網絡(Artificial Neural Networks)
人工神經網絡是仿照生理神經網絡結構的非線性預測模型,通過學習進行模式識別。神經網絡常用于兩類問題:分類和回歸。在結構上,可以把一個神經網絡劃分為輸入層、輸出層和隱含層。而神經網絡的知識體現在網絡連接的權值上,是一個分布式矩陣結構;神經網絡的學習體現在神經網絡權值的逐步計算上,為的是防止訓練過度和控制訓練的速度,如圖1所示:
2.2.2 決策樹 (Decision Tree)
決策樹方法是利用信息論中的互信息(信息增益)尋找數據庫中具有最大信息量的屬性字段,建立決策樹的一個節點,再根據概述性字段的不同取值建立樹的分支;在每個分支子集中重復建立樹的下層節點和分支過程。決策樹的基本組成部分:決策節點、分支和葉子。比如,在貸款申請中,要對申請的風險大小做出判斷,為了解決這個問題而建立的一棵決策樹,如圖2所示:
2.2.3 臨近搜索方法(Nearest Neighbor Method)
臨近搜索方法將數據集合中每一個記錄進行分類的方法。
2.2.4 規則推理(Rule Induction)
從統計意義上對數據中的“如果-那么”規則進行尋找和推導。
2.3 數據挖掘步驟
數據挖掘的數據分析過程可以分為三個步驟:
2.3.1 確定業務對象
清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步,挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有盲目性,是不會成功的。
2.3.2 數據準備(Data Preparation)
本階段又可進一步細分為兩步:數據集成、數據選擇和預分析。
(1)集成(Integration)。在這一步中,將從操作型環境中提取并集成數據,解決語義二義問題,消除臟數據等等。很明顯,數據集成的目的和所利用的技術與數據倉庫的數據集成完全一致,都是為了建立統一的數據視圖。數據挖掘不一定需要建立在數據倉庫的基礎上,但如果數據挖掘與數據倉庫能協同工作,則必將大大地提高數據挖掘的工作效率。
(2)數據選擇和預分析(Data Selection and Pre-Analysis)。這一步將負責縮小數據范圍,提高數據挖掘的質量,前面提到的驗證型工具長于對數據的細致,深入地觀察和表述,在這一步中可以發揮相當的作用。
2.3.3 挖掘(Mining)
數據挖掘(Data Mining processor)綜合利用前面提到的四種數據挖掘方法分析數據庫中的數據。
2.3.4 表述(Presentation)
與驗證型工具一樣,數據挖掘將獲取的信息以便于用戶理解和觀察的方式反映給用戶,這時可以利用可視化工具。由于用戶要求的不同,DM分析的數據的范圍會有所不同,這樣DM系統會得出不同的結論。這些基于不同數據集合的分析結果除了通過可視化工具提供給用戶外還可以存儲在知識庫中,供日后進一步分析和比較。
2.3.5 評價(Assess)
如果分析人員對分析結果不滿意,可以遞歸的執行上述三個過程,直到滿意為止。
3 數據挖掘在企業決策過程中的作用
3.1 數據挖掘的功能
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。數據挖掘就是對海量數據進行精加工。嚴格地說,數據挖掘是一種技術,從大量的數據中抽取出潛在的、不為人知的有價值信息、模式和趨勢,然后以易于理解的可視化形式表達出來,其目的是為了提高市場決策能力、檢測異常模式、控制可預見風險、在經驗模型基礎上預言未來趨勢等。數據挖掘技術在商業領域已經不是一個新名詞,最早成功應用于高投入、高風險、高回報的金融領域,正在不斷向電信、保險、零售等客戶資源信息密集的行業拓展。美國財富雜志500強之一的第一數據公司(First Data Corp.)就在為第一國家銀行(First National Bank)、美國在線交易(Ameritrade holding Co.)、奧馬哈保險公司(Mutual of Omaha Co.)等著名的金融證券和保險公司提供數據挖掘的產品服務,這些企業在風險控制、挖掘客戶、降低成本方面的年收益數以億計。
3.2 在企業決策過程中利用數據挖掘的作用
本文為全文原貌 未安裝PDF瀏覽器用戶請先下載安裝 原版全文
目前,商業數據挖掘的應用重點集中在對企業內部信息資源的加工處理,指導企業運營的戰術策略的實施。具體地說,就是在以客戶需求為價值源泉、進銷存為價值鏈的各環節進行數據增值分析,并將分析結果迅速向鏈條的上一環節傳遞,調整鏈條上游的執行達到改善下游環節執行結果的目的,最終形成以客戶終端需求為導向的價值增值。
部分企業資源計劃軟件中集成了對計劃、生產、產品銷售進行數據挖掘的模塊,能夠提供商業智能的分析結果;另外,客戶需求的價值鏈終端是另一個數據挖掘技術應用的重點,客戶關系管理的目的就是創造、挽留客戶并不斷升級對客戶的服務,以保證企業利潤的持續增長。“以客戶為中心”的數據挖掘內容涵蓋了客戶需求分析、客戶忠誠度分析、客戶等級評估分析等三部分,有些還包括產品銷售。
客戶需求分析包括:消費習慣、消費頻度、產品類型、服務方式、交易歷史記錄、需求變化趨勢等因素分析。
客戶忠誠度分析包括:客戶服務持續時間、交易總數、客戶滿意程度、客戶地理位置分布、客戶消費心理等因素分析。
客戶等級評估分析包括:客戶消費規模、消費行為、客戶履約情況、客戶信用度等因素分析。
產品銷售分析包括:區域市場、渠道市場、季節銷售等因素分析。
然而,數據挖掘不僅僅用于客戶關系管理,ERP更不能夠完全覆蓋數據挖掘的整個內涵。企業數據挖掘的內容不僅包括企業的內部信息資源,更包括大量的企業外部信息資源。商業數據挖掘的下一個應用熱點將建立在兩類信息資源充分整合的基礎上。
相對于內部信息資源而言,企業外部的宏觀政策環境、市場需求動向和競爭對手情報等信息資源左右著企業戰略決策與宏觀發展規劃,也直接決定企業市場戰術策略的實施,所以對信息資源的整合利用以及競爭情報分析將成為企業級數據挖掘應用的重點。
以IBM為例,為了導正企業戰略決策方向,IBM于1993年提出三項競爭策略:立即加強對競爭對手的研究、建立一個協調統一的競爭情報運行機制以及將可操作的競爭情報運用于公司戰略、市場計劃及銷售策略。其新的競爭策略通過研究市場格局和競爭對手的狀況、合理定位并改善自身的產品和服務兩個途徑有效地提升了企業核心競爭力,采用的競爭情報運行機制及競爭情報規劃能夠把全公司的競爭情報力量集中于主要的競爭對手和主要威脅,不斷地優化現有的情報資源。
隨著企業市場競爭的日益加劇,企業競爭情報已經不限于原有意義上的數據采集、整理、分類、的概念,“在線”需求逐步超越“離線”需求,“受動式服務”正為“主動式、自助式”服務所取代,數據挖掘技術已經成為“信息分析”這個企業競爭情報系統中核心模塊的技術支撐。“數據在線服務”和“競爭情報個性化服務”將成為企業級數據挖掘應用的新熱點需求,也將成為知識經濟下新興的數據服務模式。
4 結語
數據挖掘的核心技術是人工智能、機器學習、統計學等,但一個DM系統不是多項技術的簡單組合,而是一個完整的整體,它還需要其他輔助技術的支持,才能完成數據采集、預處理、數據分析、結果表述這一系列任務,最后將分析結果呈現在用戶面前。
[參考文獻]
[1] 胡百敬,SQL Server 2000 數據轉換服務[M],北京:中國鐵道出版社,2003.1.
[2] Reed Jacobson,SQL Server 2000 Analysis services 學習指南[M].北京:機械工業出版社,2001.
[3] 韓加煒J.(Han,JiaWei),數據挖掘:概念與技術[M].北京:機械工業出版社,2001.
[4] 陳京民,數據倉庫與數據挖掘[M],北京:電子工業出版社,2002.
[5] 李真文, SQL Server 2000 開發人員指南[M].北京:北京希望電子出版社,2001.
[6] 石鈞.ADO編程技術[M].北京:清華大學出版社,2001.
[7] Jared Jackson,Jussi Myllymaki,基于Web的數據挖掘[C].網站獲取,2001.6.
數據挖掘技術應用范文3
關鍵詞:數據挖掘;技術;應用;分析
中圖分類號:TP311文獻標識碼:A文章編號:1007-9599 (2012) 01-0000-02
Application Analysis of the Data Mining Technology
Zhang Yihui
(Shandong Polytechnic,Jinan250104,China)
Abstract:With the advent and popularization of the Internet age,a lot of information get together,in the quick and easy at the same time to give people the agent has brought us a problem,how is the large amount of data to digest and true and false identification,followed by information how secure is to ensure that lay their unified approach method.This is a new term-data mining technology.Data mining is a relatively new database technology,there is a wide range of practical applications demand;made a comprehensive overview of data mining technology,citing a data mining system composition and mining method.
Keywords:Data mining;Technology;Application;Analysis
何為數據挖掘,所謂數據挖掘(Data Mining)在傳統的定義就是提取隱含在大量的、不完全的、有噪聲的、模糊的、隨機的數據中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。意思簡單來講就是從一大堆亂七八糟的信息數據里提取一些對自己有用的數據知識。
一、數據挖掘的概念
從面的定義中我們對數據挖掘有了一個模糊的了解,其實數據挖掘技術通俗的從字面意思理解就是從數據中挖掘有用的數據。我國一些單位普遍都采用了計算機技術來處理單位的一些業務,因為計算機的分析處理數據的能力比較強,所有產生了大量的業務數據,通過計算機來分析這一大批數據不單單是為了研究的需要,更為重要的是從這些雜亂的數據中分析提取一些對自身企業有價值的數據信息。一些企業單位要從大批量的數據中獲取對自己有用的數據來進行企業運作以及提高自身企業的競爭能力,這就好比從礦石中提煉金子一樣,提取的都是精華。所以數據挖掘越來越得到人們的重視。
隨著數據挖掘和知識發現核心技術研究的逐步深入,其核心模塊已經強有力的形成了三大的技術領域:數據庫技術、人工智能和數理統計。隨著高性能的關系數據庫引擎的廣泛數據集成和相關理論研究和相關技術的成熟,,讓數據庫挖掘技術進入了實用階段。
在國際上,由美國人工智能協會主辦的KDD(數據庫中的知識發現,簡稱KDD)已經漸漸被人們所接受,已經召開了數十次國際研討會,隨著規模的不斷壯大,在注重多種發現策略和技術的集成,理論研究指導實踐應用,以及多種學科之間的相互滲透的基礎上,研究重點也逐漸從發現方法轉向系統應用,成為目前計算機領域的研究熱點;與國外相比,國內研究起步較晚,主要是處在基礎理論上的研究。國家自然科學基金對于該領域的研究項目是1993年首次支持。目前,知識發現的基礎理論及其應用研究在國內的許多知名的高等院校和科研機構已經開展。
二、數據挖掘系統的組成
以下是典型的數據挖掘的幾個組成部分:
(一)數據挖掘所操作的最直接的對象就是數據庫,這些數據庫是一個或一組可以在數據上進行數據收集、存儲、處理和集成的數據庫、數據倉庫或其他類型的信息庫。
(二)數據庫或數據倉庫服務器:在數據處理過程中,根據客戶的數據挖掘請求的指令信息,數據庫或數據倉庫服務器負責提取相關數據反饋信息。
(三)知識庫:數據挖掘的關鍵技術就是知識庫,它是用于指導數據搜索、查找、分析或擬合評估模式的興趣度的領域知識集。另外將數據信息集中屬性或屬性值組成不同的數據抽象層的概念分層和用戶確信方面的知識數據也包括在里面。
(四)數據挖掘引擎:用于特征化、關聯、分類、聚類分析以及演變和偏差分析的一組功能模塊,這是數據挖掘系統的基本組成。
(五)模式評估模塊:這是數據挖掘實現的關鍵所在,在數據挖掘過程中參照興趣度做度量,并與數據挖掘模塊交互配合,以便將數據搜索、歸并、聚焦在有趣模式的操作。根據所用數據挖掘方法的不同,模式評估模塊也可以使用興趣度閥值作為評定參數,去過濾發現的模式挖掘數據,也可以與數據挖掘模塊集成在一起使用。
(六)圖形用戶界面:是以圖形界面的形式給出用戶數據查詢操作或指令任務,并提供中間參考信息提示、幫助搜索、確定聚焦興趣度,根據數據挖掘的中間結果進行探索式數據挖掘的操作模塊,是在用戶和數據挖掘系統之間通信的橋梁,是用戶與系統交互的中介。
三、數據挖掘方法
數據挖掘方法的來源主要是由人工智能和機器學習的方法發展來的,結合傳統的統計分析方法、模糊數學方法以及科學計算可視化技術,以數據庫為研究對象,形成的數據挖掘的方法和技術。數據挖掘是數據和信息系統及其應用的學科前沿,是綜合了數據庫、專家系統和可視化等領域的相關技術的多學科和多種網絡技術交叉結合的新領域,在商業利益的強大推動下,每年都有新的數據挖掘方法和模型的出現,數據挖掘的方法和技術可以分為六大類。
(一)關聯分析(Association Analysis)。在數據處理中,隨著大量數據不停的收集、存儲和處理,關聯規則在數據挖掘中發現大量數據項集之間有趣的關聯和相互聯系,因此許多業界人士對于通過關聯規則從相關數據庫中挖掘有用的信息,并從中組織和處理這些有用的數據是越來越感興趣。
(二)聚類方法(Clustering Approach)。在數據處理中,按一定的規則(參照距離或相似尺寸等)將數據分成一系列相互區別的數據組或數據集,這種操作不需要用戶的事先提示相關操作和背景知識而去直接挖掘、發現有意義的數據結構或數據模式的方法。
(三)決策樹方法(Decision Tree Approach)。該方法是一種常用于預測模型的算法,具有信息描述簡單、查找速度快的特點,適合于大規模的數據挖掘。建立決策樹的過程:首先根據信息論中的信息增益尋找數據庫中具有最大信息量的字段,從中找到潛在的、有價值的信息,然后建立決策樹的節點,再根據字段的不同取值建立樹的各個分枝,然后在每個分枝子集上分別遞歸上述過程,即可。
(四)神經網絡方法(Neural Network Approach)。神經網絡由于本身的特性適合解決數據挖掘問題,因此,近年來越來越被關注。以HEBB學習規則和MP模型為基礎的模擬人腦神經元方法,建立了三大類多種神經網絡模型:反饋式網絡模型、前饋式網絡模型和自組織網絡模型。
(五)遺傳算法(Genetic Algorithms)。遺傳算法是模擬生物自然選擇與遺傳機理的(進化過程)隨機的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個基本算子組成的仿生全局優化方法。遺傳算法所具有的特有性質已在數據挖掘中發揮了顯著作用。
(六)可視化方法(Visualization Approach)??梢暬椒ㄔ鰪娙藗冋J識能力,拓寬了傳統的圖表展示功能,增強了用戶對數據反饋的感知度,使用戶對數據的剖析更加清楚。例如,在數據庫表中,將多維數據變成多種線性圖形(如線圖、柱圖),增加直觀性,使用戶更好、更快速的理解和掌握,并充分揭示數據的內涵、內在本質及規律起了很大的作用。
四、數據挖掘的應用領域
數據挖掘所應用的領域非常廣泛,目前,數據挖掘應用最集中的領域包括醫療保健、金融、司法、市場、零售業、制造業、工程與科學等。但每個領域又有其特定的應用問題和應用背景。
(一)醫療保健。在我過國,醫療保健行業有大量的數據需要處理。這個行業中數據挖掘最關鍵的任務是進行數據處理理,系統可以從大型多變的數據庫中發現并整理,預測醫療保健費用。由實驗室開發的解釋保健數據,在定量范圍內解釋偏差,生成報表。
(二)金融。數據挖掘技術在金融行業中的應用不但指的是對金融事務數據的開采,能夠發現某個客戶、消費群體或組織的金融和商業興趣,并且還可以融市場的變化趨勢。
(三)司法。在司法方面,數據挖掘技術可應用在案件調查、詐騙監測、洗錢認證、犯罪組織分析等工作中,這將給司法工作帶來巨大的收益,例如:美國財政部開發的系統,對各類金融事務進行監測,識別洗錢、詐騙等。
(四)數字城市。數據挖掘技術應用于數字城市建設中的數據整合系統是指通過對不同的數據庫資源進行連接,根據需要獲取不同的數據庫資源的數據內容,組合形成所需要的數據資源,支持分析決策。在這種機制下,即實現了數據集市的建立,又解決了與城市信息化建設中業已建成的各種信息系統運行上獨立,數據上統一的問題。
(五)制造業。制造業應用數據挖掘技術進行零部件故障診斷、資源優化、生產過程分析等。例如進行彩色掃描儀的生產過程分析。他們基于大約公司個參數建立了一個自動數據收集系統,產生了難以手工處理的大量數據,通過使用,工程師們能夠對數據進行分析并對最重要的參數進行認定。
五、利用WEKA編寫算法
作為數據挖掘愛好者自然要對WEKA的源代碼進行分析并以及改進,努力寫出自己的數據挖掘算法。我一直覺得對于機器學習算法來說,weka是很有特色的工具,算法非常多。而且還有諸如clementine之類的數據流處理工具。相比之下,clementine的算法就會失色很多。但是weka的可視化做的不好。這是它的缺點。如果在weka的基礎上再做些二次開發,加強可視化的應用應該很不錯。最近看到一本書叫《可視化數據》,作者竟然包裝了java的圖形庫,自己創作出了個processing語言來做數據可視化,似乎效果不錯,而且也是開源的。如果能在這個基礎上做些研發應該會不錯的。
六、結語
在現今社會,數據挖掘技術已經可以被應用與所有的領域和行業中。在人們生活里的各個方面幾乎都可以用到數據挖掘技術數據挖掘技術不但給我們的日常生活帶來了巨大的改變和影響,并且這種影響還深深的改變著我們的生活方式。
參考文獻:
[1]韓少鋒,陳立潮.數據挖掘技術及應用綜述[J].機械管理開發,2006,2
[2]顏惠,吳小穗.MetaCrawler集成搜索引擎[J].圖書館工作與究,2002,3:46-47
[3]周黎明,邱均平.基于網絡的內容分析法[J].情報學報,2005,5:594-599
[4]Lisa Sokol Data Mining in the Real World Part of the Conference on Data Mining and Knowledge Discovery:Theory.Tool,and Technology.Orlando.Florida-April,1999
數據挖掘技術應用范文4
關鍵詞:數據挖掘;過程;應用
中圖分類號:TP3 文獻標識碼:A 文章編號:1672-3198(2009)14-0283-02
1 數據挖掘概念
數據挖掘(Data Mining,DM),是隨著數據庫和人工智能發展起來的新興的信息處理技術。數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,其主要特點是對數據庫中的大量數據進行抽取、轉換、分析和其他模型化處理,并從中提取輔助決策的關鍵性數據。它可幫助決策者分析歷史數據及當前數據,并從中發現隱藏的關系和模式,進而預測未來可能發生的行為。數據挖掘是一門涉及面很廣的交叉性新興學科,涉及到數據庫、人工智能、數理統計、可視化、并行計算等領域。
2 數據挖掘技術
2.1 關聯規則方法
關聯規則是一種簡單,實用的分析規則,描述了一個事物中某些屬性同時出現的規律和模式,是數據挖掘中最成熟的主要技術之一。大多數關聯規則挖掘算法能夠無遺漏發現隱藏在所挖掘數據中的所有關聯關系,所挖掘出的關聯規則量往往非常巨大,但是。并不是所有通過關聯得到的屬性之間的關系都有實際應用價值,對這些關聯規則進行有效的評價。篩選出用戶真正感興趣的。有意義的關聯規則尤為重要。
2.2 分類和聚類方法
分類就是假定數據庫中的每個對象屬于一個預先給定的類。從而將數據庫中的數據分配到給定的類中。而聚類分析是根據所選樣本間關聯的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異。分類和聚類的區別在于分類事先知道類別數和各類的典型特征,而聚類則事先不知道。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價。
2.3 數據統計方法
使用這些方法一般首先建立一個數據模型或統計模型,然后根據這種模型提取有關的知識。傳統的統計學為數據挖掘提供了許多判別和回歸分析方法。貝葉斯推理、回歸分析、方差分析等技術是許多挖掘應用中有力的工具之一。
2.4 神經網絡方法
神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優點。這些優點使得神經元網絡非常適合解決數據挖掘的問題。因此近年來越來越受到人們的關注。典型的神經網絡模型主要分3大類;用于分類、預測和模式識別的前饋式神經網絡模型;用于聯想記憶和優化計算的反饋式神經網絡模型;用于聚類的自組織映射方法。
2.5 決策樹方法
決策樹學習是一種通過逼近離散值日標函數的方法,把實例從根結點排列到某個葉子結點來分類實例。葉子結點即為實例所屬的分類,利用信息論中的互信息(信息增益)尋找數據庫中具有最大信息量的字段。建立決策樹的一個結點,再根據字段的不同取值建立樹的分支;在每個分枝子集中,重復建立樹的下層結點和分支的過程,即可建立決策樹。
2.6 粗糙集
粗糙集(Rough Set)能夠在缺少關于數據先驗知識的情況下,只以考察數據的分類能力為基礎,解決模糊或不確定數據的分析和處理問題。粗糙集用于從數據庫中發現分類規則的基本思想是將數據庫中的屬性分為條件屬性和結論屬性,對數據庫中的元組根據備個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規則。粗糙集理論可以應用于數據挖掘中的分類、發現不準確數據或噪聲數據內在的結構聯系。
3 數據挖掘過程
按工作流程包括以下幾個步驟:
(1)數據準備:一般存儲在數據庫系統中的是長期積累的大量的數據,往往不適合利用這些進行處理,需要做數據準備工作,一般包括數據的選擇、凈化、推測、轉換、數據縮減,通過這些工作生成數據倉庫。數據準備是否做好將影響到數據挖掘的效率和準確度以及最終模式的有效性。
(2)數據挖掘:在前面步驟所獲得的數據集上進行數據挖掘,可以單獨利用也可以綜合利用各種數據挖掘方法對數據進行分析,根據數據挖掘的目的。選定數據挖掘算法,選擇某個特定數據挖掘算法(如匯總、分類、回歸、聚類等)用于搜索數據中的模式。
(3)結果的分析和同化;上面得到的模式模型,有可能是沒有實際意義或沒有使用價值的。因此需要評估,確定哪些是有效的、有用的模式。評估可以根據用戶多年的經驗,有些模式也可以直接用數據來檢驗其準確性。對數據挖掘出的結果進行解釋和評價,轉換成為能夠最終被用戶理解的知識。其具體的挖掘過程如圖1:
4 數據挖掘的應用
4.1 在金融領域中的應用
多數銀行和金融機構都提供豐富多樣的儲蓄、信用、投資、保險等服務。他們產生的金融數據通常比較完整、可靠,但是數據量是非常巨大的,數據挖掘技術可以將這些龐雜的信息充分利用:如采用多維數據分析來分析這些數據的一般特性,觀察金融市場的變化趨勢;使用數據可視化、分類、聚類分析、序列模式分析等工具偵破洗黑錢和其他金融犯罪行為;對于預防信用卡欺詐行為??梢岳脭祿诰驅蛻粜抛u進行分析。
4.2 在零售業中的應用
在零售業中,數據挖掘的運用是比較成功的。由于MIS系統在商業的普遍使用,特別是條碼技術的使用。零售業積累了大量的銷售數據,如顧客購買史記錄、貨物進出、消費與服務記錄等等。零售數據挖掘有助于劃分顧客群體,使用分類技術和聚類技術??梢愿_地挑選出潛在的顧客;識別顧客購買行為,發現顧客購買模式和趨勢,進行關聯分析,以便更好地進行貨架擺設;同時可以為經營管理人員提供正確的決策手段,這樣對促進銷售及提高競爭力是大有幫助
數據挖掘技術應用范文5
關鍵詞:數據挖掘技術;web挖掘;web的應用;個性化服務
中圖分類號:TP399-C1 文獻標識碼:A 文章編號:1007-9599 (2012) 15-0000-02
1 數據挖掘技術
1.1 數據挖掘技術的概念
數據挖掘技術主要是指尋找隱藏在數據庫中有價值的信息,從而為決策支持 提供有力的依據的過程。數據挖掘的目標主要包括特征、趨勢以及相關性等多個方面的信息。隨著計算機的普及,信息時代的到來,網絡中信息量迅速增加,傳統的知識發現(KDD:Knowledge Discovery in Databases)技術和方法已經不能滿足人們從Web中獲取信息的需要,并且現實也要求對互聯網上的信息進行深層次實時的分析[1]。所以Web的數據挖掘技術油然而生,這種技術將傳統的數據挖掘和web相互結合起來,能夠從大量的信息數據選取有價值的隱含信息。下圖1為Web數據挖掘原理流程:
1.2 Web數據挖掘的分類
根據數據挖掘的對象不同,Web數據挖掘技術可以分為Web結構挖掘、Web內容挖掘、Web 使用挖掘三類,Web數據挖掘分類如下圖2所示:
1.3 Web數據挖掘的特點
傳統的數據挖掘主要是以數據庫為基礎,對結構化的數據進行信息分析、加工以及模式挖掘,傳統的數據挖掘技術能夠直接或者間接的應用到Web數據挖掘中,但是因為Web技術自身的特點,從而使Web中的數據挖掘技術和傳統的數據挖掘具有很大的不同。
(1)數據量巨大。網絡能夠將分布在世界不同位置的電腦連接在一起,并且每一個電腦都存在豐富的數據,又因為連接在網絡上電腦的數量非常巨大,所以Web數據挖掘技術能夠處理的數據也非常大。
(2)半結構化的數據結構。傳統的數據庫中的數據結構具有一定的模型,可以根據數據模型進行對網絡中的數據進行描述,與傳統的數據結構相比,在Web站點中的數據沒有統一的模型,并且各個站點之間都是獨自設計的,所以Web站點中對數據的處理是不斷變化的[2]。
(3)異構數據庫環境。在數據庫環境中每一個Web站點都可以看作是一個數據源, 由于Web站點是相互獨立的,因此站點之間除了能夠相互訪問之外沒有其他的關系,所以Web站點之間的信息都是不同的,從而構成一個巨大的異構數據庫環境。
2 數據挖掘技術在Web中應用
隨著信息時代的到來,網絡技術的發展,目前數據挖掘技術已經廣泛應用到遠程通信業、制造業、金融業、零售業、政府管理機構以及體育等各個行業中,而數據挖掘技術在Web中應用目前已經成為全球學術界研究的熱點,并應用到各個行業中。
2.1 Web中數據挖掘技術在搜索引擎中的應用
在Web數據挖掘技術中,搜索引擎是最為典型的應用,采用Web數據挖掘技術不僅能夠提高搜索引擎的查詢速度、網頁的權重、關鍵詞匹配的相關度以及改善搜索結果等,并且Web數據挖掘技術也應用在文本的自動分類、自動摘要的形成、個性化的搜索引擎以及檢搜結果的聚類等具有重要的作用。
2.2 在電子商務中的應用
Web數據挖掘技術在電子商務中應用也是比較典型的應用,Web數據挖掘技術能夠通過對客戶訪問日志數據采用模型化算法、神經元網絡以及其他的信息處理技術進行分析,從而商家能夠對個體或者特定消費群體進行定向營銷的決策。并且采用Web數據挖掘技術還可以對日志進行定量分析,從而能夠揭示出頻繁訪問的頁面、訪問途徑以及客戶的類屬關系、網頁的類屬關系等,從而能夠為Web站點的優化提供有力的參考是數據。Web數據挖掘技術在電子商務中應用主要體現在客戶的駐留、客戶獲取以及客戶的聚類和分類三個重要的方面。下圖3為Web數據挖掘的簡單商務網站模型:
2.3 Web數據挖掘技術應用于股票系統
Web數據技術采用Web-Dms系統可以構建一個基于Web 的挖掘的股票教育和交易環境,并且還能夠充分利用站點上積累的信息,從而更好地服務于企業和客戶。在股票系統中采用Web 數據挖掘技術不僅能夠通過了解查找者的動態行為 選擇最佳的電子商務精英方式,而且還能夠得知查找者的愛好[3]。應用Web數據技術Web設計人員不在依靠專家的定性的指導進行設計網站,而是可以根據查找者的信息進行設計網站的機構和外觀,從而能夠為客戶提供個性化的服務。
3 總結
Web中的數據挖掘技術是一種新型的技術,由于Web自身的特點,從而使Web數據挖掘技術具有很多特點,并且其應用也是非常廣泛,不僅能夠提取頁面的信息,進行分析設計站點,而且在電子商務方面也具有非常廣闊的應用前景。
參考文獻:
[1]DiPasquo D,Using HTML forlnation to aid in natural languageprocessing on the World Wide Web[M].Canegie-Mellon University.Sehool of Computer Science,1998.
數據挖掘技術應用范文6
[關鍵詞] 數據挖掘 數據倉庫 知識發現
隨著計算機網絡與數據庫技術的迅速發展和廣泛應用,各單位擁有的數據量與日俱增,而傳統的數據庫管理系統(DBMS)僅能提供數據的存取和查詢,如何從信息海洋中提取有價值的知識,從而為企業的業務決策和戰略發展服務,進一步提高信息的利用率,這就引發了一門新興的自動信息提取技術――數據挖掘和知識發現(Data Mining and Knowledge Discovery in Databases),并逐漸形成了一個熱門研究方向。
基于數據庫的知識發現(KDD)一詞最早是在1989年8月于美國底特律市召開的第一屆KDD國際學術會議上正式形成的。1995年,在加拿大召開了第一屆知識發現和數據挖掘國際會議。2002年,麻省理工學院的《科技評論》雜志提出未來5年對人類產生重大影響的10大新興技術,“數據挖掘”位居第三。
一、數據挖掘與知識發現
數據挖掘(Data Mining),又稱為數據采掘、數據開采等。數據挖掘是從大量的數據中抽取出潛在的、不為人知的有用信息、模式和趨勢。數據挖掘是一種決策支持過程,它主要基于人工智能、機器學習、統計學等技術,高度自動化地分析企業原有的數據,作出歸納性的推理,從中挖掘出潛在的模式,預測客戶的行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。其中需要強調的幾點是:得到的必須是有用的信息;得到的必須是清晰、明確的信息;要有一個很快的、可行的算法。
數據挖掘不同的術語和定義:data mining, knowledge discovery, pattern discovery, data dredging, knowledge, data archeology。
一般認為數據采掘是數據庫中知識發現(Knowledge Discovery in Database,簡稱KDD)的一個環節,是采用具體的數據采掘算法從數據中自動高效地提取有用模式的過程,而KDD是包含數據采掘、數據準備等環節的循環往復過程。在KDD研究領域一致認可的描述性定義是Fayyad等人給出的,定義如下:KDD是從數據集中識別出有效的、新穎的、潛在有用的、以及最終可理解的模式的非平凡過程。知識發現由以下步驟組成:⑴數據清理:消除噪聲或不一致數據。⑵數據集成:把多種數據源組合在一起。⑶數據選擇:從數據庫中檢索與分析任務相關的數據。⑷數據變換:數據變換或統一成適合挖掘的形式,如通過匯總或聚集操作。⑸數據挖掘:使用智能方法提取數據模式。⑹模式評估:根據某種興趣度度量,識別表示知識的真正有趣的模式。⑺知識表示:使用可視化和知識表示技術,向用戶提供挖掘知識。
對這兩個術語更嚴格的區分是在KDD96國際會議上:Fayyad,Piatetsky-Shapiro和Smyth指出:知識發現是從數據庫中發現知識的全部過程,而數據挖掘則是此全部過程的一個特定、關鍵步驟。事實上,在現今文獻的大多數場合,這兩個術語仍然不加區分地使用著。
同時需要指出的是,這里所說的知識發現,不是要求發現放之四海而皆準的真理,也不是要去發現嶄新的自然科學定理和純數學公式,更不是什么機器定理證明。所有發現的知識都是相對的,是有特定前提和約束條件、面向特定領域的,同時還要能夠易于被用戶理解,最好能用自然語言表達發現結果。因此DMKD的研究成果很講求實際。
二、數據挖掘的對象及任務
1.數據源
根據信息存儲格式,用于挖掘的對象有關系數據庫、面向對象數據庫、數據倉庫、文本數據源、多媒體數據庫、以及環球網Web.目前,用于數據挖掘的數據源主要是關系數據庫、數據倉庫、和環球網Web.
2.主要任務
(1)數據總結
數據總結的目的是對數據進行濃縮,給出它的緊湊描述。數據挖掘主要關心從數據泛化的角度來討論數據總結。數據泛化是一種把數據庫中的有關數據從低層次抽象到高層次上的過程。
(2)分類
分類的目的是建立一個分類函數或分類模型(也稱作分類器),該模型能把數據庫的數據項映射到給定類別中的某一個。例:信用卡申請者,分類為低、中、高風險。
(3)聚類
聚類是把一組個體按照相似性歸類,即“物以類聚”。它的目的是使屬于同一類別的個體之間的距離盡可能地小,而不同類別的個體間的距離盡可能地大。例:①一些特定癥狀的聚集可能預示了一個特定的疾病。②租VCD類型不相似的客戶聚集,可能暗示成員屬于不同的亞文化群。
聚集通常作為數據挖掘的第一步。例如,“哪一種類的促銷對客戶響應最好?”,對于這一類問題,首先對整個客戶做聚集,將客戶分組在各自的聚集里,然后對每個不同的聚集,回答問題,可能效果更好。
(4)關聯規則
決定哪些事情將一起發生。是形式如下的一種規則,“在購買面包和黃油的顧客中,有90%的人同時也買了牛奶”(面包+黃油+牛奶)。關聯規則發現的思路還可以用于序列模式發現。用戶在購買物品時,除了具有上述關聯規律,還有時間或序列上的規律。例:①超市中客戶在購買A的同時,經常會購買B,即A=>B(關聯規則)。②客戶在購買A后,隔一段時間,會購買B(序列分析)。采用關聯模型比較典型的例子是“啤酒和尿布”的故事。
三、數據挖掘的應用及效益
應用是數據挖掘的目標。數據挖掘技術不僅是面向特定數據庫的簡單檢索查詢調用,而且要對這些數據進行微觀、中觀乃至宏觀的統計、分析、綜合和推理,以指導實際問題的求解,企圖發現事件間的相互關聯,甚至利用已有的數據對未來的活動進行預測。其應用范圍涉及社會的所有領域,在商業上的應用尤其受到重視。各個領域在KDD應用上既有相同之處,又有各自不同的獨特地方。
1.典型應用領域
(1)科學應用
在生物界,開發了HMMS兩個智能發現系統,已經用于基因發現和構造核糖核酸模型。天文學上非常有名的系統是加州理工學院噴氣推進實驗室與天文科學家合作開發的用于幫助天文學家發現遙遠的類星體的一個工具SKICAT。利用SKICAT,天文學家已發現了16個新的極其遙遠的類星體。SKICAT使用了決策樹方法構造分類器,結果使得能分辨的星體較以前的方法在亮度上要低一個數量級之多,而且新的方法比以往方法的效率要高40倍以上。
(2)市場銷售
數據采掘在銷售業上的應用可分為兩類:數據庫銷售(database marketing)和籃子數據分析(basket analysis)。前者的任務是通過交互式查詢、數據分割和模型預測等方法來選擇潛在的顧客以便向它們推銷產品,而不是象以前那樣盲目地選擇顧客推銷;后者的任務是分析市場銷售數據(如POS數據庫)以識別顧客的購買行為模式,從而幫助確定商店貨架的布局排放以促銷某些商品。
(3)金融投資
典型的金融分析領域有投資評估和股票交易市場預測,分析方法一般采用模型預測法(如神經網絡或統計回歸技術)。這方面的系統有Fidelity Stock Selector,LBS Capital Management。前者的任務是使用神經網絡模型選擇投資,后者則使用了專家系統、神經網絡和基因算法技術輔助管理多達6億美元的有價證券。
貸款償還預測和客戶信用政策分析。將數據挖掘技術中的特征選擇和屬性相關性計算應用到貸款償付預測和客戶信用政策,有助于識別重要因素,剔除非相關因素,使銀行優化調整貸款發放政策。
(4)欺詐甄別
銀行或商業上經常發生詐騙行為,如惡性透支等。這方面應用非常成功的系統有:FALCON系統和FAIS系統。FALCON是HNC公司的開發的信用卡欺詐估測系統,它已被相當數量的零售銀行用于探測可疑的信用卡交易;獵鷹的數據格式只有幾種,因為流行的信用卡公司只有幾家(如VISA,MASTER等),因此它的應用面很大。FAIS是一個用于識別與洗錢有關的金融交易的系統,它使用的是一般的政府數據表單。
(5)產品制造
在產品的生產制造過程中常常伴隨有大量的數據,如產品的各種加工條件或控制參數,這些數據反映了每個生產環節的狀態,通過數據挖掘對這些數據的分析,得到產品質量與這些參數之間的關系,可以對改進產品質量提出針對性很強的建議,而且有可能提出新的更高效節約的控制模式,從而為制造廠家帶來極大的回報。
(6)Internet的應用
Internet的迅猛發展,尤其是Web的全球普及,使得Web上信息量無比豐富,Web上的數據信息不同于數據庫,數據庫有規范的結構,Web上的信息則不然,主要是文檔。因此Web上的開采發現需要用到不同于常規數據庫開采的很多技術。Web信息發現也稱信息搜索或查詢,資源發現本質上是網上搜索,關鍵在于自動生成Web文檔的索引。目前,這方面的研究主要有兩個方面:研制新的更好的索引系統、利用已有索引系統或搜索引擎開發高層次的搜索或發現系統。相比之下,后者的研究更為活躍。從技術上看,自動文檔分類或歸類方法將對這方面的研究有很大作用。
(7)學校教育
學院分析學生歷史信息,決定哪些人愿意報考何專業,發送手冊給他們。分析教師的學歷、年齡、職稱等與授課效果的關聯規則,制定教學方案,促進教學質量的提高。
總之,DM可廣泛應用于銀行金融、零售與批發、制造、保險、公共設施、政府、教育、科研、遠程通訊、軟件開發、運輸、生物信息或基因等各個企事業單位及國防科研上。
2.數據挖掘帶來的效益
截止到目前,數據挖掘工程在很多領域取得了成果。這些成果使得各類機構和組織能更好地理解它們的組織結構、業務處理過程和顧客,從而得到很高的投資收益。在某些情況下,僅僅一小部分數據挖掘所得到的知識就能回報最初的投資。世界著名的GartnerGroup咨詢顧問公司預計:不久將來先進的大企業將會設置“統一數據分析專家”的職位。
例如:①美國著名國家籃球隊NBA的教練,利用某公司提供的數據挖掘技術,臨場決定替換隊員,從而贏得比賽,在數據庫界被傳為佳話。
②全球數據倉庫與CRM解決方案領導廠商NCR公司(紐約股票代號NCR)Teradata的數據挖掘實驗室基于20多年豐富的行業經驗,協助包括銀行、電信、航空、證券和保險在內的各行業企業善用商業數據挖掘,構筑競爭優勢。據了解,全球前50大銀行中,有一半以上采用NCR的Teradata企業級數據倉庫解決方案,尤其是全球獲利的前15大銀行中就有8家是NCR的用戶。
四、結束語
綜上所述,數據挖掘雖然是一門新興的技術,但有著鮮明的服務性、大眾性、利益驅動性,顯示了它強大的生命力。根據最近Gartner的HPC研究表明,“隨著數據捕獲、傳輸和存儲技術的快速發展,大型系統用戶將更多地需要采用新技術來挖掘市場以外的價值,采用更為廣闊的并行處理系統來創建新的商業增長點。” 數據挖掘將助你在海量數據面前迅速找到閃亮的知識,找到隱藏的商機,從而立于不敗之地。相信在不遠的將來數據挖掘會迅速普及。
參考文獻:
[1][加]Jiawei Han. Micheline Kamber 著:數據挖掘:概念與技術[M].范明,孟小峰等譯.北京:機械工業出版社,2007.3
[2]陳安陳寧:等著.數據挖掘技術及應用[M].科學出版社,2006.3