數據挖掘技術研究范例6篇

前言:中文期刊網精心挑選了數據挖掘技術研究范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

數據挖掘技術研究范文1

    關鍵詞:空間數據挖掘;地理信息系統;研究分析

    隨著數據采集技術的成熟和普及,大量的空間數據通過遙感、地理信息系統、多媒體系統、醫學和衛星圖像等多種形式匯集成龐大而豐富的信息源。面對龐雜、繁多的數據類型,空間數據挖掘技術應運而生,并在地理信息系統、遙感勘測、圖像處理、交通管理、環境研究等領域得到廣泛應用。

    1 空間數據挖掘研究概述

    空間數據挖掘(spatial Data Mining,簡稱SDM),是指從空間數據庫中提取用戶感興趣的空間模式、普遍關系、數據特征的過程??臻g數據挖掘技術綜合數據挖掘技術與空間數據庫技術,可用于對空間數據的理解、空間關系和空間與非空間關系的發現、空間知識庫的構造以及空間數據庫的重組和查詢的優化等,其根本目標是把大量的原始數據轉換成有價值的知識,發現大量的地學信息中所隱含的規則。

    空間數據挖掘是計算機技術、數據庫應用技術和管理決策支持技術等多學科交叉發展的新興邊緣學科,一般來說,空間數據挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關聯規則四類。空間分類的目的是在空間數據庫對象的空間屬性和非空間屬性之間發現分類規則,是近年來空間數據挖掘領域中比較活躍的一個方向,常用的方法是決策樹??臻g聚類是在一個比較大的多維數據集中根據距離的度量找出簇或稠密區域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法。空間趨勢分析指離開一個給定的起始對象時非空間屬性的變化情況,例如,當離城市中心越來越遠時經濟形勢的變化趨勢,空間趨勢分析需要使用回歸和相關的分析方法??臻g關聯規則是指空間鄰接圖中對象之間的關聯,空間關聯挖掘多采用逐步求精的優化思想,即首先用一種快速的算法粗略地對初始空間數據庫進行一次挖掘,然后再在裁剪過的數據庫上用代價高的算法進行進一步精化挖掘。

    空間數據挖掘過程一般可分為數據篩選(消除原始數據的噪聲或不一致數據)、數據集成(將多種數據源組合在一起)、數據選擇(根據用戶的要求從空間數據庫中提取與空間數據挖掘相關的數據)、數據變換(將數據統一成適合挖掘的形式)、空間數據挖掘(運用選定的知識發現算法,從數據中提取用戶所需的知識)、模式評估(根據某種興趣度度量并識別表示知識的真正有趣的模式),知識表示(使用可視化技術和知識表示技術,向用戶提供挖掘的知識)等階段(見圖1)??臻g數據挖掘實際上是一個“人引導機器,機器幫助人”的交互理解數據的過程。

    2 空間數據挖掘在GIS中的應用

    空間數據挖掘技術與地理信息系統(GIS)的結合具有非常廣泛的應用空間。數據挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數據挖掘模式,這種模式基本上將GIS當作一個空間數據庫看待,在G IS環境外部借助其它軟件或計算機語言進行空間數據挖掘,與GIS之間采用數據通訊的方式聯系。其二為嵌入式,又稱內部空間數據挖掘模式,即在GIs中將空間數據挖掘技術融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發的工作量和難度,又可以保持外部空間數據挖掘模式的靈活性。

    利用空間數據挖掘技術可以從空間數據庫中發現如下幾種主要類型的知識:普遍的幾何知識、空間分布規律、空間關聯規律、空間聚類規則、空間特征規則、空間區分規則,空間演變規則、面向對象的知識。目前,這些知識已比較成熟地應用于軍事、土地、電力、電信、石油和天然氣、城市規劃、交通運輸、環境監測和保護、110和1 20快速反應系統等資源管理和城市管理領域。在市場分析、企業客戶關系管理、銀行保險、人口統計、房地產開發、個人位置服務等領域也正得到廣泛關注與應用,實際上,它正在深入到人們工作和生活的各個方面。

    3 空間數據挖掘面臨的問題

    (1) 多數空間數據挖掘算法是由一般的數據挖掘算法移植而來,并沒有考慮空間數據存儲、 處理及空間數據本身的特點??臻g數據不同于關系數據庫中的數據,它有其特有的空間數據訪問方法,因而傳統的數據挖掘技術往往不能很好地分析復雜的空間現象和空間對象。

    (2) 空間數據挖掘算法的效率不高,發現模式不精練。面對海量的數據庫系統,在空間數據挖掘過程中出現不確定性、錯誤模式的可能性和待解決問題的維數都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領域知識發現、去除與任務無關的數據,有效地降低問題的維數,設計出更有效的知識發現算法。

    (3) 沒有公認的標準化空間數據挖掘查詢語言。數據庫技術飛速發展的原因之一就是數據庫查詢語言的不斷完善和發展,因此,要不斷完善和發展空間數據挖掘就必須發展空間數據挖掘查詢語言。為高效的空間數據挖掘奠定基礎。

    (4) 空間數據挖掘知識發現系統交互性不強,在知識發現過程中很難充分有效地利用領域專家知識,用戶不能很好掌控空間數據挖掘過程。

    (5) 空間數據挖掘方法和任務單一,基本上都是針對某個特定的問題,因而能夠發現的知識有限。

    (6) 空間數據挖掘與其他系統的集成不夠,忽視了GIS在空間知識發現過程中的作用。一個方法和功能單一的空間數據挖掘系統的適用范圍必然受到很多限制,目前開發的知識系統僅局限于數據庫領域,如果要在更廣闊的領域發現知識,知識發現系統就應該是數據庫、知識庫、專家系統、決策支持系統、可視化工具、網絡等多項技術集成的系統。

    上述問題使得從空間數據庫中提取知識比從傳統的關系數據庫中提取知識更為困難,這給空間數據挖掘研究帶來了挑戰。因此,空間數據挖掘在未來的發展中,還有很多理論和方法有待深入研究。

    4 空間數據挖掘的發展趨勢

    (1)空間數據挖掘算法和技術的研究??臻g關聯規則挖掘算法、時間序列挖掘技術、空間同位算法、空間分類技術、空間離群算法等是空間數據挖掘研究的熱點,同時提高空間數據挖掘算法的效率也很重要。

    (2) 多源空間數據的預處理??臻g數據內容包括數字線劃數據、影像數據、數字高程模型和地物的屬性數據,由于其本身的復雜性與數據采集的困難,空間數據中不可避免地存在著空缺值、噪聲數據及不一致數據,多源空間數據的預處理就顯得格外重要。

    (3)其他各種空間數據挖掘及其相關技術研究。如網絡環境下的空間數據挖掘、可視化數據挖掘、柵格矢量-體化空間數據挖掘、背景知識概念樹的自動生成、基于空間不確定性(位置、屬性、時問等) 的數據挖掘、遞增式數據挖掘、多分辨率及多層次數據挖掘、并行數據挖掘、遙感圖像數據庫的數據挖掘、多媒體空間數據庫的知識發現等。

數據挖掘技術研究范文2

【關鍵詞】數據挖掘;電子商務系統

1.前言

數據挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的數據集中識別有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。它是一門涉及面很廣的交叉學科,融合了人工智能、數據庫技術、模式識別、機器學習、統計學和數據可視化等多個領域的理論和技術,數據挖掘是一個包含多個處理步驟的知識發現過程,其主要內容包括數據清洗、數據集成、數據選擇、數據轉換、數據挖掘、模式評估和知識表達輸出等。

把數據挖掘技術應用到電子商務系統中,開發出基于數據挖掘技術的電子商務系統能夠加深和加強對電子商務系統數據的分析功能,為電子商務企業管理人員提供電子商務的預期信息,從而能很好的保證電子商務網站的運行效果。

現在電子商務系統主要形式B2C,涉及的數據不僅包括客戶在電子商務網站上的交易數據,還包括客戶的注冊信息數據和商品信息等數據。電子商務系統的數據有如下特點:

(1)數據量大;

(2)數據質量差;

(3)數據種類多。

2.電子商務系統功能模塊結構設計

根據B2C電子商務系統設計的目標,管理業務流程,將這個B2C電子商務系統分為:會員注冊管理、會員帳戶管理、商品購買管理、會員管理、商品類別管理、商品管理、優惠券管理、訂單管理、留言板管理、商品評論管理、庫存管理、網站管理和數據挖掘管理等功能模塊(如圖1所示)。

3.數據挖掘管理模塊的設計

B2C電子商務數據挖掘管理模塊主要通過對電子商務企業當前的和歷史的交易數據進行分析。挖掘出其中隱含的知識和從中發現隱含的趨勢和規律。它主要包括數據預處理模塊、數據挖掘模塊和數據挖掘結果顯示模塊。B2C電子商務數據挖掘系統從電子商務運行商品數據庫、客戶信息數據庫和交易數據庫中獲取數據,根據數據挖掘算法的需要進行數據預處理,并建立數據挖掘模型,供電子商務企業的用戶挖掘時使用。用戶只需要輸入簡單的一些參數,系統就會自動的根據已建立的模型輸出預測結果。電子商務挖掘系統體系結構如圖2所示。

3.1 數據預處理模塊

數據挖掘的處理對象是大量的數據,這些數據一般存儲在數據庫系統中,是長期積累的結果。但往往不適合直接在這些數據上面進行挖掘,需要做數據預處理工作,其一般包括數據的選擇、數據清理、數據集成和轉換。數據預處理是否做好將影響數據挖掘的效率和準確度以及最終模式的有效性。這些處理技術在數據挖掘之前使用可以大大提高數據挖掘模式的質量,降低實際挖掘所需要的時間。原始數據通過數據選擇、清理、集成和轉換后生成數據挖掘庫,為下一步的數據挖掘做好準備。

3.2 數據挖掘模塊

數據挖掘的目的是生成可以據其所示的含義采取行動的知識,也就是建立一個現實世界的模型。數據挖掘的本質就是數學建模。在數據挖掘中,可以使用許多不同的模型,如分類模型、回歸模型、時間序列模型、聚類模型和關聯規則模型。針對同一模型,可以使用不同的算法進行數據挖掘。算法的目的就是找到適合于數據的模型。數據挖掘涉及到多步驟、各系統間的交互、特殊解決方案及各步驟間的反復過程。

B2C電子商務網站中商品介紹頁面的擺放就好比商店里的貨架,商品介紹的擺放位置也會影響客戶對商品的購買率。而商品之間的關聯性一般不是很容易看出來的,一般人很難聯想到商品之間的關聯性,只有實際上通過對大量的交易歷史數據的分析,才可以挖掘出它們之間的關聯性。在數據挖掘過程中對關聯產品和服務進行深入挖掘,可以發現其中的關聯規則,利用關聯規則模型進行數據挖掘可以了解客戶的購買行為,這對于改進B2C電子商務商業活動的決策很有幫助。例如,可以通過改進商品介紹位置的擺放(把顧客經常同時買的商品擺放在一起),幫助如何規劃市場(互相搭配進貨)等。而作為B2C電子商務網站??梢葬槍Σ煌蛻籼攸c動態調整網站結構,使客戶訪問的有關聯的網頁文件的鏈接更加直接,讓客戶更容易訪問到自己想要的東西。這樣的網站更能吸引客戶,提高客戶的忠誠度,提高網站的效益。

B2C電子商務網站網頁主要為顧客展示商品名稱或圖片,為顧客推薦與當前感興趣商品更詳細或相關的網頁是個性化推薦的關鍵。根據客戶的注冊信息和訂單信息,通過回歸模型挖掘可以為不同的用戶提供個性化服務,例如系統可以向客戶顯示那些可能引起客戶感興趣的新商品。

隨著“以客戶為中心”的經營理念不斷深入人心,分析客戶、了解客戶并引導客戶的需求已成為企業經營的重要課題。通過對B2C電子商務系統收集的客戶的交易數據進行聚類模型挖掘,可以確定不同類萬方數據型客戶的行為模式,電子商務企業便可以采取相應的營銷措施,促使企業利潤的最大化。

3.3 數據挖掘結果顯示模塊

數據挖掘結果的顯示模塊是將數據挖掘后得到的知識和結果用可視化形式表示出來,例如采用圖形化界面把挖掘結果顯示給電子商務企業的管理人員。在建立好相關數學模型后,把實際數據作為輸入信息,通過挖掘模型的計算獲得預測結果。B2C電子商務企業要根據不同的挖掘結果做出不同的反應。采取不同的措施,給顧客提供不同的服務,在為顧客服務的同時也為自己的B2C電子商務企業獲取更多的利潤。

4.結論

本文討論了把數據挖掘技術應用于B2C電子商務系統中,并采用J2EE的B/S架構將其實現,系統采用客戶端、中間服務器和后臺數據庫三層架構。利用數據挖掘技術可以提高B2C電子商務企業現代化管理水平方面發揮著積極的作用,它能夠提高B2C電子商務企業對客戶管理和商品管理方面信息的準確性和及時性,可以幫助B2C電子商務企業網站的開發人員及時、全面了解B2C電子商務企業網站運營情況和合理安排網頁的頁面布局,為不同瀏覽習慣的顧客提供個性化服務,為各項具體工作提供技術、信息支持;有效地減少各種失誤并保證B2C電子商務企業網站的各項任務保質保量、按計劃完成,從而提高電子商務企業網站的運作效率。

參考文獻

[1]朱明.數據挖掘[M].合肥:中國科學技術大學出版杜(第2版),2008.

[2]寰方,王煜,等.PaoloGiudici.實用數據挖掘[M].北京:電子工業出版,2004.

[3]廖芹,郝志峰.數據挖掘與數學建模[M].北京:國防工業出版社,2010.

數據挖掘技術研究范文3

關鍵詞:網絡安全;入侵檢測;數據挖掘

中圖分類號:TP311 文獻標識碼:A文章編號:1007-9599 (2011) 08-0000-01

Research of Intrusion Detection Technology Based on Data Mining

Zhao Nan,Feng Jianlin

(College of Computer and Information Engineering,Lishui University,Lishui323000,China)

Abstract:Based on the characteristics of intrusion detection system(IDS)and the IDS data mining technology,the design of data mining-based IDS model,is to overcome high rate of a general intrusion detection system false alarm.First of all,the model training data extract from the rules,and then use these rules to detect new incursions.The experimental results show that the use of data mining to intrusion detection system is effective,rules updating and system updating faster and cheaper,detection rate higher.

Keywords:Network security;Intrusion detection;Data mining

目前大部分入侵檢測采用特征檢測的方法,它們由安全專家預先定義出一系列特征模式(此處的特征模

式含義比較窄,如表達式、字節匹配或“特征字符串”,與后面提到的規則不同),用來識別入侵,同時,入侵檢測系統需要不斷更新自己的模式庫以跟上入侵技術發展的步伐,僅僅采用這種入侵檢測方法將會帶來很多缺陷。

基于數據挖掘的入侵檢測技術可以自動地從訓練數據中提取出可用于入侵檢測的知識和模式經過綜合地分析比較,基于數據挖掘的入侵檢測系統有以下幾點優勢:智能性好、檢測效率高、自適應能力強和誤警率低。

一、入侵檢測技術簡介

入侵檢測是對網絡系統的運行狀態進行監視,發現各種攻擊企圖、攻擊行為或者攻擊結果,以保證系統資源的機密性、完整性與可用性。入侵檢測系統是從多種計算機系統及網絡中搜集信息,再從這些信息中分析入侵及誤用特征。入侵是由系統外部發起的攻擊。誤用是由系統內部發起的攻擊。所有的IDS的本質都是基于分析一系列離散的、按先后順序發生的事件,這些事件用于誤用模式進行匹配,入侵檢測源都是連續的紀錄,他們反映了特定的操作,間接反映了運轉狀態。IDS一般包括三部分:信息的搜集和預處理、入侵檢測分析引擎以及響應和恢復系統[1]。

絕大多數入侵檢測系統的處理效率低下,不能滿足大規模和高帶寬網絡的安全防護要求。目前使用的主要檢測方法是將審計事件同特征庫中的特征匹配,但現在的特征庫組織簡單。導致的漏報率和誤報率較高,很難實現對分布式、協同式攻擊等復雜攻擊手段的準確檢測;此外,預測能力嚴重受限于攻擊特征庫,缺乏對未知入侵的預測能力。

二、數據挖掘技術簡介

數據挖掘是從海量的數據中提取或“挖掘”知識,這些數據可以存放在數據庫、數據倉庫或其他信息存儲中[2]。于數據挖掘是一門受到來自各種不同領域的研究者關注的交叉性學科,因此導致了很多不同的術語名稱。數據挖掘是針對特定應用的數據分析處理過程,如何選擇輸入數據、變換數據集對應的挖掘算法,取決于具體的數據挖掘目標,即期望從數據中發掘出什么知識。數據挖掘可粗略地理解為三步:數據準備、數據挖掘,以及結果的解釋評估。

三、基于數據挖掘的入侵檢測系統

數據挖掘是從海量數據中提取隱含的、以前不知道的、有潛在作用的信息。它利用統計與可視化技術以易于理解的形式發現并表現信息。在入侵檢測中,數據挖掘被定義為處理大量在中央位置收集得到的數據,從而察看其規則模式?;跀祿诰虻娜肭謾z測系統(DMIDS)是從訓練數據中得到規則模式,用于實時的入侵檢測系統中的入侵檢測。

基于數據挖掘的入侵檢測技術可以自動地從訓練數據中提取出可用于入侵檢測的知識和模式經過綜合地分析比較,基于數據挖掘的入侵檢測系統有以下幾點優勢:智能性好、檢測效率高、自適應能力強、誤警率低[3]。

基于數據挖掘的入侵檢測系統原理,DMIDS總體分為兩部分:

第一部分是數據挖掘部分,主要采用數據挖掘技術來得出規則庫,為后續的檢測提供依據;其中包括:訓練數據,數據挖掘模塊和規則庫,

第二部分為入侵檢測部分,實時采集數據,處理數據,然后和規則庫進行比較,判斷當前用戶的操作是否合法,并相應的作為響應或恢復機制。該部分主要擁有以下模塊:

數據挖掘模塊。數據挖掘技術是一種決策支持過程,它主要基于AI,機器學習統計等技術,它能高度自動化地分析原有的數據,做出歸納性的推理,從中挖掘出潛在的模式,預測出客戶的行為。

數據挖掘模塊的主要作用就是從訓練數據中挖掘正常和異常行為規則,構建規則庫,對于不同性質的數據源,這里要求采用不同的數據挖掘算法來發現其中的隱含規律。

DM的技術基礎是人工智能,它利用了人工智能的一些已經成熟的算法和技術,例如:人工神經網絡、遺傳算法。決策樹、鄰近搜索算法、規則推理、模糊邏輯等DM系統問題利用的技術越多,得出的結果精確性就越高。這主要取決于問題的類型以及數據的類型和規模。

四、結論

由于入侵檢測系統本身應用的特殊性,要求它具有準確性、全局性、可擴展性、可伸縮性以及環境適應性和本身的健壯性。本文對基于數據挖掘的入侵檢測系統的信息提取技術作了較全面的研究和介紹,重點研究了啟發式的聚類數據挖掘算法,并對其中涉及到的概化分層和聚類算法和關聯算法,分類算法等進行了介紹。

參考文獻:

[1]孫鑫鴿,趙躍龍.基于數據挖掘的分布式入侵檢測系統[J].電子技術應用,2008,3:126-130

數據挖掘技術研究范文4

關鍵詞:就業信息;數據分析;挖掘技術;研究

中圖分類號:TP311.13

隨著數據挖掘技術的不斷發展和數據管理的廣泛運用,數據信息中存在著大量的決策意義,但是數據利用很低,局限于就業率的統計等。學生大學期間,順利就業是一個非常重要的環節。對學生就業的指導是當今學校所面臨的主要課題。在信息數據中找出規律,直接反映一定時期內的整個社會的就業狀況、職業動態及其發展趨勢。供職業指導人員指導就業工作和擇業者選擇職業的重要依據。

1 數據挖掘的定義和傳統數據的區別

大量數據中挖掘或者提取的知識,也就是說把人們數據中潛在隱含的數據中有用的信息轉化為知識的過程來運用。數據挖掘與傳統的數據分析都是查詢、報表、聯機運用分析,但是,他們不同的區別在于沒有明確假設的前提下去挖掘信息、發現信息、發現其中隱含的知識,所得到的信息應該是具體實用有效的信息。數據挖掘通過預測未來趁勢以及行為,做出前瞻的,基于知識的決策[1]。

2 了解數據挖掘的基本步驟

數據挖掘的基本步驟主要有以下幾個方面,分別是收集數據:收集可以從多個數據源中去收集,并獲取資料,然后對數據進行整合;數據選擇:分析所有收集到的數據,并決定選擇數據和排除數據中無效,無利用價值的數據;數據清洗:檢查收集的數據是否滿足挖掘的條件,目的是將數據質量提升到符合所選擇的分析的需求上去,從而保證數據信息的正確性和一致性;數據的轉換:將已有的數據根據挖掘信息分析的要求進行分析和邏輯性的轉換;建立模型:選擇合適的算法進行合理而準確的驗證;結果分析:對挖掘結果進行解釋與實際現狀相結合進行可視化的分析;知識同化:將分析所得到的知識集成到就業信息的運用當中去,進行決策供畢業生參考。

3 數據挖掘中的應用

3.1 數據挖掘在WEB中的應用

數據挖掘使用就業網站功能開發是通過就業網頁內容的挖掘,主要是針對文本的內容進行挖掘,實現對網頁內容的聚類整合,達到對就業信息的分類瀏覽和檢索[2]。對用戶所提的問題和歷史的記錄進行有效的分析擴展,從而提高檢索的效率性。運用數據的挖掘技巧進行關鍵詞改進和加權算法,這樣就可提高就業信息的傳播效果。利用數據挖掘的技術效果建立更深的訪客量并加以進行精準的預測模式,從而達到真正智能型的個性化網絡服務。

數據的收集是一個比較復雜的過程所涉及的東西也比較廣泛,這對于就業信息的挖掘是一件比較困難的事情,從而我們就要學會應用數據應用流程,掌握挖掘的流程并學會運用。數據挖掘流程應用流程如圖1所示。

圖1 數據挖掘流程圖

這一流程圖有利于針對就業問題的提出問題進行分析,從而發現學生整體就業情況和學生的成績、專業、區域等相關信息數據的關聯。為數據準備打下基礎,根據不同的數據可以顯示不同的問題,采用數據倉庫進行選擇,通過選擇、抽樣和匯總等方式來選擇符合就業條件的子集,最終建構特定的數據庫挖掘。

3.2 就業市場預測

數據挖掘的主要價值在于通過數據信息從中提取有效的信息內容,從中找其規律,為就業者提供參考數據和借鑒的效果,通過歷史就業信息數據的顯示作為參考,針對不同專業的就業率、升學率、行業分布比例、地域分布比例等與其他院校進行數據上的比較并進行就業形勢的綜合分析,從中發現值得總結的信息。另外對歷史數據的總結和對用人單位信息的記錄,對每年就業率數據的橫向比較,結合歷史數據的縱向比較,通過對歷年的就業地域進行分析情況及其就業層次分布情況,從而做到全面的觀察就業的發展狀況,形成對市場發展狀況進行全面的監控,并為今后的工作提供參考數據。

3.3 畢業生分類信息挖掘

由于傳統的數據無法滿足大家的需求,所以我們就要對數據進行分析提取,學生數據中存在著大量情況,利用這些數據結合當今社會就業的就業形勢,以通過數據挖掘的技術對畢業生資料進行構建。統一進行數據化畢業信息資料、并針對性別、專業、特長、技能、就業意向等因素進行分門別類,形成一套可視化信息圖系統,從而方便用人單位進行面向主體的信息抽選,最終提高就業效率[3]。

3.4 數據挖掘中的反饋進行教學改革

學生的就業不僅僅就意味著教學工作的結束,也是對教學工作的最后一次檢驗。是通過就業總結來發現教學中出現的問題,從而分析對教學的反饋作用集中體現了數據的挖掘的教學價值和技術性價值。

為實現教學與人才市場相結合,從而保證并充分就業,有必要進行人才培養模式教學內容、教學方法和教學手段進行全方位的調整和改革,進行統一和機制改革[4]。專業設置和社會需求的有機結合、社會適應性與崗位針對性的統一結合,主動學習與社會實踐的有機結合,整體的穩定性與適當的靈活性相結合,建立完善的專業預警制度。

4 數據挖掘中應注意的問題

數據挖掘的目的是把隱含的一大批看來無用雜亂無章的數據集中起來,取其精華,去其糟粕的進行合理的運用與判斷。在實際運用中,進行數據挖掘并做出準確的判斷。如果信息收集的不全就會導致部分數據錯誤,影響到分析的情況,這樣就會違背數據挖掘的原則[5]。因此就要實現數據的科學化、專業化,但是在這個的前提條件下還需要注意幾個小問題。(1)確保決策的目標性和科學性。決策目標是指在一定的環境下和內部條件下,在市場調查和研究中的基礎上要預測出所要達到的效果、目的。(2)合理的進行數據的維護,數據挖掘得到的結果全部靠數據的提供,由于數據結構的復雜性,因此對數據挖掘要進行探索、分析變量、這樣就可解決問題。分析數據中隱含的趁勢,在具體的就業數據分析中要對這個趁勢進行應有的考慮看其是否有探討價值并進行評價。(3)進行科學的抽樣,面對如此龐大而復雜的數據,只能對數據進行抽樣選取,并進行探討分析,不同的人對同樣的數據進行分析會產生不一樣的結果,將大家的數據進行綜合才可進行保障就業的可靠性。(4)注重數據的私有,安全性、以及專業性,數據在挖掘的過程中要涉及到數據的私有安全和安全度,數據挖掘的結果是不確定性的,要和專業知識相結合才可確保數據提供的準確內容。

5 結論

數據挖掘技術的應用在不斷的擴展中,也受到了學術界的廣泛運用,當前的就業形勢越來越嚴峻,尤其是針對應屆畢業生,將數據挖掘運用到就業信息分析上,可以給就業者提供準確的就業內容,減少就業者從業的盲目性,促進教育、就業、社會三者關系的有機融合,從而達到可持續發展。數據挖掘技術要想得到有效的運用,就必須掌握其內涵,分析數據的技巧,從而能夠更好的為學生服務。

參考文獻:

[1]王曉燕,何月順,楊文強.基于數據挖掘技術的高校教學方法研究[J].科技經濟市場,2009(02).

[2]董蕓.數據挖掘與統計分析[J].統計與決策,2010(09).

[3]陳樹冬.論開拓高校畢業生就業市場[J].經濟研究導刊,2011(19).

數據挖掘技術研究范文5

關鍵詞:數據庫;數據挖掘;研究分析

1 前沿

近年來,隨著數據挖掘技術的蓬勃發展,面向以結構化數據為主的數據挖掘技術的得到了長足的發展,并日益走向成熟。它已被越來越多的領域所采用,并取得了較好的效果,在數據挖掘領域積累了大量經驗。但是面向結構化數據的挖掘技術很少有處理Web上的異質、非結構化信息的工作。所以,面對XML這類半結構化的文本數據,并不能將傳統的數據挖掘技術完全照搬過來。要實現面向XML數據庫的數據挖掘研究就必須將傳統的面向結構化數據的數據挖掘經驗技術和XML特有的技術規范相結合。由于XML規范至今不過短短幾年的時間,盡管其應用前景非常廣闊,但就總體而言,XML相關技術及其應用仍然處于研究、探索階段,對其進行挖掘的研究更是如此。

2 總體結構

傳統的數據挖掘將分為三個主要部分:數據準備、數據挖掘和知識的確認與提煉。本文在構建結構時也基本繼承了這幾個主要部分,不過因為XML數據庫是針對XML文檔的特殊數據庫,與其它關系型數據庫的存儲方式有些不同,所以在其中加了XML數據庫存儲這個部分。新的結構包括四個部分:數據預處理、XML數據庫存儲、XML數據挖掘和知識表示?;赬ML數據庫的數據挖掘過程如圖1所示。

數據挖掘過程是數據挖掘的核心步驟,不同的挖掘目標采用的挖掘方法和技術都不相同。在XML數據庫環境下進行關聯規則挖掘就可用到XML數據庫提供的特有的技術。XQuery是XML的查詢標準,提供了豐富強大的查詢功能,用它可以實現傳統的關聯規則挖掘算法來直接對XML文檔進行挖掘分析。使用這種方法不需要對XML文檔進行預處理及挖掘后處理,實現起來簡單快捷。

3 XML數據挖掘

3.1挖掘方案選取

對XML的挖掘包括對XML結構上的挖掘和對XML內容上的挖掘兩種[2-5]。XML的內容指的是文檔中每個開始標記和結束標記之間的文本部分,對其內容的挖掘其實也就是對標記的值的挖掘。目前,XML結構挖掘研究相對較多,內容挖掘研究較少,這里主要研究的是XML內容挖掘:包括單個XML文檔挖掘和群組XML文檔挖掘。

XML的內容挖掘主要有三類方案:

第一種是通過一些專門為XML數據或半結構化數據開發的查詢語言,如XML-QL,XML-GL,XQuery等,利用其查詢功能,嵌入到其他應用程序中,從而獲得數據集進行挖掘。這種方法的優點是能夠將XML技術與數據挖掘技術緊密結合,且實現起來簡便。

第二種是將XML文檔的數據結構化,映射到現有的關系模型或對象模型中,從而可以使用較成熟的數據挖掘方法對其進行挖掘。但是XML本身的一些半結構化特點可能會導致在映射過程中產生一些問題。

最后一種解決方法是將XML文檔看作是一個文本,進而使用傳統文本挖掘技術進行挖掘。如使用矢量空間模型(VSM)將文檔空間看作是由一組正交詞條矢量所組成的矢量空間,通過統計詞頻、縮減維數等步驟,達到機器學習、獲得知識的目的。但這種方法并沒有考慮到XML文檔仍存在一些結構化的特征。此外,數據量大、數據過于詳細也會導致文檔的特征向量巨大,造成挖掘困難。

在XML數據庫環境下進行關聯規則挖掘就可用到XML數據庫提供的對XQuery技術的支持。將XML的查詢語言與傳統數據挖掘方法相結合來提取XML文檔中的關聯規則,也就是通過用XQuery來匯總數據集,進而實現挖掘算法。

3.2 XML挖掘實現

選用XQuery實現關聯挖掘算法來進行挖掘,不需要對XML文檔進行預處理及挖掘后處理,實現起來簡單快捷。只需要調用XML數據庫提供的XQuery引擎,執行相應的XQuery就可以直接得到挖掘出的關聯規則。

在X-Hive數據庫中提供兩種方式來執行XQuery。

方式一:用XhiveNodeIf對象的executeXQuery(String query)方法來執行XQuery語句,它將返回iterator。結果集的每個元素都是XhiveXQueryValueIf對象,還可以將它轉換成DOM的節點來進行進一步操作。

  方式二:用XhiveXQueryQueryIf對象調用execute()來執行XQuery語句。這種方式可以引入外部參數,通過setVariable方法來綁定參數。

  用XQuery實現挖掘算法來挖掘關聯規則需要傳遞參數,這里選用了第二種方式來執行XQuery。調用接口執行XQuery完成數據挖掘的代碼如下所示: 

Procedure XQueryXMLMining(String fileXQueryName,float minSup,float minConf)

{

db=GetConnect(userName,userPassword,databaseName)

transaction=db.get(libraryName)

strXQuery=ReadFile(fileXQueryName)

XhiveXQueryQueryIf Query=Transaction.createXQuery(strXQuery)

mineFilenames=GetFilenames(Transaction)

Query.setVariable("filenames",filenamesInLibrary)

Query.setVariable("minSup",minSup)

Query.setVariable("minConf",minConf)

Return Query.execute();

};

輸入參數是保存XQuery挖掘算法的文本文件名、最小支持度和最小可信度。為了增強程序的靈活性,方便XQuery的修改,以及不同XQuery實現算法的替換,將XQuery代碼存放在文本文件中。要從文件中提取出XQuery代碼,需要傳遞XQuery所在的文件名。通過GetConnect函數與XML數據庫建立連接。由于待挖掘的XML存放在transaction文檔集合中,創建文檔集合對象transaction與transaction文檔集合進行關聯。ReadFile函數讀取保存在文件中的XQuery代碼,并賦值給變量strXQuery。X-Hive數據庫通過調用XhiveXQueryQueryIf對象來執行XQuery代碼,這里建立一個XhiveXQueryQueryIf對象Query。GetFilenames函數從transaction文檔集合中提取待挖掘的XML文檔名,用XQuery可直接從XML數據庫中讀取文檔只需要將待挖掘的XML文檔名傳遞給它。通過setVariable方法將待挖掘的XML文檔文件名、最小支持度和最小可信度與XQuery代碼中的參數綁定。最后,通過調用Query的execute方法執行XQuery代碼,并將執行結果返回。

XML挖掘 的最核心的部分是用XQuery實現有效的關聯規則挖掘算法。Jacky等人已經使用XQuery實現了經典的Apriori算法,并成功的從單個XML文檔中提取出了關聯規則,證實了用XQuery來直接進行數據挖掘的可行性。使用這種方法不需要對XML文檔進行預處理及挖掘后處理相對其他方法要簡單實用。但是僅用XQuery實現Apriori算法還存在一些不足。首先,只能對單個XML文檔適用,不能處理多XML文檔的挖掘;其次,需要多次掃描數據庫,要挖掘頻繁k項集就需要掃描k次,效率相對低下。針對這些問題,將用XQuery實現傳統的Partition算法來進行挖掘。Partition算法將數據庫從邏輯上劃分為多個塊,然后挖掘多個劃分塊中的關聯規則,將劃分等同于XML文檔就可以進行群組XML文檔的挖掘。又由于這種算法只需要掃描數據庫兩次,減少了數據庫掃描次數提高了時間效率。選用這種算法將從挖掘范圍和挖掘效率上都得到提高。

結束語

詳細描述了基于XML數據庫的數據挖掘過程。在預處理過程中運用DOM和Schema技術對數據進行XML規范性處理;在存儲過程中分析了各種XML數據存儲方案,并通過XML數據庫提供的存儲接口將符合規范的數據存儲到XML數據庫中;在挖掘過程中用XQuery實現挖掘算法直接對XML數據挖掘。

參考文獻:

[1] 衛金茂,王石,伊衛國.基于XML的數據挖掘.計算機工程與設計,2003,24(10):106~108,125

[2] 李由,黃凱歌.XML的數據庫存儲技術研究.計算機應用研究,2002,19(4):60~62

[3] 曹亮,王茜.XML數據在關系數據庫中存儲和檢索的研究與實現.東南大學學報,2002,32(1):124~127

數據挖掘技術研究范文6

1基于數據挖掘的成績分析系統的設計要求及目標

成績分析系統的最終作用就是實現有效決策,從而有效指導學生的學習和就業。這就要求數據挖掘系統可以實現多種數據類型的挖掘任務,比如課程總成績之間的關系,課程各模塊之間的關系等,可以采用序列模式的發現、分類模式的發現、聚類模式的發現、關聯規則的發現等等。這就要求系統在設計上應該注重系統功能的完備。

成績分析系統的好壞,關鍵看此系統是否能夠從已有的數據中實現準確的預測,這就不可避免的要對以往存在大量數據進行存取交互操作,這就要求此成績分析系統與底層數據庫系統緊密藕合,盡可能的使用數據管理系統的各種功能。由于此系統是可以通過網絡進行分析處理數據的,所以要很好的支持Internet/Intranet環境,在網絡中存取數據對數據的安全性要求很高,所以數據庫的設計也是此系統的重要一個環節。軟件的使用和開發講究可移植性和可拓展性,并且數據挖掘技術并不是一成不變的,這要求我們在系統設計和開發的時候充分考慮到系統結構上的可擴展性。

2系統框架及功能設計

成績分析系統的框架設計要充分考慮系統的特點、系統要求及用戶體驗,保證系統能夠高效、協調的運行處理數據。整個系統將數據預處理模塊、用戶界面、數據挖掘模塊、數據庫和外部文件緊密地結合在一起,構成了一個層次結構。在這個分析系統中,主要有用戶界面,數據挖掘和處理部件、數據預處理模塊和數據庫管理模塊組成。

2.1用戶界面用戶界面是一個系統軟件的門戶部件,主要包括圖形界面,web界面和用戶任務界面等,其主要提供的功能包括:用戶操作任務提交:將用戶的操作提交到后臺,為用戶要處理的數據集進行數據挖掘的預處理,選擇要操作的數據庫及使用的算法等功能,也包括各類參數的選擇。將處理結果反饋給用戶,從關聯規則的文本形式及樹表現形式或是層次結構的表現形式反饋給客戶。給用戶提供數據挖掘算法的各類參數,屬性等供用戶選擇和修改。

2.2數據預處理模塊數據預處理模塊主要是對分析的數據進行整理及數據格式轉換,將數據庫的不同格式的數據轉換成數據挖掘技術能夠處理的格式,或是批量將數據進行關系型數據的轉換,此功能對本系統的擴展性和可移植性至關重要。

2.3數據挖掘模塊此模塊是學生成績分析系統的核心部件,主要是根據數據挖掘算法進行分析數據主要利用不同的算法進行數據處理,有關聯規則算法,聚類分析算法,預測算法等。

2.4DBMS模塊此模塊主要是用來數據庫管理,可以管理數據庫中底層數據,而且還可以管理已經挖掘出來的數據結果,可以為以后增量挖掘做準備。

3實現方案設計

傳統的軟件開發模式,一般會有專門的客戶端,即“C/S”軟件應用模式,采取兩層結構的此種類型的軟件,在使用上會有不少突出問題。系統的安裝維護及升級困難,可伸縮性能較差,根據目前流行的軟件開發模式,本系統的開發采用基于B/S的三層體系結構。由瀏覽器、數據庫、應用服務器組成,客戶端由專用軟件改為瀏覽器,為軟件的升級及系統的可伸縮性提供了可能;數據庫服務器為獨立運行的服務器,為軟件的安全性及性能上提供了保證;應用服務器為應用邏輯處理服務器,主要是用來過程處理,從數據庫服務器中獲取數據,并將處理結果反饋給客戶端瀏覽器。基于B/S的三層結構的主要特點包括:(1)保持數據庫獨立,使系統更加安全和便于維護。(2)應用服務器的放在應用層,和數據庫服務器,客戶端瀏覽器獨立存在,便于功能共享和拓展。(3)利用應用服務器的并行性和服務器本身的性能,可以對數據挖掘數據并行處理,提高數據處理效率。根據以上的結論,本成績分析系統采用基于B/S的三層結構,數據庫服務器,應用服務器負責數據預處理和數據挖掘功能,提供各種下數據挖掘工具和算法,底層數據庫服務器存放各類基礎數據。這樣,客戶端將任務請求發送給應用服務器,應用服務器啟動數據挖掘工具對象,將各種查詢參數封裝,并在訪問數據庫服務器后完成指定任務,并將分析結果返回給客戶端。

4總結及展望

亚洲精品一二三区-久久