前言:中文期刊網精心挑選了數據挖掘技術論文范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
數據挖掘技術論文范文1
數據挖掘技術是一種新型的技術,在現代數據存儲以及測量技術的迅猛發展過程中,人們可以進行信息的大量測量并進行存儲。但是,在大量的信息背后卻沒有一種有效的手段和技術進行直觀的表達和分析。而數據挖掘技術的出現,是對目前大數據時代的一種應急手段,使得有關計算機數據處理技術得到加快發展。數據挖掘技術最早是從機器學習的概念中而產生的,在對機器的學習過程中,一般不采用歸納或者較少使用這種方法,這是一種非常機械的操作辦法。而沒有指導性學習的辦法一般不從這些環境得出反饋,而是通過沒有干預的情況下進行歸納和學習,并建立一種理論模型。數據挖掘技術是屬于例子歸納學習的一種方式,這種從例子中進行歸納學習的方式是介于上述無指導性學習以及較少使用歸納學習這兩種方式之間的一種方式。因此,可以說,數據挖掘技術的特征在出自于機器學習的背景下,與其相比機器主要關心的是如何才能有效提高機器的學習能力,但數據挖掘技術主要關心如何才能找到有用、有價值的信息。其第二個特征是,與機器學習特點相比較而言,機器關心的是小數據,而數據挖掘技術所面臨的對象則是現實中海量規模的數據庫,其作用主要是用來處理一些異?,F象,特別是處理殘缺的、有噪音以及維數很高的數據項,甚至是一些不同類型數據。以往的數據處理方法和現代的數據挖掘技術相比較而言,其不同點是以往的傳統數據處理方法前提是把理論作為一種指導數據來進行處理,在現代數據挖掘技術的出發角度不同,主要運用啟發式的歸納學習進行理論以及假設來處理的。
2、數據挖掘技術主要步驟
數據挖掘技術首先要建立數據倉庫,要根據實際情況而定,在易出現問題的有關領域建立有效的數據庫。主要是用來把數據庫中的所有的存儲數據進行分析,而目前的一些數據庫雖然可以進行大量的存儲數據,同時也進行了一系列的技術發展。比如,系統中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結果的分析能力,而查詢的結果仍舊由人工進行操作,依賴于對手工方式進行數據測試并建模。其次,在數據庫中存儲的數據選一數據集,作為對數據挖掘算法原始輸入。此數據集所涉及到數據的時變性以及統一性等情況。然后,再進行數據的預處理,在處理中主要對一些缺損數據進行補齊,并消除噪聲,此外還應對數據進行標準化的處理。隨后,再對數據進行降維和變換。如果數據的維數比較高,還應找出維分量高的數據,對高維數數據空間能夠容易轉化為檢點的低維數數據空間進行處理。下一步驟就是確定任務,要根據現實的需要,對數據挖掘目標進行確定,并建立預測性的模型、數據的摘要等。隨后再決定數據挖掘的算法,這一步驟中,主要是對當前的數據類型選擇有效的處理方法,此過程非常重要,在所有數據挖掘技術中起到較大作用。隨后再對數據挖掘進行具體的處理和結果檢驗,在處理過程中,要按照不同的目的,選擇不同的算法,是運用決策樹還是分類等的算法,是運用聚類算法還是使用回歸算法,都要認真處理,得出科學的結論。在數據挖掘結果檢驗時,要注意幾個問題,要充分利用結論對照其他的信息進行校核,可對圖表等一些直觀的信息和手段進行輔助分析,使結論能夠更加科學合理。需要注意的是要根據用戶來決定結論有用的程度。最后一項步驟是把所得出的結論進行應用到實際,要對數據挖掘的結果進行仔細的校驗,重點是解決好以前的觀點和看法有無差錯,使目前的結論和原先看法的矛盾有效解除。
3、數據挖掘技術的方法以及在電力營銷系統中的應用和發展
數控挖掘技術得到了非常廣泛的應用,按照技術本身的發展出現了較多方法。例如,建立預測性建模方法,也就是對歷史數據進行分析并歸納總結,從而建立成預測性模型。根據此模型以及當前的其他數據進行推斷相關聯的數據。如果推斷的對象屬于連續型的變量,那么此類的推斷問題可屬回歸問題。根據歷史數據來進行分析和檢測,再做出科學的架設和推定。在常用的回歸算法以及非線性變換進行有效的結合,能夠使許多問題得到解決。電力營銷系統中的數據挖掘技術應用中關聯規則是最為關鍵的技術應用之一。這種應用可以有效地幫助決策人員進行當前有關數據以及歷史數據的規律分析,最后預測出未來情況。把關聯規則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關數據進行關聯規則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關聯信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統的應用中,時間序列挖掘以及序列挖掘非常經典、系統,是應用最為廣泛的一種預測方法。這種方法的應用中,對神經網絡的研究非常之多。因此,在現實中應用主要把時間序列挖掘以及神經網絡兩者進行有效地結合,然后再分析有關電力營銷數據。此外,有關專家還提出應用一種時間窗的序列挖掘算法,這種方式可以進行有效地報警處理,使電力系統中的故障能夠準確的定位并診斷事故。此算法對電力系統的分析和挖掘能力的提高非常有效,還可判定電力系統的運行是否穩定,對錯誤模型的分析精度達到一定的精確度。
4、結語
數據挖掘技術論文范文2
關鍵詞:數據挖掘;決策樹;C4.5算法;教學管理;高校教學
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2012)30-7150-04
隨著數字信息化社會的飛速發展,計算機技術和數據庫管理系統被廣泛應用于科學探索、商業、金融業、電子商務、企業生產等各種行業,已逐漸發展成為一種智能管理過程。數據挖掘作為一種新興的數據分析技術,它的研究成果取得了令人矚目的成就[1]。利用數據庫技術,通過對教務管理的大量數據進行多層次、多維度的加工處理,從而實現人性化管理,為科學決策提供支持。
畢業論文在教學體系中占有十分重要的位置,是本科生培養計劃中衡量教學質量的重要指標。提高畢業論文教學質量是一項系統工程,為研究在當前的教學條件下如何提高畢業論文教學質量,本文采用數據挖掘技術對影響畢業論文成績管理的多方面因素進行了深入分析和挖掘,以期發現對學校畢業論文教學管理有用的知識,將這些知識應用于本科學生畢業論文教學實踐中,為學校管理者提供有用的信息,進而獲得更好的管理效益,為學校未來的發展提供更廣闊的空間,發揮重要的作用。
1 數據挖掘簡介
數據挖掘(Data Mining),又稱數據庫中的知識發現(Knowledge discovery in Database. KDD)[2],是通過分析每一個具體數據,從大量的、有噪聲的、模糊的、隨機的海量數據中尋找其規律的技術,它是數據庫研究中的一個很有應用價值的新領域。
1.1 數據挖掘的定義
H包含如下功能:
綜上所述,數據挖掘具有三大特點:其一是處理大型數據;其二應用數據挖掘的目的是發現未知的、有意義的模式或規律;其三是一個對大量數據處理的過程,有特定的步驟[3]。
1.2 數據挖掘的主要方法
數據挖掘是一個多學科交叉領域,它由人工智能、機器學習的方法起步,并與統計分析方法、模糊數學和可視化技術相融合,以數據庫為研究對象,圍繞面對應用,為決策者提供服務。
數據挖掘的方法主要可分為六大類:統計分析方法、歸納學習方法、仿生物技術、可視化技術、聚類方法和模糊數學方法。歸納學習法是目前重點研究的方向,本文根據給定的訓練樣本數據集,采用歸納學習法中的決策樹技術構造分類模型,將事例分類成不同的類別。
2 決策樹算法基本理論
2.1 決策樹方法介紹
決策樹[4]方法是以事例學習為基礎的歸納推算法,著眼于從一組無序的,無規則的事例中推斷出類似條件下會得到什么值這類規則的方法,它是一種逼近離散值函數的方法,也可以看作一個布爾函數[5]。決策樹歸納方法是目前許多數據挖掘商用系統的基礎,可以應用于分析數據,同樣也可以用來作預測。建模過程中,即樹的生長過程是不斷的把數據進行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個互不交叉的子集,通常用來形成分類器和預測模型。如圖1所示,為決策樹的示意圖。
決策樹一種類似流程圖的樹形結構,是一種知識的表現形式。為了對未知樣本進行分類,生成具體的分類規則,信息樣本的各個屬性值要在決策樹上進行測試。主要分為兩個階段:在第一階段中生成樹。決策樹最上面的節點為根節點,是整個決策樹的開始,然后遞歸的進行數據分區,每次切分對應一個問題,也對應著一個節點;在第二階段中對樹進行修剪,此過程中去掉一些可能是噪音或異常的數據,防止決策樹的過匹配,進而保證生成決策樹的有效性和合理性。當一個節點中的所有數據都屬于同一類別,或者沒有屬性可以再用于數據進行分割時,分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運用信息熵理論,選擇當前樣本中具有信息增益值的屬性作為測試屬性,對樣本的劃分則依據測試屬性的取值[6]。C4.5算法是在ID3算法基礎上發展起來的,它繼承了ID3算法的全部優點,并增加了新的功能改進了ID3算法中的不足,可以進行連續值屬性處理并處理未知值的訓練樣本。在應用單機的決策樹算法中,C4.5算法不僅分類準確而且執行速度快。
C4.5通過兩個步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計算各個屬性的信息增益率,尋找到規則信息的優劣,選出信息增益率最大的屬性作為結點,自頂向下生成決策樹。C4.5算法構造決策樹的基本策略如下:
首先計算出給定樣本所需的期望信息,設S為一個包含s個數據樣本的集合,對于類別屬性,可以取m個不同取值,分別對應于m個不同的類別[Ci(i∈1,2,...,m)]。假設類別[Ci]中的樣本個數為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計。
接著,計算當前樣本集合所需用的信息熵,設一個屬性A具有n個不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數據。如果屬性A被選作測試屬性,設[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據A劃分計算的熵為:
然后利用屬性A對當前分支結點進行相應樣本集合劃分計算信息增益:
最后,求信息增益率,表達式為:
C4.5算法的偽代碼如下:
輸入:訓練樣本Samples;目標屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹
1)創建根節點root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結點樹root;
4)If Attributes為空Then;
5)返回單結點樹root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測試屬性列表Attributes中的屬性;
8)IF測試屬性是連續的Then;
9)對測試屬性進行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計算測試屬性的信息增益比率;
20)添加子樹Generate Tree C4.5;
21)對已建立的決策樹計算每個結點的分類錯誤,進行剪枝,并返回根結點Root。
3 畢業論文成績管理系統的設計和實現
利用數據挖掘技術對學生的成績數據進行提煉,所產生的結果和信息會對以后的教學管理工作提供有用的信息,進而獲得更好的管理效益。解決問題的重點在于怎樣對學生的畢業論文成績進行全面且深度的分析,從而挖掘出成績與其他因素之間隱藏的內在聯系。本文采用決策樹技術挖掘信息時,主要操作步驟如下:
1)確定挖掘來源:清晰地定義挖掘對象,明確挖掘目標是數據挖掘所有工作中重要的一步。本文中應用于挖掘的數據信息是畢業生的畢業論文成績,旨在通過對大量成績數據進行各層次的挖掘,全面了解具體影響學生畢業論文成績的各方面因素,正確的針對問題擬定分析過程。
2)獲取相關知識:數據是挖掘知識最原始的資料,根據確定的數據分析對象,抽象出數據分析中所需要的特征信息模型。領域問題的數據收集完成之后,與目標信息相關的屬性也隨之確定。這些數據有些是可以直接獲得的,有些則需要對學生進行調查才能的得到。
3)數據預處理:此過程中是對已收集的大量數據進行整合與檢查。因為存放在數據庫中的數據一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對數據庫中數據進行清理、整理和歸并,以提高挖掘過程的精度和性能。
4)數據轉換:對預處理后的數據建立分析模型,對于特定的任務,需要選擇合適的算法來建立一個準確的適合挖掘算法的分析模型。本文采用決策樹技術進行分類建模來解決相應的問題。
5)分類挖掘知識和信息:此階段的工作目的是根據系統最終要實現的功能和任務來確定挖掘的分類模型。選擇合適的數據挖掘技術及算法,并采用恰當的程序設計語言來實現該算法,對凈化和轉換過得數據訓練集進行挖掘,獲得有價值的分析信息。
6)知識表示:將數據挖掘得到的分析信息進一步的解釋和評價,生成可用的、正確的、可理解的分類規則呈現給管理者,應用于實踐。
7)知識應用:將分析得到的規則應用到教學管理中,教師可以利用所得到的知識針對性的開展畢業設計的教學活動,進一步指導教學工作,提高教學水平和學生的畢業論文質量。
4 結論
最終發現影響學生畢業論文成績主要的因素不是指導教師的職稱,學生的基礎及感興趣程度,而是指導教師的學歷高低。根據具體分類規則的結論,學校教學管理工作應加重對教師的素質及能力培養,合理的分配每個教師的畢業論文指導工作,不僅能夠有效的完成畢業課題指導工作,更有助于學生整體論文質量的提高。
在高校教學數字化的時代趨勢下,利用數據挖掘技術來挖掘提取教學工作中的全面而有價值信息,可以為教育管理者的教學工作提供有效的參考信息,改進教學管理方法,提高教學質量和學生的綜合素質,是高校保持良好的可持續發展的有力工具。
參考文獻:
[1] 劉玉文.數據挖掘在高校招生中的研究與應用[D].上海:上海師范大學,2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數據挖掘技術及其在高校教學系統中的應用[J].計算機工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統中的應用[J].計算機應用研究,2005(2):150-154.
[4] Tom M Mitchell.(美)卡內基梅隆大學.機器學習[D].曾華軍,張銀奎,譯,北京:機械工業出版社,2003.
數據挖掘技術論文范文3
檔案管理對象的數量隨著社會的發展而不斷增加,僅僅通過傳統的管理方式已不能高效管理檔案,這就需要充分利用計算機網絡技術。在檔案管理系統中應用計算機數據挖掘技術可以確保檔案信息的安全性,提高管理檔案的效率,還能優化檔案數據的檢索。總之,基于大數據的計算機數據挖掘技術對完善檔案管理系統發揮著十分重要的作用。
2基于大數據的計算機數據挖掘技術概述
基于大數據的計算機數據挖掘技術是當代新開發的一種數據處理技術,它可以從大數據中挑選出人們需要的數據。計算機數據挖掘是一個循環往復的過程,如果沒有取得預期的效果,計算機數據挖掘信息處理系統就會返回上一層重新工作,直到完成目標任務為止,這種對目標的細化過程可以滿足檔案數據檢索的需要。
3基于大數據的計算機挖掘技術在檔案管理系統中的作用
3.1提高檔案信息的安全性。無論是文字檔案、圖片檔案還是其他形式的檔案,都是一種寶貴的資料。越是意義重大的檔案,檔案管理人員就越要想方設法將其保存起來。檔案的價值隨著其保存時間的不斷推移而增加,價值越高的檔案,被使用的頻率就越高,但是如果使用過于頻繁的話,就會縮短檔案資料的壽命,加大保存難度。除此之外,有的檔案信息是保密的,在應用時如果監管不力就會導致機密泄露。由以上可見,檔案的保存與使用儼然已互為對立面了。將計算機挖掘技術應用到檔案管理中則對檔案資料的完整性毫無影響,并且還可以提高檔案信息的安全性。3.2提高檔案信息管理的效率。在檔案管理工作中應用計算機數據挖掘技術,可以極大改變傳統檔案管理模式低效率的弊端。使用計算機數據挖掘技術,大大提高了工作人員處理檔案信息的速度,同樣的工作使用的時間極大減少。鑒定檔案是檔案管理工作中的重要組成部分,傳統的鑒定方式是由管理人員根據自己的經驗進行主觀鑒定,有時會存在有價值的檔案丟失的現象。應用計算機數據挖掘技術,檔案管理人員就可以利用計算機系統分析檔案使用和保存的情況,促進了檔案鑒定工作的發展。3.3提高了檔案信息的使用效率。大部分檔案信息具有一定的機密性,所以檔案的借閱并不是向全社會公開的,而是有范圍限制的,但是由于檔案管理人員和借閱者對檔案信息不熟悉,導致雙方的溝通存在一定的問題,在借閱者提出申請之后,檔案管理人員會將檔案資料調出來,有時調出來的資料不是借閱者所需要的,還得重新調閱,類似的過程就嚴重浪費了雙方的時間。應用計算機數據挖掘技術可以促進檔案管理人員和借閱者之間的交流,讓檔案管理者明確借閱者需要的具體檔案信息,從而形成專門的檔案提供渠道,這就大大提高了檔案信息的使用效率。3.4增強檔案信息的服務性。加密檔案信息會嚴重縮小它的適用范圍,受當代信息化的影響,很多檔案信息自身會出現一些問題,并且只能為一小部分人服務。將計算機數據挖掘技術應用到檔案信息管理中,可以具體分析檔案的使用情況,通過研究發現未來使用檔案信息的人群,在此基礎上提高檔案信息的服務性。
4基于大數據的計算機數據挖掘技術在檔案管理中的實際應用
4.1在檔案分類管理中的應用。檔案管理的基礎工作就是將檔案進行分類。傳統的分類方法既費時又費力,工作效率極低。計算機數據挖掘技術中有一種決策樹算法,它可以在最短的時間內按照一定的規則將不同屬性的檔案信息進行分類和整理,大大提高了檔案分類工作的效率。計算機數據挖掘技術在檔案分類工作中的具體流程是:從大量不同種類的數據集中選擇一些數據組合成訓練集,然后應用到沒有進行分類的檔案管理中,這樣可以幫助管理者根據借閱者對檔案信息的需求來對檔案進行分類,同時還可以根據借閱者的需求為其推薦其他檔案信息。通過這些針對性強的數據分析,可以極大縮短借閱者獲取檔案信息的時間,檔案數據的利用價值就能充分發揮出來。4.2在檔案收集管理中的應用。計算機數據挖掘技術可以根據數據庫內部的數據信息描述來構建一個相應的數據模型,然后比較計算機數據樣本和數據模型之間的差異,如果這二者互相吻合,就需要檔案管理人員使用測試樣本模型來對檔案信息進行分類處理。計算機數據挖掘技術需要全面分析檔案數據信息庫中的數據,建立一個對已知數據有詳細描述的概念模型,并與測試樣本進行對比,如果一個模型測試通過,就證明這個模型可以應用在檔案收集管理中。
5結語
綜上所述,在科技技術不斷進步的時代背景下,在檔案信息管理中應用基于大數據的計算機數據挖掘技術已成為一種必然趨勢,它可以極大提高檔案信息管理的工作效率,促進檔案管理的高效發展。除了在檔案信息存儲和利用上確?;镜男畔⒉樵兎胀?,還需要應用計算機數據挖掘技術整合檔案信息,建立眾多檔案管理服務數據之間的關聯,這樣才能為檔案信息管理提供更好的服務。
作者:陳皓穎 單位:昆明理工大學津橋學院
參考文獻
[1]高燕飛,陳俊杰.試析計算機數據挖掘技術在檔案信息管理系統中的運用[J].內蒙古師范大學學報:哲學社會科學版,2012(4):44-46.
[2]曾雪峰.計算機數據挖掘技術開發及其在檔案信息管理中的運用研究[J].科技創新與應用,2016(9):285.
[3]李國強,曹巧蓮,辛正宇,等.淺談數據處理的新技術———數據挖掘[J].科技創新與生產力,2010(6).
[4]周碧珍.淺析計算機數據挖掘技術在檔案信息管理系統中的應用[J].黑龍江科技信息,2009(1).
數據挖掘技術論文范文4
關鍵詞:遠程開放教育,數據挖掘,應用,智能化
1 前言
現代遠程開放教育的全過程基本上都是通過瀏覽網站的形式進行的,學生在Web上的行為都會產生大量的信息,這些信息在遠程教育的全過程中十分寶貴,充分挖掘這些信息及其背后潛在的信息,反饋來指導遠程教育中的各個環節,以此來為學生提供個性化的服務內容,增強遠程開放教育的競爭力。利用數據庫技術來存儲管理數據,利用網絡和計算機學習的方法來分析數據,從而挖掘出大量的隱藏在數據背后的知識,即數據庫中的知識發現---KDD(Knowledge Discovery in Databases),其中,數據挖掘技術便是最為關鍵的環節。論文參考網?;谶h程開放教育將是當前和未來教育的重要輔助系統,本文提出并介紹信了把數據挖掘技術應用于現代遠程開放教育系統中。
2 數據挖掘概述
2.1數據挖掘(DataMining)定義
數據挖掘就是從大量存儲的數據中,利用模式識別、統計和數學的技術,篩選發現新的有意義的關系、模式和趨勢的方法。就是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它主要依靠人工智能、機器學習和統計學技術,對數據進行歸納推理,從中挖掘出潛在的模式,預測未來趨勢,為決策提供支持。
2.2數據挖掘的主要任務
(1)關聯分析。兩個或兩個以上變量的取值之間存在的規律性稱為關聯。數據關聯是數據庫中存在的一類重要的、可被發現的知識。關聯分析的目的是找出數據庫中隱藏的關聯網。
(2)聚類分析。聚類是把數據按照相似性歸納成若干類別,同一類中的數據彼此相似,不同類中的數據相異。
(3)分類。分類就是找出一個類別的概念描述,它代表了這類數據的整體信息。
(4)預測。預測是利用歷史數據找出變化規律,建立模型,并由此模型對未來數據的種類及特征進行預測。
(5)時序模式。時序模式是指通過時間序列搜索出的重復發生概率較高的模式。它是用己知的數據預測未來的值,但這些數據的區別是變量所處時間的不同。
(6)偏差分析。在偏差中包括很多有用的知識,數據庫中的數據存在很多異常情況,發現數據庫中數據存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結果與參照之間的差別。
2.3數據挖掘對象
根據信息存儲格式,用于挖掘的對象有關系數據庫、面向對象數據庫、數據倉庫、文本數據源、多媒體數據庫、空間數據庫、時態數據庫、異質數據庫以及Internet等。
2.4數據挖掘技術實施的步驟
(1)確定業務對象。清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步。挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有評價,并以用戶能理解和觀察的方式將發現的知識呈現給用戶。
(2)數據準備。這個階段的工作包括數據集成、數據選擇、預分析和轉換。要對Web服務器上的數據進行挖掘,必須研究站點之間異構數據的集成問題,只有將這些站點的數據都集成起來,提供給用戶一個統一的視圖,才有可能從巨大的數據資源中獲取所需的東西。
(3)數據挖掘。這個階段就是利用數據挖掘工具對經過轉換的數據進行挖掘和發現知識的過程。不同的數據挖掘工具有不同的算法,面向不同的分析需求,并且當具體使用操作時,也在一定程度上受到數據分析人員的思維方式和行為習慣的影響。數據挖掘利用人工智能領域中一些已經成熟的算法和技術。如:人工神經網絡、遺傳算法、決策樹方法、鄰近搜索算法、規則推理、模糊邏輯、公式發現等來進行數據的挖掘。
(4)結果分析。論文參考網。數據挖掘的結果由分析人員根據發現知識的領域重要性、可信度和支持度等閥值來對發現結果進行評價,并以用戶能理解和觀察的方式將發現的知識呈現給用戶。通常會用到可視化技術。
(5)知識的同化。將分析所得到的知識集成到業務信息系統的組織結構中去。
3 現代遠程開放教育系統簡介
遠程開放教育系統能實現個性化學習、實時教學、實時考試和智能答疑。為每一個接受網絡遠程教育的學習者提供個性化的學習進程。能根據與當前學習者相類似的學生的學習模式自動地對其后繼知識的學習進行預測以及合理推薦,并對學習者的學習過程進行分階段的評價,依據其績效信息動態調整其學習難度、練習與測試內容,對學生提出的問題實現智能化答疑,對該學習者薄弱環節進行有效指導,做到因材施教和全天候學習。
遠程開放教育系統由用戶系統、WEB服務器、應用服務器、數據服務器、用戶數據庫和資源數據庫組成。
用戶系統用于實現遠程開放教育系統的顯示功能,其功能是:實現信息的和接受,管理員通過它來實現系統的管理、更新、維護等,主要是通過XML語言和HTTP協議實現WEB瀏覽器與WEB服務器的鏈接和信息通訊。WEB服務器用于完成遠程開放教育系統的事務處理,用于處理學習過程中的各種事務。應用服務器直接為WEB服務器提供相關服務,處理WEB服務器以及XML文檔組成的用戶的事務請求信息。論文參考網。數據庫服務器用于完成數據處理,為應用服務器提供相關服務,完成數據查詢、修改和更新等服務,并把運行結果反饋給應用服務器。資源數據庫中主要由遠程開放教育系統中要使用的課件庫、答疑庫、作業庫、試題庫和必要的超級鏈接等構成。用戶數據庫主要用于存儲遠程開放教育系統中要使用的的注冊檔案、用戶目前的學習內容、學習進展、作業情況和考試情況等信息。
4 數據挖掘技術在遠程開放教育中的應用
現代遠程開放教育是隨著現代信息技術的發展而產生的一種新型教育形式,其基本特征是利用計算機網絡和多媒體技術,提供豐富的教學資源供學習者選用,教學形式由原來的以教為主變為以學為主。數據挖掘技術在現代遠程開放教育中的應用主要有以下幾方面:
(1)在個性化學習方面的應用
由于每個學習者的知識背景、學習習慣和學習目標都不一樣,故個性化學習在遠程開放教育中就顯得非常重要。為了實現此功能,基于WEB的智能遠程開放教育系統首先要根據學習者的特點和學習目標來收集學習者的數據信息,然后對收集到的信息進行預處理,再應用一種合理的挖掘算法或綜合應用不同的算法,如關聯規則分析、聚類和分類技術、統計分析以及時序模式技術等,來處理此數據,最終發現用戶的訪問模式,但是通過模式挖掘后,生成的規則數目大、表達晦澀且不好用,這時就需要用到智能查詢機制、可視化和聯機分析等技術對模式進行分析評價,經過模式分析和應用技術處理后,選擇一種學習者易于理解和接受的表達方式將知識數據顯現出來。利用數據挖掘與學習內容綁定的技術,系統就可以以可視化方式來指導學習者學習和個性化發展,這樣系統就實現了個性化學習功能。
(2)在資源庫建設方面的應用
資源庫建設在整個系統中至關重要,為了建立覆蓋面廣、功能齊全的資源庫,我們就必須編制信息資源目錄,征集種類資源信息,并進行資源、資源信息篩選、資源信息整理和存儲;同時按學科門類建設積件庫。當老師在系統內制作課件,為了有針對性和避免重復,我們可以對所有學習者已選的課程進行聚類,并通過聚類學習算法來自動確定每門課程的類別標記。接著利用數據挖掘中的關聯規則,估計出一組相關同位類課程,再利用泛化關聯規則,找到其上位類課程,或利用序列模式,預測出與之有關的學生未來可能選擇的同級課程,最后圍繞學習者的需求權限進行課程設置。
(3)在實時教學方面的應用
在本系統中,由于引入了互聯網技術、人工智能技術、數據庫技術和知識發現技術,通過機器學習、統計分析等方法設計出了個性化處理引擎,從大量的數據中進行數據挖掘,提取有用的、潛在的信息。學生可以通過網絡實現每天24小時的學習,而且本系統可以更多且及時的了解到學生的學習學習進度、需求、能力、興趣愛好等方面的信息,并動態地根據這些信息調整學習計劃和進度,讓學生得到針對其“個性”的教育,實現因材施教。
(4)在智能答疑方面的應用
基于WEB的遠程教學系統中的智能答疑系統只要用戶能上網,就可解答學生在學習過程中產生的問題。它能根據學生用戶訪問日志、問題記錄等數據進行數據挖掘,用智能抽取的方法實現智能答疑。從用戶訪問日志和提問信息里面可以分析出學生的行為。智能答疑系統后臺存儲了大量的由經驗豐富的教師精心挑選的問題答案,對于用戶提出的問題.系統首先通過對問題的分析自動在數據庫中尋找最適合的答案。這樣通過數據挖掘,針對學生用戶提問記錄、日志不斷更新和調整學生用戶知識庫,使問題的回答更加精確。
(5)在實時考試方面的應用
本系統的實時考試系統是一個基于數據庫和WEB的遠程在線式實時的測試系統。它能考慮個別學習者的能力和特性,按照考試的目的和必要性,提供各種問項信息,如難易程度、辨別程度等。并且還能同步打分,提供成績進展情況,根據個人特性解釋問題,按個人及科目對考試結果進行各種統計分析和評價,并存入學生用戶數據中。這些功能的實現是由于系統采用關聯規則、聚類和分類工具對數據庫中抽取的數據進行處理,分析出學生的特性及其對課程各知識點的掌握程度,并結合學生的考試目的恰當地反饋給學生,這樣提高了學生學習的效率。
5 結束語
在現代遠程開放教育網站設計中,基于XML(ExtensibleMarkup Language,可擴展標記語言)的新一代系統設計環境,可以更好地描述半結構化和結構化的數據,更有利于進行數據搜索和挖掘。如何整合XML和Web服務技術,以此為契機開展數據挖掘和知識獲取,在現代遠程開放教育網站的設計中以學習者為中心,提供一種基于資源的學習,教學資源可以適應各種學習者的需要和背景進行不同的組合,提供更加優良的、個性化的服務。
參考文獻:
[1]李爽,陳麗.國內外網上智能答疑系統比較研究[J].北京,中國電化教育,2003(5)
[2]蘇新寧.數據挖掘理論與技術[M].北京:科學技術文獻出版社,2003
[3]趙丹群.數據挖掘:原理、方法及其應用[J].現代圖書情報技術,2000,(6)
[4]周云真,舒建文,王平根.據挖掘在基于WEB的智能遠程教育系統中的的應用[J] .南京:文教資料,2006(10)
數據挖掘技術論文范文5
1.1數據挖掘技術
關聯分析即找出兩個或以上變量之間同時出現的規律、因果結構,即通過其他事物可對某個與之相關的事物做出預測。數據挖掘關聯分析的主要作用就是分析海量數據中潛在的關聯規則,對于高校圖書館個性化服務而言,即從圖書館數據庫中發現相關的關聯規則,針對用戶的信息需求做出準確預測,提高信息推送的針對性,便于用戶獲取所需的信息。聚類即將數據庫中的一組個體按照相似性歸結為若干類型,應用于圖書館系統中,就是將相似的文獻集中在一起,用戶在搜索相關文獻時可以查閱更多其他相關內容,便于其總結、歸納;在個性化服務中還可以通過聚類匯總用戶所需的特定信息。分類與聚類相似,是按照分析對象的屬性建立類組,用戶查閱資料的過程中,每種信息的重要程度有所不同,通過分類可以將用戶所需求的知識分為高度需求、中度需求及低度需求。在高校圖書館個性化服務中要對用戶的使用規律做出預測,即根據用戶歷史查閱記錄對用戶所需的文獻種類、特征等做出預測。時序模式主要是通過時間段對用戶的訪問記錄、檢索過程做出標志,再通過時間序列將重復率較高的內容挖掘出來,以預測其下個信息需求,提高用戶查閱資料的便利性。
1.2圖書館中應用數據挖掘的必要性與可行性分析
圖書館應用數據挖掘技術的必要性體現在以下幾個方面:首先,信息化需求。用戶的借閱記錄、檢索記錄均存儲于圖書館數據庫中,需要利用數據挖掘技術將這些海量數據轉換為有用的知識信息,以便于館員做出決策。其次,圖書館的管理需求。傳統圖書館系統僅能為用戶提供簡單的訪問、檢索等功能,這些功能無法滿足圖書館個性化的技術要求,因此要利用數據挖掘技術將用戶借閱數據中隱含的關聯性發掘出來,從中發現有用的知識信息。最后,用戶服務的需求。數字化圖書館的發展越來越迅速,用戶通過圖書館獲得的資源也越來越豐富,如何從海量的信息資源中發掘出對用戶有用的知識信息,僅依靠傳統的圖書館管理系統無法解決這一問題,因此要利用數據挖掘技術對用戶的借閱記錄進行分析,從中獲得更多有價值的信息,以提高圖書館的服務質量及館藏利用率。而在圖書館個性化服務中應用數據挖掘技術也是可行的,一方面很多圖書館已具備比較好的物質條件及人才條件,這些均是圖書館個性化服務中應用數據挖掘技術的必要條件,而且政府在經濟方面、政策方面也為數據挖掘的應用提供了更多保障;另一方面,近年來數據挖掘技術也有了長足的發展,其足以為圖書館的個性化服務提供必要的技術支持。圖書館數字化發展過程中需要采集、購置更多的數據資源,而利用數據挖掘技術可以為圖書館資源建設提供指導作用,挖掘圖書館的歷史借閱記錄,可進一步了解用戶的借閱習慣、閱讀興趣及信息需求,并且可以對不同圖書之間的關聯性進行深入分析,圖書館員根據這些信息記錄、分析結果等提供指導,可以提高圖書資源分配的合理性,對館藏布局進行優化。由此可見,數字化圖書館個性化服務中應用數據挖掘技術十分必要。
2圖書館個性化服務的具體體現
高校圖書館個性化服務是指根據每個用戶的專業、愛好、研究方向、探索領域及特殊服務為其提供更具針對性的信息服務,幫助用戶查閱更加完整的信息資料,便于其學習、研究。高校圖書館個性化服務具體體現在以下3個方面:
①用戶可根據自己的需求定制相關信息,以保證其在圖書館中能夠查閱到相關資料;圖書館利用數據挖掘技術發現用戶的興趣愛好,為其定制個性化的訪問空間。用戶訪問圖書館數據庫時會將其興趣愛好間接地反映出來,如果用戶不感興趣,在頁面停留的時間會較短,停留時間較長則說明比較感興趣;利用用戶的瀏覽路徑信息時間即可將用戶對信息資源的感興趣程度發掘出來。
②提高圖書館資源利用率。利用數據挖掘技術可以識別圖書館網站內頻繁訪問的路徑及用戶訪問次數較多的頁面,可以將新書信息、重要的分類信息放在這些路徑上,從而向用戶主動推送其所需要的信息資源,提高圖書的利用率。
③優化鏈接結構,提高用戶應用的便利性。對Weblog進行挖掘,可以發現用戶訪問頁面的相關性,增加聯系比較密切的網頁之間的關聯性;發現用戶的期望位置,如果用戶訪問期望位置的頻率高于對實際位置的訪問頻率,則可在二者之間建立導航鏈接,優化站點。
④查新服務與定題服務。傳統圖書館主要通過查詢光盤數據庫、文獻數據庫等進行查新服務,而隨著網絡技術的不斷發展與應用,外部網絡信息及更新的速度遠遠超過圖書館內部網絡,因此要加強網絡平臺的建設,以保證服務結果的真實性與可靠性。數字圖書館在進行查新與定題服務過程中,可以利用可視化技術為用戶提供在線即時信息分析。
3圖書館個性化服務中數據挖掘技術的應用
圖書館個性化服務數據挖掘技術的應用流程如下:建立讀者數據倉庫——數據收集——挖掘算法的選擇——挖掘結果的顯示——對結果的評價。
3.1建立讀者數據倉庫
數據挖掘過程中,在確定了挖掘目標后,即開始進行數據準備,從大量數據中選擇一個與需挖掘目標相關的樣板數據子集。此時需要建立一個數據倉庫,其主要作用是將所有挖掘目標所需的數據保存其中,如果未建立數據倉庫直接進行數據挖掘,可能會導致挖掘失敗,因此數據挖掘的前期工作大部分用于準備數據,因此建立數據倉庫是一個至關重要的準備工作。高校圖書館個性化服務中應用數據挖掘技術,第一步就是建立用戶的興趣庫及圖書館自身的特色資源數據庫。用戶使用圖書館的過程中,必然會產生大量的借閱記錄,訪問圖書館網站會留下訪問記錄,這其中均潛藏了大量有意義的信息。
3.2數據收集
在建立用戶興趣庫及特色資源數據庫后,必須對這兩個數據庫中的數據進行分析、調整,以保證原始數據的質量,從而保證數據挖掘結果的質量。數據收集即數據的分析與調整可以分為數據抽取、數據清洗及數據轉換等3個步驟。其中數據抽取的主要作用是將與挖掘目標相關的數據信息搜索出來;數據清洗則是對數據進行噪聲消除、重復記錄的消除及推導計算缺值數據等。圖書館每天會產生大量的用戶相關的數據,并非所有的數據均對整個挖掘處理過程有正面作用,有些數據可能會對挖掘效果產生負面影響,因此剔除這些無用的數據十分必要。數據轉換的主要作用是精減數據維數,從初始特征中分析出真正有用的特征,通過數據轉換可有效減少數據挖掘時需要考慮的變量數。
3.3選擇算法及建立模型
數據挖掘過程中不同的算法可能會實現同一個任務,但過程卻大相徑庭,因此要根據數據的特點、實際運行系統的要求選擇適用的算法。有些用戶比較傾向于獲取描述型的、容易理解的知識,有些用戶則希望獲取預測型知識,因此要針對不同的用戶選擇對應的算法,之后就要進行數據挖掘模型的建立。通過對用戶分類、聚類及時間序列的分析,將每類用戶的普遍性需求及個性化需求抽象出來,從而建立一系列的關聯規則模型。一個模型完成后不一定可以立刻解決問題,需要對其進行反復驗證,如果可以解決問題證明模型有效;如模型存在缺陷,則要通過反饋對模型進行修改、調整,或者選擇新算法,建立新模型,對不同的模型進行全面考察。
3.4結果解釋與知識表示
在建立數據挖掘模型后,可利用建立挖掘模型時所用的算法規則進行運算,即可產生數據挖掘結果,圖書館只需對挖掘結果進行可視化、可理解化處理即可。要將抽象的數據解釋成易讀、易懂的結果,圖書館決策者及管理者即可根據可視化的挖掘結果進行決策。比如圖書館新引進了一批考古專業的學術論文,由數據挖掘模型分析結果可知,該批論文的查閱者90%均為考古專業的老師與學生,其他專業的師生查閱率不到10%,根據這一結果,即可將論文信息傳遞給考古專業的相關用戶,以提高信息推送的針對性。
3.5結果的驗證、應用及評價
產生挖掘結果后需要進一步實踐,以驗證結果的有效性與可用性,及對模型的實用性進行評價,并且挖掘結果還具備預測未來數據的功能。上一步的結果解釋經過實踐后,可對應用過程進行跟蹤了解,獲得用戶的反饋信息,對結果的實用性進行驗證。需要注意一點,即一個數據挖掘的模型與已有數據完全相符比較困難,且并非所有的環境、每個時間節點均適用于同一個數據挖掘模型,因此要對挖掘結果做出評價,如經過用戶的反饋,數據挖掘出來的結果可以解決問題,實現了最初的挖掘目標,滿足了用戶需求,則可判定該模型是合理的。挖掘結果可以滿足用戶的要求,用戶就會做出滿意的反饋,將這一反饋信息提供給決策者即可做下一步的實施,完成該階段后,圖書館就基本上實現了以用戶為中心的個性化服務的數據挖掘過程。不過某些情況下模型的評價結果可能不盡如人意,即數據挖掘的結果無法滿足用戶的要求,這種情況就要由系統進行重新處理,重復上述步驟,重新抽取數據、選擇另外一種數據轉換方法、設定新的數據挖掘參數值、選擇另外的挖掘算法等。由此可見,數據挖掘的過程是一個不斷反饋的過程,體現出反復性的特點。
4結語
數據挖掘技術論文范文6
論文摘要:隨著數據庫技術和人工智能技術的不斷進步,數據挖掘技術逐步發展起來,作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數理統計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數據中來發現和挖掘一些隱含的有價值的知識,從大型的數據庫數據中挖掘一些人們比較感興趣的知識,本文主要講了數據挖掘技術的概念、數據挖掘技術在保護設備故障信息中的實現方法以及數據挖掘技術保護設備故障信息管理的基本功能等問題。
數據挖掘技術作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數理統計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數據中來發現和挖掘一些隱含的有價值的知識,也就是從大型的數據庫數據中挖掘一些人們比較感興趣的知識,這些被提取的知識通常會表現為模式、規律、規則和概念,將數據挖掘的所有對象定義成數據庫或者是文件系統以及其他的一些組織在一起的數據集合,數據挖掘技術也是現在智能理論系統的重要研究內容,已經開始被應用于行政管理、醫學、金融、商業、工業等不同的領域當中,在保護設備故障信息管理方面發揮出了積極的作用。
一、數據挖掘技術的概念
隨著數據庫技術和人工智能技術的不斷進步,數據挖掘技術逐步發展起來,主要是指從大量的數據中發現和挖掘一些隱含的有價值的有用信息和知識,這些被提取的知識通常會表現為模式、規律、規則和概念,將數據挖掘的所有對象定義成數據庫或者是文件系統以及其他的一些組織在一起的數據集合,當前數據挖掘技術已經逐漸被應用于了醫藥業、保險業、制造業、電信業、銀行業、市場營銷等不同的領域,隨著計算技術、網絡技術以及信息技術的不斷進步,在故障診斷過程中所采集到的數據可以被廣泛地存儲在不同的數據庫當中,如果依然采用傳統的數據處理方法來對這些海量的信息數據進行分析處理,不僅會浪費大量的實踐而且也很難挖掘到有效的信息數據,同時,盡管智能診斷以及專家系統等方式在故障的診斷過程中已經被得到了廣泛的應用,但是這些方法卻仍然存在著很多推理困難、知識瓶頸等一些尚未完全被解決的問題,采用數據挖掘技術就可以比較有效地來解決這些難題,在故障診斷的過程中發揮其獨特的優勢。從不同的角度進行分析,數據挖掘技術可以分為不同的方法,就目前的發展現狀來看,常用的數據挖掘技術方法主要有遺傳算法、粗集方法、神經網絡方法以及決策樹方法等。
二、數據挖掘技術在保護設備故障信息中的實現方法
1.基本原理。在設備出現故障時采用數據挖掘技術對設備進行一系列的故障診斷,也就是說根據這一設備的運行記錄,對其運行的趨勢進行預測,并對其可能存在的運行狀態進行分類,故障診斷的實質就是一種模式識別方式,對機器設備的故障進行診斷的過程也就是該模式匹配和獲取的過程。
2.對故障診斷的數據挖掘方法建模。針對機械故障的診斷來說,首先就應當獲取一些關于本機組的一些運行參數,既要包括機器在正常運行以及平穩工作時的信息數據,也應當包括機器在出現故障時的一些信息數據,在現場的監控系統中往往就會存在著相應的正常工作狀態下以及出現故障時的不同運行參數,而數據挖掘的任務就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內在規律,并且從中提取各自故障的不同特征,在對故障的模式進行劃分時,我們通??梢越柚怕式y計的方式,在對故障模式進行識別時可以采用較為成熟的關聯規則理論,實現變量之間的關聯關系,并最終得到分類所需要用到的一些規則,從而最終達到分類的目的,依據這些規則,就可以對一些新來的數據進行判斷,而且可以準確地對故障進行分類,找出故障所產生的原因和解決故障的正確方法。
三、數據挖掘技術保護設備故障信息管理的基本功能
1.數據傳輸功能。數據挖掘技術保護設備故障信息管理與分析系統的主要數據來源就是故障信息的分站系統,而分站系統中的數據是各個子站的一個數據匯總,而保護設備故障信息管理與分析系統所采用的獲取數據的主要方式就是一些專門的通信程序構建起系統與分站之間的聯系,將分站上的一些匯總數據傳輸到故障信息系統的數據庫中,分析系統所具有的數據傳輸功能,在進行數據的處理時又能做到不影響原先分站數據庫的正常運行,并且具備抗干擾能力強、計算效率高的優點。
2.數據的分析功能。系統在正常運行時,會從故障信息子站或者是分站采集相關的數據并且對這些采集到的數據進行分析整理,最終得到有用的數據信息,利用數據挖掘技術對龐大的故障數據進行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對信息進行有效地存儲和分類。另外,數據挖掘技術還具有信息查詢的功能,可以進行不同條件下的查詢,例如按時間段、報告類型、設備型號以及單位等進行查詢,實現查詢后的備份轉存等,根據故障信息系統所提供高的數據信息以及本系統庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產繼電保護動作的分析報告,主要包括對故障過程的簡述、故障切除情況以及保護動作情況等,可以便于繼電保護人員直觀的對保護裝置的動作情況進行分析。
四、結語
隨著企業自動化程度的不斷提高以及數據庫技術的迅速發展,很多企業在一些重要的設備方面都安裝了監測系統,對設備運行過程中的一些重要參數和數據進行采集,采用數據挖掘技術可以有效地解決設備故障診斷中的一些知識獲取瓶頸,將數據挖掘系統充分應用到監控系統中,有效解決故障診斷中的一些困難,事實證明,將數據挖掘技術應用到故障診斷中是非常有效的,也是值得研究和學習的新型技術手段。
參考文獻
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數據挖掘技術的保護設備故障信息管理與分析系統[J].電力自動化設備,2011,9
[2]李建業,劉志遠,蔡乾,趙洪波.基于Web的故障信息系統[J].電力信息化,2007,S1