數據挖掘技術分析論文范例6篇

前言:中文期刊網精心挑選了數據挖掘技術分析論文范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。

數據挖掘技術分析論文

數據挖掘技術分析論文范文1

關鍵詞:醫學院校;目標驅動;課程設計;畢業論文

中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2012)12-0218-02

一、背景

“數據倉庫與數據挖掘”是國內外高等院校一門重要的課程,是國家基礎教育較為重視的一門學科,受到不同專業學生的喜愛。其教學目標是提高學生的數據分析水平和能力,除了教授學生數據分析的常見方法之外,還將引導學生如何對實際的問題進行建模,如何對模型進行簡化和求解。利用實例教學等方法,可以很好地將數據挖掘中的抽象概念、模型、公式等闡述清楚,讓學生易于理解和接受。近年來,數據挖掘技術在醫學領域中的應用越來越廣泛。在疾病診斷、治療、器官移植、基因研究、圖像分析、康復、藥物開發、科學研究等方面都獲得了可喜的成果。運用各種數據挖掘技術了解各種疾病之間的相互關系、各種疾病的發展規律,總結各種治療方案的治療效果,以及對疾病的診斷、治療和醫學研究都是非常有價值的。因此,我們學院也把這門課程作為計算機專業及信息管理與信息系統專業的必修課。把計算機與醫學結合,使得學生的培養方案全面包括了計算機與醫學的知識點。由于該課程原本屬于研究生階段開設的專業課程,教材也大多側重于介紹體系結構、算法原理、效率分析與改進等理論知識,其中所涉及的內容大多比較深,許多知識都超出了本科生的接受范圍,此外,教材對相關理論在實際應用方面的說明也比較少,不利于安排實驗教學。因此要實現“數據倉庫與數據挖掘”課程的教學目標,必須在理論教學和實驗教學環節綜合考慮學時多少、教學條件以及學生的接受情況等因素,靈活地加以選擇安排。

二、存在的問題

主要包括以下幾方面:①課堂上以教師講、學生聽的教學形式為主,學生學習處于被動狀態,他們的創造性因此被嚴重扼殺;②教師對專業課程體系和學生的知識體系不夠重視,對課程體系的講解不到位,造成學生在學習時課程之間聯系不上,知識銜接不好,對知識的運用和融會貫通比較差;③實驗與理論脫節。“數據倉庫與數據挖掘”課程理論講授的算法與實驗軟件中的算法有很大差距,使得學生難以理解。比如對于理論上講授的關聯規則算法,實驗中使用SQL SERVER 2005中的商務智能工具做實驗,學生發現有很多參數與理論上講授的有很大不同;④醫學院校的學生對純粹計算機理論知識接受困難。由于該門課程是交叉學科,涉及計算機、數學、統計學等知識,如果學生的其他學科學得不好,就會對該課程的學習產生障礙;⑤教師講授沒有把理論課程結合到實際應用中。有很多學生不知道學習這門課的意義,老師沒有很好引導學生,激活他們的學習熱情。

三、目標驅動的教學框架

對于以上問題,本文提出了一個新的教學體系,設計了一套基于目標驅動的教學框架,把教師與學生緊密聯系起來,從教學大綱的設置,教材的選擇,理論教學,實驗教學,課程設計及畢業論文,全面引導學生從初步了解到深入學習的過程。對于我們學校的實際情況,有兩個專業的學生要學習這門課程。一個是計算機科學與技術專業,一個是信息管理與信息系統專業。對于兩個不同的專業,我們設置不同的教學大綱。比如對于計算機專業的學生,數據倉庫和數據挖掘教學總時數為72學時,其中理論為54學時,實驗為36學時。

1.理論教學。對于信息管理與信息系統專業的學生,我們可以設置如下的教學計劃,可分為三個主要部分。我們教材選擇韓家煒的《數據挖掘概念與技術》,第一部分:第一至四章為數據挖掘的基礎知識,包括數據倉庫和數據挖掘的基本概念和相關知識介紹;第二部分:第五、六章介紹了數據挖掘的算法和工具;第三部分:第七章是數據挖掘的聚類分析的實際應用。本課程是信息管理與信息系統專業本科生專業必修課。通過該課程的學習,要求學生掌握數據倉庫和數據挖掘的基本概念,了解基本方法和應用背景。掌握數據倉庫的設計和建立,掌握數據挖掘的主要步驟和實現方法,數據挖掘的常用算法,實現數據挖掘的具體操作。理論學時的安排,第一章緒論(6學時);第二章數據倉庫(4學時);第三章數據預處理(8學時);第四章數據挖掘發現知識的類型(8學時);第五章數據挖掘中常用算法(12學時);第六章數據挖掘的工具及其應用(8學時);第七章數據挖掘應用實例(8學時)。

2.實驗教學。本課程配合理論教學,通過系統的實踐教學鍛煉,著重培養學生的獨立分析問題和解決問題的能力,熟練掌握數據倉庫的設計和建立以及各類數據挖掘方法,使學生具有一定的數據分析和挖掘能力,能在認識基礎上,提出有效的數據挖掘方法,依據實際例子,寫出解決方案。學生應在實驗課前明確實驗的目的和要求,然后針對相關問題寫出解決方案。實驗時對實際方案的運行結果應能進行分析并提出改進方法,最終寫出實驗報告。通過實驗教學應達到以下基本要求:①理解數據倉庫的工作機理及其構建過程;②掌握典型的數據倉庫系統及其開發工具的使用;③理解數據挖掘技術的工作原理與流程;④掌握典型數據挖掘工具的使用;⑤掌握幾種典型的數據挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解決實際問題。實驗成績包括:實驗教學過程成績、實驗報告成績,各占50%。實驗過程表現成績包括:學習態度是否認真、實驗操作是否正確規范、基本技能掌握程度是否具有創新意識等方面。實驗報告成績包括:實驗報告格式是否正確、原理是否論述清楚、實驗結果分析討論是否符合邏輯,報告字跡是否清楚等方面。

3.課程設計。理論課和實驗課接近結束時,我們把最后三周作為本門課程的課程設計。課程設計的目的是讓學生進一步深刻理解所學知識。由于本門課程很多算法不容易理解,如何讓學生把所學知識結合到醫學應用中是課程設計的關鍵。比如我們對信息管理與信息系統專業的學生課程設計,要求學生每人選擇一個老師給定的題目,課程設計有詳細的要求,比如題目“數據挖掘在醫學診斷中的應用”要求學生能把本門課程相關的算法結合使用,最后給出詳細的分析。通過課程設計,我們發現,學生對本門課程更有興趣。

4.畢業論文。我們把課程一般開設在大三的下學期,也就是說學生學完這門課程后,就做了該門課的課程設計,使得學生對數據挖掘相關知識有了比較深刻的認識。這樣,我們可以引導學生畢業論文的選擇。畢業論文畢竟是反映學生大學四年所學知識,也對他們將來就業起到提前培訓的作用。把理論結合實踐,老師對學生的引導也十分重要。

我們根據醫學院校的特征,提出了一套目標驅動的教學理念,從學生認識這門課程到學生理論課的學習,實驗課的學習,課程設計及畢業論文的完成,在老師的指導下,使用我們的考核體系,可提高學生對所學課程的興趣。

參考文獻:

數據挖掘技術分析論文范文2

>> 基于本體的網絡輿情觀點挖掘方法研究 基于熱點文件下載的網絡輿情信息挖掘方法研究 基于網頁文本獲取的高校網絡輿情監控 基于OAG循環的網絡輿情管理模型研究 基于大規模文本數據情感挖掘的企業輿情研究 基于文本挖掘的網絡媒體報道研究 基于模糊神經網絡的Web文本挖掘系統 基于PDCA循環的預算管理 基于PDCA循環的績效考評 基于 PDCA 循環方法的瀝青路面質量動態管理的研究 基于數據挖掘的網絡輿情預警決策支持系統 基于數據挖掘技術的網絡輿情智能監測與引導平臺設計研究 基于Web挖掘的突發事件網絡輿情預警研究 基于Web數據挖掘的網絡輿情分析技術研究 基于Web挖掘的突發事件網絡輿情預警策略探討 基于數據挖掘技術在網絡輿情預測中的應用 基于數據挖掘的高校網絡輿情分析系統設計與實現 基于數據挖掘的輿情觀點挖掘研究 基于蛙鳴博弈的網絡輿情與政府監管的模型淺析 基于PDCA循環的績效管理體系的構建 常見問題解答 當前所在位置:.

[2]張玉亮.突發事件網絡輿情的生成原因與導控策略――基于網絡輿情主體心理的分析視閾[J].情報雜志,2012,31(4):54-57.

[3]許鑫,章成志,李雯靜.國內網絡輿情研究的回顧與展望[J].情報理論與實踐,2009,32(3):115-120.

[4]Hua Zhao,Qingtian Zeng.Micro-blog Hot Event Detection Based on Dynamic Event Model.Lecture Notes in Artificial Intelligence 8041,2013:161-172.

[5]鄭軍.網絡輿情監控的熱點發現算法研究[D].哈爾濱哈爾濱工程大學,2007.

[6]陳耘可,李博,鄭天翔.PDCA循環在煤炭企業質量標準化建設中的研究與應用[J].煤炭經濟研究,2013,33(2):77-79.

[7]辛敏.PDCA理論在護理質量管理中的應用研究[D].碩士學位論文:山西醫科大學,2010.

數據挖掘技術分析論文范文3

【關鍵詞】大數據 生物信息 知識提取 數據挖掘

1 數據挖掘的功能

數據挖掘是從大量的數據中四棟搜索隱藏于其中的具有特殊關系性的信息過程。它是數據庫知識發現KDD中的一個步驟。知識發現KDD過程由以下3個階段組成:數據準備、數據挖掘、結果表示和解釋。數據挖掘跟許多學科都交叉關聯,包括數據庫技術、統計學、機器學習、人工智能、云計算和可視化等。

數據挖掘的實際應用功能可分為三大類和六分項:分類和聚類屬于分類去隔類;回歸和時間序列屬于推算預測類;關聯和序列則屬于序列規則類。分類常被用來根據歷史經驗已經分好的數據來研究它們的特征,然后再根據這些特征對其他未經分類或是新的數據做預測。聚類是將數據分群,其目的是找出群間的差異來,同時找出群內成員間相似性?;貧w是利用一系列的現有數值來預測一個數值的可能值。基于時間序列的預測與回歸功能類似,只是它是用現有的數值來預測未來的數值。關聯是要找出在某一事件與數據中會同時出現的東西。

2 降維

從降維的角度講,整個數據挖掘的過程就是一個降維的過程。在這個過程中,需要對數據刪除線性關系比較強的特征數據,再用一些算法,如信號分析算法、傅里葉轉換、離散小波轉換等算法,從數據中提取特征,再對數據做主成分析處理,得到最后的特征,再用數據挖掘算法來將這些特征轉化為人類可讀取的數據或信息。

3 分布式數據挖掘解決方案

隨著分布式計算技術、云計算技術、hadoop生態圈和非結構化數據庫等技術的發展,以及對大數據挖掘的需求,出現了一批分布式數據挖掘,比較典型的有Apache推出的基于Hadoop的Mahout和加利福尼亞大學伯克利分校AMP實驗室推出的基于Spark的MLBase。在Mahout中主要實現3種類型的數據挖掘算法:分類、聚類(集群)和協同過濾。相比Mahout而言,MLbase更好的支持迭代計算,它把數據拆分成若干份,對每一份使用不同的算法和參數運算出結果,看哪一種搭配方式得到的結果最優。

4 大數據下的具體應用實例――生物信息學的應用

生物信息學(Bioinformatics)是生命科學、計算機科學、信息科學和數學等學科交匯融合形成的一門交叉學科。近年來隨著先進儀器裝備與信息技術等越來越廣泛和深入的整合到生物技術中來,生物醫學研究中越來越頻繁的涉及到大數據存儲和分析等信息技術。在使用計算機協助生物信息時,處理僅有計算機輔助的方式存儲數據很顯然是不夠的,生物信息學研究的目的是運用計算機強大的計算能力來加速生物數據的分析,理解數據中所包含的生物學意義。當前生物信息學研究的熱點有:

(1)由以序列分析為代表的組成分析轉向功能分析。

(2)由對單個生物分子的研究轉向基因調控忘了等動態信息的研究。

(3)完整基因組數據分析。

(4)綜合分析。

生物信息數據具有如下特點:高通量與大數據量;種類繁多,形式多樣;異構性;網絡性與動態性;高維;序列數據等特點[5]。針對這樣的生物數據信息,要結合當前的大數據分析方法進行分析和理解。當前數據挖掘實現對生物信息分析的支持主要有:生物數據的語義綜合,數據集成;開發生物信息數據挖掘工具;序列的相似性查找和比較;聚類分析;關聯分析,生物文獻挖掘等方面。

參考文獻

[1]許凡.大數據時代的數據挖掘技術探討[J].電子技術與軟件工程,2015(08).

[2]洪松林.數據挖掘技術與工程實踐[M].北京:機械工業出版社,2014(11).

[3]李榮.生物信息數據挖掘若干關鍵問題研究與應用[D].復旦大學(博士論文),2004(11).

[4]宋杰.生物信息數據挖掘中的若干方法及其應用研究[D].大連理工大學(博士論文),2005(04).

[5]孫勤紅.基于梯度采樣局部收斂的生物信息大數據挖掘[J].科技通報,2015(10).

作者簡介

孫勤紅(1979-),女,山東省人?,F為三江學院計算機科學與工程學院講師。研究方向為人工智能、數據挖掘。

沈鳳仙(1984-),女,江蘇省人。現供職于三江學院計算機科學與工程學院。研究方向為數據挖掘。

數據挖掘技術分析論文范文4

有些具有專業技術性的畢業論文寫作,的確具有困難性,對于一些工程學科的學生而言,該畢業論文應當是結合設計進行的。

例如,計算機應用或者軟件工程學科,就需要進行相關的系統設計,并且完成、能夠成功運行才能夠符合他們的畢業論文的標準。這樣的畢業論文由于要基于真正的系統實現,意味著從一開始的系統框架的搭建以及數據的鏈接都要非常明了如何實現,才能夠不斷推動整體設計的進行。所以有很多工科學生因為無法獨立完成這樣的論文以及畢業設計內容,而嘗試用多種方式進行轉移。便會去尋找一些愿意有償代做系統設計,且愿意提供畢業(設計)論文的人,這樣做既可以幫助自己完成學業拿到相應的學分得以畢業,還能夠學習更多的其他知識豐富人生。

但是在進行該類設計很多知識的工科畢業設計工作中,例如涉及數學小論文的知識內容、通信類相關技術論文等等,就需寫作人員在開始構思整個系統的實現之前,進行必要的技術掌握,才能避免在實際研發過程中出現問題及錯誤。例如,在進行數據挖掘技術相關的系統設計或者模型分析的論文中,在材料準備階段,就應當結合數據挖掘原理及技術應用的相關理論內容,探討該類已經在期刊中所提到的相應的預警規則,針對網絡安全方面的安全預警模型進行多維度的介紹?!咎峁?/p>

數據挖掘技術分析論文范文5

關鍵詞: 科研成果管理; 決策支持; 數據倉庫; 聯機分析處理; 數據挖掘

中圖分類號: TN911?34; TM417 文獻標識碼: A 文章編號: 1004?373X(2016)07?0120?04

Abstract: The traditional scientific research achievement management uses the database to store the result data. The multiple data types of the scientific research achievement and unified storage way become the obstacle to obtain the valid result data in decision?making analysis, simultaneously the traditional scientific research achievement system can only extract the result information. In view of the above problems, the scientific research achievement management and decision support system based on data warehouse is proposed, in which the data warehouse, on?line analysis processing (OLAP) and association rule mining algorithm are integrated. The system supports that the management personnel can discover the potential achievement, evaluate the scientific research projects, and reasonably allocate the human resources. The association rules of the data were mined in college paper database. It is found that paper quantity and time dimension have some relationship, which conforms with the practical training situation. The effectiveness of using Apriori in this system was verified.

Keywords: scientific research achievement management; decision support; data warehouse; OLAP; data mining

0 引 言

傳統的科研項目管理過程費時費力,且浪費了大量的人力資源??蒲羞^程中產生的有價值的信息,也被這樣死板的管理方法給淹沒了,人們不能也不愿意從紙質的資料文獻中去發現價值??蒲泄芾矸绞叫实蜁乐赜绊懙娇蒲许椖块_發的進度。隨著科學技術的快速發展,科研單位雖然對傳統方法進行了改進,開始建立管理系統,但是還遠遠不能滿足要求[1]。

近年來,國內研究機構也開始重視科研項目管理方面的研究,目的多是為了提高項目管理的水平,對優秀的科研成果進行公示,共同分享研究信息[2]。科研成果管理決策支持系統的目的是為了解決傳統科研管理系統對成果資源的浪費情況,加強對科研成果信息中潛在知識的利用,提高科研項目管理中對成果管理的有效性,利用數據挖掘充分發揮成果數據的潛力,為管理層提供決策支持依據[3]。

1 SRAM?DSS的需求分析

1.1 功能需求

科研成果管理決策支持系統主要面向科研項目的成果進行管理,這些成果包括學術論文、著作、期刊、專利等。數據倉庫的應用可以對成果數據采取智能的分析,將成果數據進行歸類和按照成果數據的分析要求進行整理,從中發現成果與項目、人員之間的聯系和潛在的規律,幫助決策者調整科研定位,做出科學的決策。

基本管理功能要求用戶可以利用本系統完成對成果的基本管理,包括成果提交、 審核、審批等流程的規范管理,還有對保密項目成果的加密處理,不僅要系統能夠保存使用過程中存入的成果,還可以導入外部數據庫的成果數據,為數據挖掘功能提供數據基礎,對數據的集成程度要求很高,因此需要利用數據倉庫存放成果數據[4]。

1.2 用戶需求

系統的主要角色包括科研員,科研管理員,決策員,數據管理員,系統管理員。

2 總體設計

2.1 科研成果數據倉庫的設計

對于科研成果數據倉庫從概念模型、邏輯模型、物理模型三方面進行建模。需要根據不同的主題把數據倉庫中的數據劃分好具體的維度[5]。以成果主題為例,成果數據包括成果名稱,成果類型,成果來源,成果性質,成果作者,成果審核結果,所屬項目,成果完成時間,成果數量等,以此作為分析的依據。因為數據倉庫是多維的,OLAP要在多維數據集之上才能進行,成果數據要滿足分析的要求可以根據維層次繼續劃分,成果類型包括論文,專利,專著,軟件成果等;成果性質包括科技,醫藥,航天等[6]。

(1) 邏輯模型

系統主要用戶利用成果信息進行分析,以此來評估科研項目,并為決策者提供決策支持。分析成果事實表中的數據信息有用戶維、成果維、時間維。在OLAP分析時可以按照不同的層次進行分析,如圖2所示。

(2) 物理模型

在設計數據倉庫的物理模型時,定義成果數據的數據標準是需要注意的重點,目的是使成果數據在數據倉庫中都有一個統一的格式,定義表示成果的相關屬性來描述成果邏輯關系,得到對成果數據倉庫的特征進行完整描述。系統采用SQLServer2008建立數據庫[7]。利用AnalysisServices獲得后臺數據庫里面的信息,這樣建立的數據倉庫可以滿足需求。

2.2 SRAM?DSS功能的設計

為實現科研成果管理科學,全方位管理,設計成果管理,決策支持,用戶管理,系統管理四個模塊的內容,并且用戶在登陸系統之前要進行身份驗證。

(1) 成果管理模塊

成果管理主要包括成果查詢,添加成果,申報成果,成果審核,成果加密以及成果導出等功能,系統采用分組加密方式進行加密。

(2) 決策支持模塊

數據倉庫是決策支持功能的數據基礎,有了數據就需要更多的操作來完成決策支持。對于系統中不同的數據來源,包括外部導入數據利用ETL過程,實現規范化。然后將符合標準的數據裝入數據倉庫中。然后針對用戶的要求進行聯機分析處理和關聯規則挖掘。

(3) 用戶管理模塊

用戶在Web地址欄輸入URL進入登錄,用戶名文本框內輸入用戶姓名,在密碼框內輸入密碼。系統認證平臺會判斷用戶身份,若是新用戶要完成注冊才能登陸,注冊時要填寫用戶真實的信息,才能獲得登陸權利,若用戶輸入的用戶信息正確,登錄成功。用戶可以在用戶管理中進行創建,添加到用戶數據表中,也能獲得系統的使用權限[8]。

(4) 系統管理模塊

系統管理模塊主要是針對系統的權限分配,系統維護以及一些常用工具的設計。不同的用戶進行的操作不同,能夠看到的信息不同,就要求系統控制權限,建立權限分配制度,有利于對用戶權限進行合理的分配也保證了系統的安全運行。系統維護是管理系統中必不可少的關鍵功能,包括對系統用戶數據,成果信息數據等的備份工作,實現數據庫的安全管理,管理相應功能結構規范性,為系統的更新與升級提供支持。

3 系統實現

3.1 基于數據倉庫的OLAP模型

聯機分析處理技術能夠高效的分析數據,發現事物發展規律,捕獲異常和細節。OLAP支持數據分析,而數據倉庫里的數據是經過ETL處理后集成到一起,保證了分析在一個快速的時間內給予響應。所以本階段就是基于數據倉庫建立OLAP模型,從而得到更為可靠的數據立方體,既降低了刷新代價又提高了響應速度。

OLAP包括了維和度量,在前面建立數據倉庫時已經完成。利用SQL Server中的Analysis Services項目模板建立多維數據集,定義數據源以及建立事實表與維表之間的關系。

OLAP模型對數據倉庫中的數據利用MDX進行多維查找,可以有效分析多維數據集。MDX是OLAP的查詢語句,語法與結構化查詢語言SQL很類似。在成果管理系統中,通過MDX語言把科研員和決策者需要的成果數據查詢出來,展現在前臺界面里。

利用OLAP模型進行分析,決策者可以依據分析要求,選擇更多角度去分析數據,能得到的分析也更多,如下:

(1) 由科研成果的類型分布來看整體項目的側重重點,以及在成果突出領域的發展機會和潛力;

(2) 由科研成果參與者和第一申請單位作者與項目之間的關系,可以看到參與者職稱水平,技術支持水平對成果完成數量與質量的關系,并不是參與者越多的成果越完善,可以以此作為合理分配人才資源參與項目開發的依據,也可以以此評估參與人員的水平,作為考核參考;

(3) 以科研成果在一定時間內的增長,作為項目進度和發展的一個參考標準。也可以看到成果的趨勢和項目完成單位的能力和業務的提升;

(4) 可以利用數據庫,對以往成果信息進行分析,由于在傳統的數據庫中不具備OLAP的功能。

3.2 基于數據倉庫的關聯規則挖掘

基于數據倉庫的關聯規則挖掘,Apriori算法的核心是提高關聯規則產生的效率。利用Apriori算法對科研成果數據進行分析的時候要明確成果的特征,根據成果特征描述來看,適合利用Apriori算法進行關聯規則的挖掘??蒲谐晒麛祿奶卣魅缦拢撼晒麛祿前凑枕椖窟M程時間節點進行錄入的,存儲在成果庫中;成果評估方式不統一,對成果的評估應采取統一的標準;科研成果的數據存儲在數據庫中,每一個成果都對應一條記錄,每一個記錄的屬性都一樣。

以本校論文庫的數據為實驗數據,在論文管理系統中可導出相關TXT文檔數據,利用系統成果導入功能,添加到系統中,對數據進行統一的處理。選取2012―2015年間,數學、物理、計算機、兵器學科的論文成果數據。論文所屬學科層次劃分到一級子學科,時間層次按照年學年,繼續劃分下去。

(1) 數據預處理

數據經過清洗,轉換,去掉無效的數據,采用統一的數據編碼規則,用離散字母代替時間層次,同時將學科按照統一的編碼規則,重新編碼。進一步按照論文數量劃分等級,五份為一級,等級越高代表論文數量越多。

(2) 算法實現

設置最小支持度 min_sup=4,支持度=40%,置信度=80%,通過Apriori算法計算出的關聯規則信任度見表2。

(3) 結果分析

采用的實驗數據來自于論文數據庫,由于學校畢業論文按照培養計劃有周期性,學術性碩士的培養周期為2.5學年,所以碩士畢業多集中于第一學年3月份左右,工程碩士的培養周期為第二學年9月份,所以對數據的分析結果多集中于上半年。

規則1表示,在2012年第一學年在5篇以內且2013年第一學年畢業論文在5篇以內的學科專業,則在2013年第二學年在5篇左右的支持度為40%,信任度為80%。

規則2表示,在2013年第一學年在5篇以內且2013年第二學年畢業論文在5篇以內的學科專業,則在2012年第一學年在5篇左右的支持度為40%,信任度為80%。

規則3表示,在2012年第一學年在5篇以內且2013年第一學年畢業論文在5篇以內的學科專業,則在2014年第二學年在5篇左右的支持度為40%,信任度為80%。

3.3 關聯規則說明

由于系統中的測試數據多來自網絡和本校的數據庫,對關聯規則的挖掘也許存在偏差,但是整體提供的關聯規則數據信息還是符合實際的。簡要介紹以下幾點:

(1) 選取成果完成人的職稱級別和所提交的成果類型與數量作為關聯規則挖掘的維度,發現成果完成人職稱較低的數量較多,存在關聯規則;

(2) 選取固定時間內論文數量和專利數量進行關聯規則挖掘,發現時間維度與論文數量多,關聯較高;

(3) 對不同高校的成果數量進行關聯分析,985與211高校的科研論文,期刊發表數量多具有關聯規則。

4 界面展示

用戶登陸界面:輸入正確的用戶名和密碼登陸系統,用戶可以選擇“記住我”,在下次進入系統時可以免登陸,若是新用戶第一次登陸系統,需要注冊,完成注冊后即獲得登陸權限。

登陸后看到的首頁,左側導航欄顯示了主要的功能,成果展示系統中的成果數量以及系統中的成果列表。

5 結 論

本文在調研了解科研成果管理的決策分析需求的基礎上,認真研究了數據倉庫的有關技術知識,聯機分析處理技術的應用以及數據挖掘關聯規則算法的原理。提出了基于數據倉庫的科研成果管理決策支持系統。

開發系統應用的主要技術包括OLAP和Apriori算法,將OLAP和Apriori算法結合運用于實際的系統開發中,關聯規則計算在OLAP物化了的多維數據集基礎上進行,減少了重新計算的時間,使決策分析更加智能化,使數據挖掘的步驟更具目標化,全面提升輔助決策在科研成果管理中的實用價值。

參考文獻

[1] 賀建英.大數據下MongoDB數據庫檔案文檔存儲去重研究[J].現代電子技術,2015,38(16):51?55.

[2] SUN Hongmei, JIA Ruisheng. Research on the analysis and design of general test database management system [J]. Procedia engineering, 2012, 29: 489?493.

[3] ESLAMIPOOR R, SEPEHRIAR A. Firm relocation as a potential solution for environment improvement using a SWOT?AHP hybrid method [J]. Process safety and environmental protection, 2014, 92(3): 269?276.

[4] KLAUS S R, NEUBAUER J, GOETZ?NEUNHOEFFER F. Hydration kinetics of CA2 and CA?investigations performed on a synthetic calcium aluminate cement [J]. Cement and concrete research, 2013, 43(1): 62?69.

[5] PENG G Y. Marketing decision and decision support system design based on Web [J]. Advanced materials research, 2013, 850: 1048?1051.

[6] 趙維寧.運用數據倉庫技術構建電信企業經營分析系統[J].中文信息,2014(8):22?26.

數據挖掘技術分析論文范文6

南京大學的周志華教授曾專門撰文論述了數據挖掘和機器學習以及數據庫之間的關系,他提出:數據挖掘可以視為機器學習和數據庫的交叉,主要利用機器學習界提供的技術來分析海量數據,利用數據庫界提供的技術來管理海量數據。

組成數據挖掘的三大支柱包括統計學、機器學習和數據庫領域內的研究成果,其他還包含了可視化、信息科學等內容。不同的教材從不同的方面結合其基礎學科知識講述數據挖掘技術,不同專業和技術背景的學生或數據挖掘研究人員和應用人員可以根據自身的專業方向選擇不同的數據挖掘切入點。下面簡單歸納目前比較主流的數據挖掘和機器學習方面的教材。

數據挖掘:概念與技術

原書名:Data Mining:Concepts and techniques

作者:Jiawei Han

本書主要從數據庫的角度(數據管理和數據計算的角度)講解數據挖掘,作者Jiawei Han現任UIUC CS Dept.教授。本書第2版在豐富和全面的第1版基礎上進行了更新和改進,并增添了新的重要課題,例如挖掘流數據、挖掘社會網絡和挖掘空間、多媒體和其他復雜數據。本書對數據挖掘基本概念、算法及其相關技術有比較全面的闡述,是國內大多數高校指定教材,它不要求太高的數學基礎,非常適合數學功底一般的學生使用。

數據挖掘:實用機器學習技術(原書第2版)

原書名:Data Mining: Practical Machine Learning Tools and Techniques

作者:Ian H. Witten, Eibe Frank

本書主要從機器學習的角度,也有稱從數據挖掘的應用實現角度來講解數據挖掘,描述了各種算法、模型及其Java實現,重點是以應用的觀點利用案例來說明數據挖掘的算法模型,對于具體算法的原理介紹不是非常詳細。它對數據挖掘的Java軟件包Weka有比較深的介紹。該書作者都是Weka項目組主要成員。圖靈獎獲得者Jim Gray如此評價:假如你需要對數據進行分析和應用,本書以及相關的Weka工具包是一個絕佳的起步。

數據挖掘原理

原書名:Principles of Data Mining

作者:David J. Hand

很多學科都面臨著一個普遍問題,即如何存儲、訪問異常龐大的數據集,并用模型來描述和理解它們。這些問題使得人們對數據挖掘技術的興趣不斷增強。長期以來,很多相互獨立的不同學科分別致力于數據挖掘的各個方面。本書把信息科學、計算科學和統計學在數據挖掘方面的應用融合在一起,是第一本真正跨學科的教材。主要從統計學的角度來解析數據挖掘以及其與統計的關系。其中如建模、測量、評分函數、模型等術語都是從統計者的角度出發。書中并沒有具體說明KDD與DM之間的關系,比較適于統計系和數學系的學生采用。

機器學習

原書名:Machine Learning

作者:Tom Mitchell

本書是CMU等許多國際知名大學機器學習課程的教材。目前發表的各種機器學習專著或論文基本都會引用這本書的內容。作者Tom Mitchell是CMU的教授,美國人工智能協會的主席,《機器學習》雜志和“國際機器學習”年度會議的創始人,他在ML領域久負盛名。本書也是最經典和采用率最高的機器學習教材。本書需要的數學基礎也很少,但對必要的背景介紹相當豐富,非常適合初學者。

模式分類(原書第2版)

原書名:Pattern classification

亚洲精品一二三区-久久