前言:中文期刊網精心挑選了數據挖掘技術探討論文范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
數據挖掘技術探討論文范文1
討論如何在圖書館個性化推薦中應用網絡數據挖掘,并具體對社會網絡分析的應用進行了深
入分析,提出了具體算法。
網絡數據挖掘又稱Web數據挖掘,是數據挖掘技術在網絡信息處理中的應用,從與網絡相關的資源和行為中抽取感興趣的、有用的模式和隱含信息,是從Web網站的數據中發掘關系和規則。其挖掘對象是大量、異質、分布的Web文檔,可以對數據庫、Web服務器上的日志、讀者信息等數據展開挖掘工作。同時,由于Web在邏輯上是一個由文檔節點和超鏈接構成的圖,因此Web挖掘所得到的模式可能是關于Web內容的,也可能是關于Web結構的,或者是關于用戶行為模式的1。通過網絡數據挖掘對每個用戶的訪問行為、頻度、和內容等進行分析,能提取出每個用戶的特征,給每個用戶個性化的界面,提供個性化的Web信息服務。
本文以中國知網(CNKI)總庫為統計源,以主題“We數據挖掘”、“網絡數據挖掘”搜索到國內近六年的論文數量,從中可以看出相關領域的研究從2007年開始呈逐年上升趨勢,2009年達到峰值后,逐年有所下降。具體數據如表2所示:
根據對這些文章內容的分析,研究網絡數據挖掘算法及其實現的占大多數,國內關于網絡數據挖掘在圖書館的應用研究不多,大多是作為電子商務中數據挖掘研究的一部分。網絡數據挖掘在圖書館中的應用主要表現在以下幾個方面:
(1)圖書推薦系統。這類系統主要通過日志挖掘讀者的借閱習慣,推測讀者的閱讀需求,從而為不同興趣的讀者提供相應的推薦內容。這種個性化推薦系統能夠較好地把握讀者需求,通過聚類和關聯規則為讀者推薦借閱過的相似圖書或可能需要的其他文獻。但它的缺點在于,推薦的相似圖書,讀者已經借閱過,再借閱的幾率不大。因此,這個研究的重點和難點在使用的挖掘算法上2。
(2)網絡學習平臺?,F代圖書館越來越重視讀者的學習需求,從而推出各種學習服務3。這類應用主要是針對網絡學習中的學習資源的挖掘。因為在圖書館提供的虛擬學習平臺中,資源是龐大的,而讀者的精力有限,同時每個人的興趣不同,需要對不同的讀者組織不同的教育資源。而網絡數據挖掘在其中所起的重要作用就是對讀者的借閱和瀏覽行為進行挖掘分析,根據分析結果為讀者匹配學習資源。
(3)文獻檢索系統。網絡數據挖掘技術也常見于文獻檢索系統的應用中,圖書館資源包含大量的文本、期刊、視頻等。讀者常常需要通過檢索才能獲取自己想要的信息,使用網絡數據挖掘也是為讀者提供高效獲取信息的方式。
由以上分析看出,網絡數據挖掘在圖書館中應用的主要目的就是為讀者找到所需資源,滿足讀者的個性化需求。下面我們就針對網絡數據挖掘在圖書館個性化推薦中的應用進行探討。
1、 圖書館個性化推薦常用分析方法
1.1聚類算法
通常說來,許多圖書館的讀者建模方法是基于統計的,即對所有讀者的統計數據(比如基于平均值)進行分析。這樣的后果是對讀者的個性化行為視而不見,影響了讀者專業性和個性化需求,忽略了隱含的讀者信息的價值。而讀者聚類建模,則是把一類讀者聚集起來,分析他們的特性并對這類讀者建模,在建模質量相同或接近的條件下,聚類建模所需的數據量將遠遠低于對單個讀者建模的數據量,因為分類中的每個讀者(知識背景和生活閱歷貢獻具有很大的相似度)都貢獻了其數據。常用聚類算法如表3。
1.2 社會網絡分析
社會網絡分析已經有相當長的一段歷史了,近60年來,相關研究人員做了大量的研究,由Brin和Page等人提出的PageRank算法,以及由Kleinberg說提出來的HITS算法開創了將社會網絡研究應用在Web范疇的先河。這兩種算法都來源于社會網絡分析,都利用了網頁的超鏈接結構并依據網頁的“威望”或者“權威”級別來對網頁進行分級排序。這在搜索引擎中得到了廣泛的運用。圖書館也同樣存在著這樣的社會網絡關系,這種關系主要通過讀者瀏覽和獲取文獻行為體現。這種關系和活動可以用網絡或圖來表示,其中,每一個頂點(結點)用來表示一個讀者,而一條邊的連接用來表示兩個讀者之間的關系。利用網絡圖我們可以研究該網絡的結構特征,以及每個讀者威望性、中心性等屬性。同時從中我們也可以找到各種類型的子圖,即社區。
2、 基于網絡數據挖掘的圖書館個性化推薦分析
2.1基于K-means聚類推薦分析
圖書館讀者聚類可以通過兩種方式進行聚類,建立二維推薦模型,即:查詢聚類和借閱聚類。在此,只要實現查詢信息和借閱信息的高效率、高準確率的自動分類,然后根據讀者興趣模型匹配,就可以完成其推薦過程。自動分類信息可以采用K-均值聚類算法實現,并根據圖書館相關信息結構的特點,對算法本身加以改進。具體流程如圖1。
2.2 基于PageRank社會網絡分析
在圖書館借閱場景下,讀者瀏覽和借閱行為反應了讀者的需求。PageRank算法關鍵在于測度每個對象的隨機訪問概率。我們假定讀者借閱史就是讀者推薦書目單,反應了讀者對于圖書的認可程度。在此,我們可以把訪問概率轉化為讀者推薦書目單的緊密程度,因此,問題轉化為求讀者推薦書目單的緊密程度,然后通過PageRank算法,求出讀者推薦書目單的權威度排名,進而推薦給興趣模型相似的讀者。
我們用dist(j, t)表示兩個讀者推薦書目單關系程度,使用其文本相似度 來度量,進而產生新的PageRank2算法。對于每個讀者推薦書目單,其重要度PR2(i)可定義為:
其中DIS(j,i)定義為:
在實際應用中,由于某些讀者推薦書目單可能與其他讀者推薦書目單 值為0,故將公式2調整為:
其中a為衰減系數,設定為0和1之間,其本質是為了消除孤立讀者,給每個讀者增加一條指向所有其它讀者的鏈接,并且給予每個鏈接一個由參數a控制的轉移概率,在這里我們沿用PageRank中的取值a=0.8570。
3、 結語
本文主要探討了網絡數據挖掘在圖書館中的應用問題,并對于社會網絡分析的應用進行了較為深入的分析,提出了具體算法。網絡數據挖掘廣泛應用于互聯網。隨著數字圖書館的不斷興起,其在圖書館領域的應用將更加廣泛4。但是,圖書館相對封閉的信息環境制約著網絡數據挖掘的應用。相信隨著Web2.0和讀者個性化需求不斷得到重視5,數字圖書館技術的不斷發展,網絡數據挖掘將會發揮更加重要的作用。
參考文獻
[1] 馬費成,王曉光.信息資源管理研究及國際前沿[J].情報學研究進展.武漢大學出版社,2007.
[2] 劉曉忠.數據挖掘技術在圖書館建設中的應用[J].硅谷,2012(6).
[3]夏南強,張紅梅.基于數據挖掘的數字圖書館個性化服務[J].圖書館學研究, 2006, (1):32-34.
數據挖掘技術探討論文范文2
關鍵詞:實驗平臺;教學管理;數據倉庫;數據挖掘
中圖分類號:G642 文獻標志碼:B 文章編號:1674-9324(2013)09-0253-03
一、引言
21世紀是國家全面推進學生素質培養的時期,計算機專業課既具有較強的理論性,又具有較深的實踐性。目前,計算機專業的教學過程中往往理論教育與實際脫節,很多學生通過了專業理論課的考試,卻不能將理論付諸于實踐,學生對課程知識并沒有深刻的理解和消化,對課程理論的實際應用沒有感觀上的體驗。經調查顯示,60%以上的學生認為在校期間的計算機理論課的學習對就業和實際工作幫助不大,這給學生學習計算機理論的積極性帶來了消極的影響,更有很多學生熱衷于參加社會上的計算機培訓機構,放棄在高校的課程學習。因此,在培養學生的理論創新能力的同時,提高學生的動手操作能力,加強學生理論聯系實際的能力是計算機教學十分緊迫和必要的任務。
隨著信息技術和網絡技術的快速發展,在短短幾年內數據倉庫和數據挖掘就已經成為IT信息領域廣泛應用和熱點研究的領域。該領域主要是研究如何從浩如煙海的海量數據中有效地提取并挖掘知識,對其進行自動分析和匯總,是計算機行業中最熱門、最有前景的領域之一[1]。數據倉庫與數據挖掘課程也順應計算機發展的需要,進入到高校計算機教育的專業課課程列表中。
本論文在深入研究了數據倉庫和數據挖掘課程的內容和特點的基礎上,采用B/S(Browser/Server)架構,即瀏覽器/服務器架構,開發了web課程教學實驗平臺。
二、數據倉庫與數據挖掘學科教學現狀
隨著數據倉庫與數據挖掘課程在各大高校成功試教后,近年來各大高校都為計算機專業都設立了數據倉庫和數據挖掘課程,時至今日,其課堂理論教學已經比較成熟。然而,絕大多數學生在經過該課程的學習后,普遍反映雖然基本了解了數據倉庫和數據挖掘相關理論知識,卻缺乏感性認識和實踐應用能力。這主要是因為該課程的實驗教學較難開展,缺乏一個符合以下特點的教學實驗平臺。
市場中通用數據倉庫和數據挖掘軟件昂貴且難以使用,大量的專業術語、專業業務理論、數學知識和挖掘模型讓人無從下手。因此我們需要的僅僅是一個實驗平臺,并非大型企業應用軟件,只要學生能通過它更簡易地完成該課程的實驗環節即可。
1.可視化、易操作。可視化和易操作可以提高學生的學習興趣,讓學生更直觀的參與到教學活動中來,而不是苦惱于如何使用該平成實驗。
2.交互性。一個好的教學平臺不僅是一個可以提供給學生傳授知識的平臺,還應該是一個可以和學生及老師有交互性的平臺,并且使學生和學生有交互性,老師和學生有交互性[2]。
3.教學與實驗相結合。我們需要不僅僅是一個數據倉庫與數據挖掘實驗軟件,而是綜合課程教學和課程實驗的平臺。教學與實驗相結合、理論與實踐并重,這才是計算機專業教育的核心。
4.擁有合理和充足的實驗數據。對于一個實驗平臺來說,數據的缺乏將使得實驗無法進行。尤其是對于數據倉庫與數據挖掘這個特殊的領域,數據不僅要足夠的多而且要合理,否則會嚴重影響實驗結果和教學效果。
三、數據倉庫與數據挖掘學科教學實驗平臺的構建
為適應教育發展需要,秉承深化教學改革的方針,改革數據倉庫和數據挖掘課程原有的普通教學模式,啟動了“數據挖掘課程設計平臺建設”教學改革項目。該平臺依托我校電信學院985平臺的優良硬件環境,由遠程開放實驗平臺服務器和終端PC機組成,其成本低廉、維護方便、部署容易。該實驗平臺服務器直接部署于本校的學院985實驗基地,具有操作穩定性、魯棒性和容錯性。通過該實驗教學平臺,學生對該課程的學習過程將不受場地限制,只要通過網絡就可以登錄該平臺。該平臺主要框架如圖1所示。
1.用戶管理模塊實現了對不同用戶的權限設置、登錄和注冊等功能,超級管理員可以為普通學生用戶分配權限。
2.實驗平臺模塊給學生提供了算法模擬和試驗的平臺,主要分為以下兩個部分。
(1)數據倉庫的維度建模設計模塊。雪花模型設計案例;星型模型設計案例;ETL抽取操作平臺。
(2)數據挖掘算法實驗模塊。數據預處理程序實現算法平臺;Apriori算法實驗平臺;ID3算法實驗平臺;BP算法實驗平臺;K-Mean和K-Medoid算法實驗平臺;C4.5算法和決策樹算法實驗平臺;KNN算法實驗平臺;貝葉斯算法實驗平臺。
維度建模設計平臺和數據挖掘算法實驗平臺模塊是該平臺的核心模塊。
3.實驗課程模塊主要向學生介紹該實驗課程的相關內容、教學大綱和教學任務,也包含數據倉庫環境的具體安裝和配置視頻演示。
4.作業提交模塊更是改變了傳統的提交紙質作業的模式,讓學生將動手完成的實驗和相關作業通過該平臺提交,一個學生一個賬戶,避免了作業抄襲和拷貝。學生提交的作業只要運行正確,按題目要求編程,不論采用何種語言或者何種算法都是可以的,并沒有唯一性的標準答案。當實驗課程考核的時候,學生能夠通過作業提交系統向服務器提交指定課程內容的作業,供教師在線評閱和打分。
5.教學資源下載提供給學生自學的資料,給感興趣的學生提供了進一步學習的捷徑。
6.當有學生對實驗環節和該課程有任何疑問,都可以登錄在線答疑系統,給授課老師留言,這些信息都會以郵件的形式發送到授課老師的收件箱,從而實現即時的答復,讓學生在第一時間接受老師的指導。當有問題重復出現三次以上,系統就會自動識別,將問題和答復展示在FAQ中,提供給更多的學生共享該問題和該問題的解答,避免重復提問,也給還未遇到該問題的學生共享和學習。在線答疑給學生和教師提供了交互、交流和學習的平臺。
7.數據挖掘實驗平臺的在線代碼編譯環境主要采用gcc編譯器,能夠對學生提交的各種代碼進行實時編譯,給用戶的感覺就像是在本地執行一樣。它能夠支持的在線運行編程語言包括java、C和C++等,給學生提供多樣化的語言實現方式,體現了非機械化的計算機應試理念。
四、數據倉庫與數據挖掘學科教學實驗平臺的教學效果
在數據倉庫和數據挖掘課程中使用該教學實驗平臺,具有教育的先進性和優越性。
(一)建設了數據倉庫和數據挖掘課程的實驗教學體系
1.數據倉庫和數據挖掘模型。本平臺可以培養學生自己動手創建多維星型模型、多維雪花模型、緩慢變化維、ETL模型、數據立方體模型及其實例等,還可以增加學生對各類重要挖掘算法的特點和應用場景的理解,讓學生在實驗平臺上體驗基于數據倉庫的主要數據挖掘算法。
2.模型評估。當學生創建完畢自己的數據倉庫和數據挖掘模型后,可以通過調整不同的參數值和更改數據集來檢驗算法的輸出結果,并通過記錄在不同的應用場景下的參數值和結果值得到最優值。
3.優化創建模型和算法的性能。學生通過使用計算機領域中的一些經典優化技術,如創建位圖索引、哈希索引、S-tree索引等來優化模型和算法的性能,并記錄和比較不同優化技術對模型和算法的效率和響應時間的影響。
4.定期對學生所學實驗內容進行測試,根據學生的實驗測試結果對平臺的遠程實驗操作功能進行改進和完善。
(二)部署和實施了基于網絡的數據倉庫和數據挖掘課程遠程實驗教學環境
本項目通過構建基于網絡技術的遠程實驗教學平臺,不僅給學生和教師提供這樣一個教學實驗平臺,而且還實現了實驗教學的網上開放式管理,改革原有相對封閉的實驗教學模式為開放的實驗教學模式,構建了一個符合實踐教學環節需求、虛擬和真實環境相結合、基于Web的多應用場景的遠程開放實驗平臺。
(三)基于采樣評估證明了遠程網絡實驗教學的可行性和優越性
根據采樣評估結果,該系統體現了遠程網絡實驗的可行性和優越性。在該平臺真正投入使用之前,我們將一批學生分為兩個組進行數據倉庫和數據挖掘課程的學習,A組學生使用現有的課程教學方法,而B組學生使用該平臺的遠程實驗教學環境。具體教學內容為多維數據模型和數據立方體的概念以及k-means聚類和Apriori關聯分析算法。兩組學生通過不同的教學方式學習后,對他們進行了問卷調查和統計,結果如圖2所示。
從圖2的數據結果可以看到,無論是從學生興趣程度、作業完成度還是考試成績的角度對兩組學生的學習效果進行評估,使用該數據倉庫與數據挖掘課程教學實驗平臺的教學方式都具有明顯的優勢。在實驗過程中學生是主體,用所學知識發揮創造性思維進行實踐。當實驗取得結果時,不論結果成功與否,都能帶給學生一定的鼓勵,從而在某種程度上激發學生的創造力和積極性,真正加速問題解決和理論創新。因此,我們有理由相信該平臺的使用可以極大地提高學生的學習興趣,促進教學目標的實現。
五、結論
在計算機專業的教學中,如何提高學生的實踐能力和獨立解決問題的能力是當前高等教育發展的新形勢下所面臨的主要問題。本文首先介紹了基于數據倉庫和數據挖掘課程的實驗平臺的整體架構,展示了該平臺的優點,證明了該平臺可以將課堂學習和課后練習、理論教育與工程實踐有機結合,為實施更加行之有效的教學組織和教學管理模式提供了可能。只有教育者和學生充分認識到計算機課程中實驗環節的重要性,更有效地利用現有的社會資源和計算機技術為我們的教育服務,專業學科教學模式和方法才能不斷推陳出新,不斷進步和發展。
參考文獻:
[1]Jiawei Han,Micheline Kamber.Data Mining Concept and Technology[M].Beijing:China Machine Press,2007:10-12
[2]李旭晴.學科教學網站設計的應用探討[J].計算機教育,2009,(02):1-2.
數據挖掘技術探討論文范文3
在江蘇省政府2003年度公派留學計劃“訪問學者”項目資助下,我于2006年3月~2007年2月對美國德雷克塞爾大學(Drexel University)進行了訪問研究。在美期間,我觀摩了信息科學與技術學院信息處理專業、軟件工程以及工程學院計算機科學與技術系計算機科學專業的軟件工程、數據結構、數據庫及數據庫管理系統、高級人工智能、數據挖掘、數字圖書等的教學,接觸了導師所申請到的美國國家自然科學基金課題和賓夕法尼亞(PA)州的研究基金課題(NSF Career Grant IIS 0448023;NSF CCF 0514679;Dept of Health Tobacco Settlement Formula Grant, PA, No.240205 and No.240196; Dept of Health Grant, PA, No.239667),參與了博士生的研究指導活動和每周的專題學術研討會,并撰寫了7篇研究論文(后來陸續在國際學報Kybernetes、國際學術會議上公開發表),取得了圓滿的訪問成果。
采用計算機科學技術、現代信息技術和新的數學理論和工具處理復雜的信息,從各類文本、數據、表格、圖像、視頻等浩瀚的數據海洋中挖掘規律,發現有用的潛在知識,指導人們進行科學分類、預測、決策,是多年來美國及國際計算機、信息科學和數學家一直在探索的研究領域。知識獲取、知識表示和智能化的人機交互,甚至實現計算機可視化信息處理,建立新穎的知識庫,從而獲得領域信息和知識分析結果,將有助于商業活動、生物信息處理、蛋白質結構分析、科技研究動態分析,有助于科學家在復雜的科研信息中開辟新的未知領域,提供快速獨立科學判斷的客觀依據,探討和預測學科知識的發展前沿,準確把握學科研究方向,從事科學創新和研究。
多年來,我一直在智能信息處理這一研究領域進行探索。這次聯系到美國德雷克塞爾大學信息科學技術學院Tony• H教授,在他的指導下進行數據挖掘、生物信息挖掘以及Rough Set Theory等方向的研究。
Tony•H教授現擔任國際學報《Data Mining and Bioinformatics》和《Granular Computing》等的主編和國際粒計算會議的程序委員會主席,他所研究的Rough Set Theory、Data mining、Bioinformatics和Data Management Systems等內容,是近年來在世界智能信息分析中最具特色和影響力的研究領域。從2000年至今,他在這一研究領域中發表的研究論文達60多篇,出版的研究專著為3部。在為期一年的時間里,我與Tony•H進行了很好的合作研究,采用新的研究方法,對前沿領域進行了有益的探索研究,并接受了Tony•H等教授們的研究思想、研究方法、教學思想和教學方法的熏陶,對相關課程的教學方法、教學手段、教學組織方式進行了深入的交流和探討。此外,我還以志愿者的身份參加了在美國舉辦的兩個大型的全球性國際會議:美國工業數學聯合會舉辦的2006年國際知識發現與數據挖掘會議(Knowledge Discovery and Data Mining- KDD, by SIAM, Maryland April,2006);國際知識發現和數據挖掘會議(International Knowledge Discovery and Data Mining (KDD), Philadelphia August, 2006)。
這次訪問研究使我開闊了眼界,接觸到很多當今信息科學研究領域中最先進的思想和方法。對Rough Set Theory、Data mining、Bioinformatics等前沿性探索和預測的科學研究也有了更深入的認識。同時,能夠有機會和這一研究領域的世界知名專家和教授進行面對面的學術交流與探討,參加各種類型的學術研討會,我覺得受益匪淺。我所感受的學術氛圍、學到的教學思想和教學方法是一筆寶貴的精神財富,我會將他們直接應用到自己的教學和科研中。下面就我在訪美期間印象深刻的幾件事談談體會,以期對我們的工作有所啟示。
2優秀的學習環境
2.1優美的校園環境
我所訪問的德雷克塞爾大學地處美國費城的市中心西部,緊鄰世界著名的賓法尼亞大學(世界上第一臺電子計算機ENIAC在這里誕生,現在這里還保留有部分元件的展覽)。雖然離市中心較近,校園也沒有圍墻與外界明顯隔開,由跨南北東西幾條街和大道的建筑組成,但校區及周邊環境寂靜優雅。校園中央有一座代表性的龍雕塑,路邊插的許多旗桿上掛著印有龍的圖案和Dragon字樣的杏黃校旗,幾只松鼠在校園內的樹上自由地跳躍活動,小道邊或樹下都設有長凳,供教職工或學生休息、討論。
教學樓、實驗樓、辦公樓、圖書館、體育館內中央空調處于恒溫狀態,非常適合工作學習。每棟樓的大廳或較寬的走道邊的墻壁上都貼有各種名言及名畫,營造著好的學習環境,渲染著極其重要的文化氛圍。大廳內布置有椅子和圓桌,在上課、實驗或面談之前,教師或學生可在此休息等待,這一點的確做到了以人為本,給我留下了十分深刻的印象。
體育館內各種體育設施齊全,如健身、跑步、球類等,全年對學生免費開放。游泳也只需支付少量的費用(3個月只需25美元),全天多時段使用。
9月迎接新生、校際間的籃球比賽等活動舉辦得井井有條,充滿生機。
2.2完備的信息化建設
首先,信息化建設表現在數字資源的建設上。圖書館大廳內設有很多計算機,學生可在此上網瀏覽,查閱資料。書架周邊靠墻處設有自習的桌椅,供有網絡插口,學生可鏈接自己的筆記本電腦。圖書館資料豐富,如果在本館找不到相關資料,也可請圖書管理員在館際間查找,將返回的電子文檔通過郵件發送到學生校園網內的電子郵箱中,十分方便。
校園無線網覆蓋了整個校園,教室周圍也預設了網線插口,在教室內上課或自習的學生均可免費無線或有線上網。在校的本、碩、博學生都有自己的校內學號,憑該學號可直接在自己的實驗室登陸校園網的電子圖書館,查到僅在校園網上提供的論文資料。學生還可從校園網中心服務器上下載以學校或機構名義購買的正版軟件,這一點國內很多高校還沒能做到。
其次,信息化建設也體現在師生信息素養的建設上。無論在信息意識、信息知識、信息能力,還是在信息道德上,師生們都顯現出十分成熟的高水平。良好的信息化數字資源建設為師生的教學科研提供了良好的保障,師生們利用簡單的搜索機制或便捷的館際服務就可查到需要的資源。雖然本校師生可從校園網上下載正版軟件,但每個人都遵守不宜外拷的基本原則,這也體現了良好的信息素養。
3教師教學與學生學習
3.1教師教學情況
美國高校一般一年分為4個學期,每個學期大約3個月。按照校方的要求,每個教師至少3個學期要有教學任務,而且必須在每個學期完成平均3門課程的教學,個別教師甚至在一個學期要承擔4門課程的教學任務。一門課的教學約32學時,這樣,每個教師每學期(一學期不到3個月)約完成72~96學時的教學工作量。除非有科研課題,可以用科研任務充抵教學工作量,否則,教學任務就是相當飽滿的。除了承擔教學工作外,每個教師還要承擔科研、指導碩士及博士生進行研究的工作。年輕教師除了要完成教學任務,還要進一步深造,提高自己的學位和水平。教師的教學情況由學生來評價,學生填寫調查表格,收齊后交由學院教學秘書統計,最后由學院將統計結果通報給教師本人,類似國內高校的學生評教。所以教師同樣很有壓力,他們對教學一絲不茍、敬業,并非普通人所想象的美國教師工資高、工作輕松。
在課下,教師必須將所授課程的內容介紹、大綱、演示文檔資料、習題等組織好,全部掛在校園網的個人主頁上,以便學生隨時瀏覽。備課、批改作業、設計實驗題目等各個環節,教師都要十分認真地對待,每周有一次約定學生到辦公室進行問題討論或答疑,保證教學任務圓滿完成。教師對實驗項目的設計循循善誘,既不是全盤托出,也不是僅給一個題目,讓學生冥思苦想地琢磨。除了將學生建立成團隊,教師還布置與課程相關的大量文獻和資料閱讀,并要求學生寫出讀書報告。對于課程結束或評定成績用的大作業,甚至要求每個學生制作成演示文稿,并加以匯報、討論。我看到一位叫愛德華(中譯名)的老師,他承擔了數據庫、軟件工程等多門課程的教學任務,每天都在辦公室工作到很晚,有時甚至在教學樓大廳的休閑式自習間伏案研究。
在課上,每門課程開始的第一節課,教師就將學生分組,形成一個一個團隊。在布置學習和研討課題后,教師要求學生先獨立思考,不明白的東西可在團隊內討論,有問題還可及時問老師。也就是說,每門課都在培養學生的團隊協作精神。教師在課堂上的演示文稿經過精心準備,圖文并茂,層次分明,令人賞心悅目,但他們也不完全拘泥于演示稿,也在黑(或白)板上演繹關鍵的內容,突出重點,使學生感到他們備課充分,對教學內容十分精通。
3.2學生學習情況
在美國讀書的學生,普遍感到課外閱讀任務較重。學生不光要學好課內的基本教學內容,還要閱讀文獻,查找與主題相關的資料,并加以整理、歸納、匯總。這培養了學生自主學習的意識,清除他們完全靠老師課堂講授的依賴心理。
課堂上,學生們會踴躍發言,認真記筆記,回答老師的提問,在老師的引導下完成課堂練習。下課后,學生到圖書館查閱資料或自習,也會在網上下載老師在主頁上布置的作業,按時完成后及時提交給老師批改。如在課程結束時,教師會給學生布置大作業,學生要在一定時間內當面交給老師,并接受面試提問,作為考查依據的一部分。在接到作業任務后,學生要認真對待,完成后連帶其他作業一起交給老師。老師根據學生的總體完成情況給出五級分制的成績。
我曾遇到一位碩士生,她就接到這樣一個大作業。老師給的任務是一個較大的程序,要求她調試運行通過。經過一周的調試,程序始終沒能運行成功。在快要到期時,她正好碰到我,聽說我是從事這方面教學工作的,就向我請教。我很想了解美國教師采用什么樣的教學方法,出什么樣的題目讓學生做,于是答應幫他。我仔細閱讀分析和反復測試網上下載的源代碼,終于找出了問題所在。原來老師在程序中故意預設了兩個問題,這是學生在學習此類程序設計語言時容易忽略或犯錯的問題,程序在編譯中并不報錯,但就是運行結果不正確,得不到期望的結果,學生找不到出錯的地方,感到很困惑。經過修改,程序很快調試運行通過,進一步優化和調整后,她交給了老師。老師看了她的程序運行結果,并問了她的體會,得到非常滿意的回答后,表示十分高興。
其實,這就是教師在主導學生去主動學習,自己找資料,自己研究問題,形象地講,就是“逼”學生好好學習。這樣可以解決學生遇到較難問題時無從下手的迷惑,循循善誘他們找到解決問題的方法,避免了“越俎代庖”。
4 碩士生和博士生的培養過程
在碩、博研究生的指導過程中,如何對學生加以良好的指導,始終是困擾國內外導師們的問題,至今仍無絕對規范。
從導師與學生一見面,指導工作就已開始。導師一般提供很多必要的幫助,如幫助開設相互聯系的校園郵箱,確定聯系方式和時間,根據學生的知識結構制定研究方向等。作為一項基本約定,指導教師每周要有一個下午與學生見面,由學生匯報學習和研究情況,導師當面給出指導意見。導師有時還會幫助學生查找并提供最相關的研究論文或資料,必要時將研究論文的電子稿發送給學生,甚至將論文復印件放在學生的信箱中――這絕對有別于國內有的指導老師因兼職過多或擔任其他職務,指導缺乏或持久不到位現象。這種指導方式加強了導師與學生的交流,也便于將學生引導到相關研究領域的最前沿,而導師也始終站在研究的最高點。而通過不斷的交流和指導,學生能很快系統地了解相關領域的研究進展,較早找到問題的抓手,有興趣地開展有意義的研究,往往容易產生創新型成果,包括理論和應用性實驗成果等,并能。
當學生或導師認識到某個研究點的價值所在時,就會著力加以深入研究。如導師要求學生認真閱讀研究后再來參加討論,甚至有時要求學生將討論內容制成演示文檔講解,這樣他們對重要的概念和研究結果的掌握就會更加透徹,文獻跟蹤程度和研究思路水平就會得到提升。這種有意識的訓練大大強于“散放式”的指導方式。
5良好的學術氛圍
學科建設和課程教學離不開學術研究。在德雷克塞爾大學,給人留下深刻印象的就是每個教授(正教授、副教授和助理教授)都將自己的研究方向和最新論文或成果以一幅畫的形式貼在工作室的外墻上,上面有個人簡介、主要方法和結果說明。這樣就打出了自己的招牌,便于他人了解自己。此外,每個教授甚至普通教師都在校園網上建有自己的主頁,對自己的教學科研工作進行介紹,并將研究論文、著作等目錄列在其中,便于與他人交流或溝通。教師也經常根據教學內容聯系國際國內的專家做學術報告,始終用新知識武裝學生的頭腦。
重視營造活躍的學術氛圍,并使學術交流制度化、經常化,是我在美做訪問學者期間感受最深的一點。每個系或學院基本上每周都舉辦1~2次學術研討會,主講者有來自世界各地的專家教授,也有某個研究領域資深的校內教師。每次學術研討會的時間大都定在中午12:30,12:00就開始提供免費的午餐。這樣既充分利用了時間,又解決了聽報告者的午飯問題,也通過免費午餐吸引了不少聽眾,特別是一些來自第三世界國家的“窮”留學生們。通過網上邀請,大多數感興趣的學生甚至老師都會來參加研討會,在這里了解一些最新的研究進展和報告人的研究思路,并能與主講人交流自己的研究體會,視野隨之開闊,思想也隨之富有。有時,一些大的跨國公司或政府部門(如安全部門)的技術專家也被邀請來做專題報告,這樣學術交流的氛圍就比較活躍,研究工作也不會是一潭死水。
6結語
在美國德雷克塞爾大學訪問進修一年,我目睹了該大學在環境建設、教學科研等方面的好的做法,開闊了視野。回國后,我給我的學生們講解我的所見所聞,也給他們留下了深刻印象。這次進修不僅使我在業務上得到進一步修煉,也獲得了不少“精神財富”,如下所示:
(1) 抓實抓好教學工作的每個環節,是高校教師的永恒主題。任何一個環節,如教學方法、教學手段、實驗項目設計、主導學生學習、提出學習要求、組織討論答疑、批改作業等方面的提高,都會大大提高教學質量和教學效率,取得事半功倍的效果。
(2) 指導學生方向和過程并重,確保處于研究前沿。指導學生,特別是碩、博士生的導師,不僅在一開始就要幫助學生確定研究方向,而且要定期開展學習檢查和交流活動,必要時還要為學生提供前沿性的研究論文或資料,以便將他們早日引導到國際國內的前沿陣地,保持在高新水平上從事研究工作,取得創新性的研究成果。
(3) 創造活躍的學術氛圍和良好的學習環境,是高校各級領導及教師的基本責任。只有將教師和學生置于始終向前的滾滾波濤中,教學和研究才會具有不可估量的創造力,才會在科學的道路上獲得可持續發展。
參考文獻:
數據挖掘技術探討論文范文4
關鍵詞:人工智能;理論傳授;實驗訓練;科研訓練
人工智能(Artificial Intelligence,AI)是計算機科學與技術專業的一門重要專業課程,是一門研究運用計算機模擬和延伸人腦功能的綜合性學科。它研究如何用計算機模仿人腦所從事的推理、證明、識別、理解、設計、學習、思考、規劃以及問題求解等思維活動,并以此解決需要人類專家才能處理的復雜問題,例如咨詢、診斷、預測、規劃等決策性問題[1]。人工智能是一門涉及數學、計算機、控制論、信息學、心理學、哲學等學科的交叉和綜合學科。目前,人工智能很多研究領域,如自然語言處理、模式識別、機器學習、數據挖掘、智能檢索、機器人技術、智能計算等都走在了信息技術的前沿,有許多研究成果已經進入并影響了人們的生活。
2003年12月5日,國內第一個“智能科學與技術”本科專業在北京大學誕生[2],它標志著我國智能科學與技術本科教育的開始,對我國智能科學技術人才培養和智能科學與技術學科建設起到極大的帶動作用。目前,人工智能課程的教學存在幾個問題:首先,注重講授理論知識,實驗環節滯后,這不利于培養學生的實踐能力,更談不上實踐創新。其次,人工智能是交叉學科,內容比較繁雜,各種教材的內容不一樣,授課沒有統一的體系,學生學習時抓不住重點,不能理解人工智能的根本方法和思想。一般說來,計算機專業的其他課程,如網絡技術、數據庫技術、算法分析與設計等,都是求解結構化問題的基本技術,而人工智能技術則是解決非結構化、半結構化問題的有效技術。最后,人工智能科學與技術飛速發展,但目前人工智能只被視為一門專業課,課程講授和人工智能沒有作為一個研究方向結合起來,也沒有把傳授課本知識和引導啟發創新結合起來。
適應知識經濟發展的高等教育,要把培養創造精神和創新能力擺在突出的位置。創新是基礎研究的生命,而高等學校的教學只有與科研緊密結合,才能在培養學生的創新精神方面有所作為。為此,針對人工智能的課程特點,我們積極開展研究型教學、研究型學習,提高大學生的學習能力、實踐能力和創新能力的研究與實踐。在教材上,我們選用了清華大學出版社出版、馬少平等編寫的《人工智能》。我們的教學研究與實踐的主要內容包括三個方面:啟發式傳授人工智能解決問題的非結構化的思想;成體系的實驗訓練;以及與畢業論文,學校大學生科研項目資助計劃,國家大學生創新性實驗計劃相對接的科研訓練。這三個主要方面,層層遞進、環環相扣,是體系完整的創新型人工智能教學實踐。下面,我們就這三個方面內容展開探討。
1啟發式傳授人工智能解決問題的非結構化思想
現實世界的問題可以按照結構化程度劃分成三個層次[1]:1)結構化問題,能用形式化(或稱公式化)方法描述和求解的一類問題;2)非結構化問題,難以用確定的形式來描述,主要根據經驗來求解;3)半結構化問題,介于上述兩者之間。一般說來,計算機專業的其他課程如網絡技術、數據庫技術、算法分析與設計等,都是求解結構化問題的基本技術。而人工智能技術則是解決非結構化、半結構化問題的有效技術。人工智能的教學可以讓學生在體驗、認識人工智能知識與技術的過程中獲得對非結構化、半結構化問題的解決過程的了解,從而達到培養學生多角度思維的目的。
我們使用的教材主要內容包括搜索和高級搜素、謂詞邏輯和歸結原理、知識表示、不確定性推理方法、機器學習等。這些主要內容也可以相應地歸結為若干個典型算法,如啟發式A*搜索算法、 剪枝算法、元啟發式算法(模擬退火,遺傳算法)、謂詞邏輯歸結算法、貝葉斯網絡、決策樹、神經網絡(BP算法、自組織網絡和Hopfield神經網絡算法)。元啟發式算法是一種啟發式的隨機算法,是用來解決非結構化問題的典型算法,其思想和傳統的決定性算法如動態規劃、分支限界完全不一樣。學生在剛一接觸到這些元啟發式算法一時難以接受和理解其機理,對算法的有效性往往半信半疑。根據非結構化、半結構化問題的特點,講解和演示算法在解決此類問題的具體步驟和詳細過程,從而讓學生掌握人工智能算法的基本思想。在講解不同的元啟發式算法的時候,學生會問,是模擬退火算法強,還是遺傳算法強;在講到機器學習算法的時候,學生會問到底哪個分類算法最好,這時候我們可以把搜索(優化)領域和機器學習領域的“沒有免費午餐”定理進行適當的講解和解釋,從而把具體算法實現層面之上的一些人工智能的哲學思想進行傳授。
在人工智能的具體教學中,采用問題教學法和參與式教學法。在問題教學法中,圍繞人工智能的知識模塊,在引導學生發現各種各樣問題的前提下,傳授知識。教學活動中,嘗試使人工智能知識圍繞實際問題而展現,使問題不僅成為激發學生求知欲的前提,也成為學生期盼、理解和吸收知識的前提,以此激發學生的創造動機和創造性思維。在參與式教學中,打破人工智能算法的枯燥、沉悶的傳統教學法,嘗試開放式教學內容;提問式講課;無標準答案的課程設計;查找文獻,分組動手實現人工智能算法等參與式教學方法,培養和發揚學生的參與意識,通過參與式教學提高學生學習的主動性、積極性和效率,培養學生的動手能力和創新能力。
2成體系的實驗訓練
獨立開展人工智能實驗課程,開發一批新型、富有創意的實驗案例庫,搭建一個創新實驗和虛擬學習社區平臺。人工智能實驗課程的特點是應用各種人工智能方法,根據問題的約束、結構、信息進行表示建模和計算機上實現,是與人工智能原理同步的實驗課程。學生必須掌握的人工智能的基本原理和計算機操作技能,它對于學生的知識、能力和綜合素質的培養與提高起著至關重要的作用,在整個教學過程中占有非常重要的地位,是計算機軟件、計算機應用、計算機網絡、軟件工程等專業的一門重要的必修專業課程。通過實驗,學生得到嚴格的訓練,能規范地掌握人工智能的基本理論和主要方法、基本問題求解技術,熟悉各種計算環境的基本使用。
在培養學生掌握實驗的基本操作、基本技能和基本知識的同時,努力培養學生的創新意識與創新能力。為實現這一目標,在課程內容安排上采用適量基本原理與方法的實驗內容為基本內容,增加一系列綜合性實驗和開放性創新實驗問題,在實驗內容方面更注重研究性實驗中的創新問題。實驗內容方面分為三個層次:基本原理的基礎性實驗、綜合實驗和研究性實驗。在后兩個層次的實驗中,部分引入人工智能課程小組團隊的最新科研成果,目的在于通過完成這些研究性實驗,培養學生獨立解決實際問題的能力,以提升學生的科研素質與創新意識。我們將這些設計實驗稱為新型實驗案例庫,它被放在人工智能課程小組網站上,以此搭建一個創新實驗和虛擬學習社區平臺。通過實驗課程的學習和訓練,學生應達到下列要求。
1) 掌握人工智能方法的優點及其在實際中的應用。
2) 學會對人工智能問題進行分析建模和應用各種計算工具實現問題求解,熟悉對實驗現象的觀察和記錄,實驗數據的獲取與設計,最佳實驗條件的判斷和選擇,實驗結果的分析和討論等一套嚴謹的實驗方法。
3) 鞏固并加深對人工智能原理課程的基本原理和概念的理解,培養學生勤奮學習,求真求實的科學品德,培養學生的動手能力、觀察能力、查閱文獻能力、思維能力、想象能力、表達能力。
4) 通過完成綜合研究性實驗,培養學生獨立解決實際問題的能力,提高學生的科研素質與創新意識。
在培養學生掌握實驗的基本操作、基本技能和基本知識的同時,進一步培養學生分析問題和解決問題的能力,培養學生的創新意識、創新精神和創新能力,為學生今后從事科研、教學或企事業單位的分析檢驗以及新技術的研發工作打下扎實的基礎。
在實驗組織方面,根據各實驗的目的和要求,學生分為5人1組,指定一個組長,每組選擇1套實驗題目?;A實驗題目要求達到27學時、綜合性實驗題目選擇1題和研究性實驗題目選擇1題,基礎實驗題目要求在規定時間內,小組獨立完成實驗測定、數據處理,并撰寫實驗報告。實驗過程中, 要求學生勤于動手, 敏銳觀察, 細心操作, 開動腦筋, 分析鉆研問題, 準確記錄原始數據, 經教師檢查,實驗及其原始數據記錄才有效。同時,團隊作業,需要多人分工合作、相互幫助,這樣可以提高人際交往和溝通能力,學會與他人合作,培養團隊創新能力。
3課程學習與畢業論文,科研訓練相結合
人工智能技術在一定程度上代表著信息技術的前沿和未來,通過學習和體驗人工智能的知識和技術,學生能夠在一定程度上了解信息技術發展的前沿知識,這有助學生開闊視野、培養興趣,為今后繼續深造或走向社會奠定堅實的基礎[3-4]。
人工智能的理論和方法廣泛應用于數據挖掘、機器學習、模式識別、圖像處理中,這些內容既是高年級的后續課程,又是現在熱門的研究方向。學習和深刻理解人工智能的理論、方法和應用,對后續課程學習以及今后的研究具有重要的意義。
我院規定大學三年級的學生開始聯系畢業論文指導導師,同時確定畢業論文的研究方向,提前進行科研實踐,以培養實踐能力和研究素質。人工智能課程正好是大三高年級開設的專業課,因此,我們把課程實驗及設計與同學的興趣相結合,引導學生,并提煉和形成學生的畢業選題和課外的科研方向,它是提高本科生研究創新能力的有效手段。
基于新的教學實踐,很多學生的選題都與上述歸納的人工智能若干算法相關,如算法本身的研究和改進,或是算法在各領域,如數據挖掘、圖像處理等的應用。在我們的科研能力訓練計劃中,一批項目和課題,如混合神經網絡的研究與應用、差分演化算法研究與應用、基于協同訓練的推薦系統等,分別受到國家和學校本科生科研項目立項資助。一批三四年級的本科生以第一作者身份在國內核心期刊、國際會議和期刊上發表學術論文,這激發了學生的科研興趣,使學生體會到了創新的樂趣。
總之,課程學習與畢業論文、學校大學生科研項目資助計劃、國家大學生創新性實驗計劃相對接的科研訓練,極大地提升了學生的創新能力和科研基本素質。
4結語
針對人工智能的課程特點,我們積極開展研究型教學、研究型學習,提高大學生的學習能力、實踐能力和創新能力的研究與實踐。我們的教學研究與實踐主要內容包括三個方面:啟發式傳授人工智能解決問題的非結構化的思想;成體系的實驗訓練;以及與畢業論文、學校大學生科研項目資助計劃、國家大學生創新性實驗計劃相對接的科研訓練。這三個主要方面,層層遞進、環環相扣,是體系完整的創新型人工智能教學實踐,新的改革和實踐在教學中取得了令人滿意效果。
參考文獻:
[1] 張劍平. 關于人工智能教育的思考[J]. 電化教育研究,2003(1):24-28.
[2] 謝昆青. 第一個智能科學技術專業[J]. 計算機教育,2009(11):16-20.
[3] 羅輝,梁艷春. 大學生畢業論文與科研能力培養及就業[J]. 吉林教育,2003(10):18.
[4] 金聰,劉金安. 人工智能教育在能力培養中的作用及改革設想[J]. 計算機時代,2006(9):66-69.
Reform and Practice of Innovative Teaching in Artificial Intelligence
WANG Jia-hai, YIN Jian, LING Ying-biao
(Department of Computer Science, Sun Yat-sen University, Guangzhou 510006, China)
數據挖掘技術探討論文范文5
【論文關鍵詞】事項會計;數據倉庫;事實表;維度表
一、IT環境下事項會計理論的新發展
對于如何能支持個性化會計信息需求,上個世紀60年代末美國會計學家喬治·H·索特(George.H.Sorter,1969)明確提出會計理論研究的事項法(EventApproachAccounting)。與傳統價值法相比,事項法認為會計的目標在于提供與各種可能的決策模型相關的經濟事項信息,不應匯總反映經濟業務,與決策相關的事件的信息應盡量以其原始的形式保存,而將事件與其決策模型如何匹配的任務留給用戶。由用戶而非會計人員將事件轉化為適合用戶個人決策模型的會計信息。
事項會計提出后一直停留在理論研究階段。事項會計的目的在于提供全面而原始的事項信息,那么信息如何提供才算全面、以怎樣的形式存儲才稱得上原始,以及如此龐大的數據量應如何利用,是事項會計需要解決的首要問題。隨著計算機技術及網絡環境的發展,數據倉庫及相關技術有效地解決了上述問題,為事項會計思想的實現提供了非常有力的支持。
首先是信息技術的發展。如已有的企業信息系統的實現,為事項會計數據倉庫的建立奠定了實踐基礎,同時也提供了豐富的數據源,大幅度降低了信息的采集和傳輸成本。其次,事項法會計要求提供原始的未經加工過的經濟業務信息,最大程度地恢復經濟活動過程的原貌,以事項為單位的數據倉庫存儲結構可以很好地實現這一目標。數據倉庫的數據存儲結構與事項會計的思想相吻合,能夠通過不同維度存儲經濟活動的立體信息。再次,數據倉庫為集成不同企業數據庫數據、各種其他數據源數據提供了技術支持。良好的數據接口工具,方便對不同數據來源的數據進行抽取、轉化和加載。最后,先進的IT技術,如在線分析、數據挖掘等工具,為提供實時的、多角度的事項報告提供了實現的條件。
總之,信息技術的發展使得事項會計不再是空中樓閣,其思想逐漸變為現實。事項會計建立在數據倉庫和IT技術基礎之上,不再局限于之前的研究范圍,將是以事項為中心采集數據,實現查詢、報表、智能分析一體化,多角度再現經濟活動的一種新型會計模式。
二、事項的分類
事項會計遇到的第二個問題,便是作為一種基礎理論,事項應如何定義、如何分類,目前來看仍是懸而未決的問題。無論是對理論研究的深入發展,還是對其技術實現都起著一定的阻礙作用。接下來本文將對事項會計如何對會計信息進行分類作簡單討論。
由于現有會計報告中的現金流量表的分類最能反映事項會計思想的本質,即記錄各個獨立的經濟事項,因此我們在現金流量表的基礎上對會計事項進行精確的分類。擬將企業所有價值活動過程中發生的全部會計事項分為三大類:籌資事項、投資事項和經營活動事項,進而按照同類業務性質特征差異逐層細分,最終形成支持個性化決策的事項會計信息元素。
籌資事項可以進一步分解為權益籌資事項、負債籌資事項,而負債籌資事項按時間分解為短期負債籌資事項與長期負債籌資事項。經營活動事項按資金流與物流的流向細分類為獲取運營資源事項、支付資金事項、存貨存儲事項、加工變換事項、銷售與服務客戶事項、收取資金事項等。投資事項科目按對外與對內的不同分為股權投資事項、債權投資事項與項目投資事項。
以經營活動事項為例繼續分類。獲取運營資源事項,可以細分為訂立采購合同事項、原材料采購事項、存貨入庫事項等??梢酝ㄟ^原材料采購來簡單比較價值法與事項的區別。價值法下的科目“材料采購”是企業各種購入材料的買價和其他相關采購費用的合計,包括支付運輸、裝卸等各種材料采購費用,加合后用以核算材料采購成本的賬戶,那么單從“材料采購”就很難看出具體某種材料的單價和數量。而事項會計從“材料采購活動”這個角度在每項采購活動發生時,記錄與此活動相關的所有信息,如地點、時間、數量、單價、貨種、供應方、合同、支付價款、支付方式、相關憑證等。支付資金事項,又包括支付職工工資事項、支付稅金事項等。支付職工工資事項,包含職工工號、姓名、人員類別、基本工資、津貼、補貼、支付方式。其中,基本工資通過一定方式與另外的表相連,用以存放基本工資的計算方法。銷售事項包含的內容有銷售日期、客戶代號、商品代號、部門代號、銷售量、銷售額、其他相關費用,而客戶代號可以與另外的表相連,詳細描述客戶的有關情況,如客戶名稱、所屬地區代號等信息,同樣商品代號也可以與另外的表相連,描述有關商品的詳細信息,如商品貨號、規格、顏色、等級、編碼等等。
將會計信息按事項會計理論進行以上的分類,只是對事項會計分類的一個初淺的認識,如何更有效、更科學地對發生的經濟活動按照事項進行分類,仍然是事項會計持續發展所要解決的一個首要問題。
三、事項會計的數據倉庫建模
明確了事項的分類后,我們就可以利用數據倉庫來構造企業的事項會計系統。事項會計數據倉庫包括三部分內容:數據源、數據倉庫和分析工具。數據倉庫的信息來源于不同的操作型數據庫和其他形式的數據源,比如ERP系統。這些數據庫相互異構,數據形式各不相同。因此在數據進入事項會計系統前,需要對其進行數據預處理,這些處理包括抽取、清洗、轉化、加載。數據按照不同的決策主題以一定的邏輯結構存儲在事項數據倉庫中,以供后期查詢、分析、數據挖掘使用,從而實現為用戶提供個性化信息決策支持的功能。如圖1所示。
那么數據是以何種形式存儲在事項數據倉庫中的?以怎樣的方式存儲才能夠與事項會計思想保持一致性,實現以最原始的形式再現經濟活動呢?下面本文以銷售活動事項為例探討事項會計系統建立模型的方式。
在設計數據倉庫的數據模型時,首先按照決策主題建立一張獨立的事實表結構,圍繞在表周圍的是解釋該事實表的不同維度。針對銷售事項的決策主題,采用一定的信息模型來描述現實銷售價值活動,它的中心是銷售事實屬性描述,圍繞它四周的是與銷售事實關聯的客戶維、產品維、時間維、銷售合同維等這些實體屬性描述,如圖2。要注意選取模型的時候,考慮主要采用星型信息模型來描述現實銷售價值活動,即以維度表圍繞在事實表周圍,而不采用雪花模型或者更為復雜的星座模型。星型連接應用于設計數據倉庫中很大的實體,能夠滿足實時性和查詢速度要求很高的應用,同時符合事項會計數據倉庫各不同事實表的維表屬性之間相差不大的特性。事項會計系統將構建的信息模型為背景,建立包含各類決策主題的事項數據倉庫,用戶就可以按決策主題,從不同維度進行事項會計信息處理。
下面建立實際的數據倉庫。根據商品銷售事實,分別添加代表不同屬性的各條記錄,銷售事項明細科目(ProSelledID)、客戶(ClientID)、產品(ProductID)、時間(SelledDate)、銷售量(SelledNo)、銷售額(SelledPrice),如圖3。這些記錄構成了表的不同列。以客戶為例,查看各列的屬性值,可以根據事實情況,設置列的名稱、數據類型、是否主鍵等不同屬性,這些屬性一經設定,基本上不再更改。
圍繞商品銷售表四周的是與銷售事實關聯的客戶維、產品維、時間維等維表,這些維表來對事實表的各個屬性展開詳細描述。維表的建立方式與事實表的建立方式相同。用相同的方式設置客戶維表、商品維表的不同粒度,即分別添加與客戶、商品的不同屬性相對應的列??蛻艟S可以根據屬性分為客戶代碼、客戶姓名、所屬地區三個粒度,商品維則可以分為商品代碼、商品名稱、商品種類、商品單位等不同粒度。
用相同的方法建立事項會計數據倉庫中的其他事實表以及與事實表相連的維表,從而建立起事項會計系統。事項會計系統將構建的信息模型為背景,建立包含各類決策主題的事項數據倉庫。用戶就可以按決策主題,從不同維度進行事項會計信息的查詢、分析、數據挖掘,從而真正實現事項會計的決策支持功能。
根據商品銷售事實表與客戶維表、商品維表的相互關系,分別在兩個維表里設置主鍵,即與事實表相關聯的關鍵字。在本例中,將客戶維表的主鍵設置為客戶代碼(ClientID),商品維表的主鍵設置為商品代碼(ProductID)。兩個主鍵正是兩維表內各列中唯一與事實表的各記錄相關的列。因此通過建立關系,將商品銷售事實表中的客戶代碼和商品代碼這兩條記錄自動設置為外鍵,作為查詢的依據。
【主要參考文獻】
[1]葛家澍,林志軍.現代西方會計理論[M].廈門:廈門大學出版社,2001.46.
數據挖掘技術探討論文范文6
關鍵詞:對象;相似度計算;數據挖掘;數據類型
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)13-0014-04
Abstract: The Similarity is a measure of similarity between two objects, according to different objects, similarity calculation method is also different. Similarity calculation is widely used in data classification, is the basis for object classification. In this paper, the data objects were divided into three kinds: numeric type, non-numeric type and mixed type. And the similarity calculation methods of different types are discussed. Finally, we illustrated the application of similarity in the data mining.
Key words: object; similarity calculation; data mining; data type
伴隨數據挖掘技術的應用領域發展,對象之間的相似性計算已成為一個非常重要的研究課題。相似度度量是衡量對象間相互關系強弱、聯系緊密程度的重要手段。
在數據挖掘的方法中,諸如數據分類和預測[1-2]、數據聚類[1-2]、關聯分析[1-2]、序列模式[1-2]、依賴關系與依賴模型[1-2]、異常檢測和趨勢分析[1-2]等都離不開對象之間的相似度分析。尤其是在考察對象間同異度關系時,相似度度量和計算方法將直接影響最終的數據挖掘結果,相似度計算又是衡量對象間差異的基礎,在分類應用中,相似度計算是分類的依據。因而,依據不同的實際應用和數據對象,研究相似度計算方法,對數據分類有重要意義。
首先描述了相似度概念,進而將數據對象分為三種類型:數值型、非數值型和混合型,然后按不同數據對象分別給出了相應的相似度計算公式,最后通過實例對相似度計算進行了說明。
1 相似度概念
在數據挖掘、模式識別和機器學習等計算機應用領域中,兩個對象的相似度是描述這兩個對象之間相似程度的一種度量,兩者越相似,它們的相似度就越高,相似度是一個非負數值,其值介于0和1之間[2]。數據挖掘的很多算法都涉及計算對象間的相似度,相似度計算方法依賴于數據對象的類型,數據對象的類型不同其相似度計算方法不同。例如,數值型數據的相似度可用歐氏空間的距離來描述其鄰近程度;兩個標稱型數據對象的相似度與用來計算相似度的屬性的值域有關。
依據參與相似度計算的數據類型,本文將數據對象分為數值型、非數值型和混合型[1-2]三種。
1.1 數值型
數值型數據被用來描述連續型或定量型數據,即兩個不同數值之間有無窮多個數值。使用實數或度量衡單位計量相似度值,如溫度、身高等。數值型量可分為區間標度量和比例標度量,其中區間標度量是一個線性的標度量,而比例標度量一般是非線性的。
1.2 非數值型
其取值是定性的、而非定量的數據。如人的性別,成績優良等級等。通常這類對象屬性的取值可通過有限個狀態(字母/序數)來描述。非數值型數據又可分為標稱型、二元和序數型數據等。標稱型數據之間是無序的,序數型是有序的。
1.3 混合型
由數值型數據和非數值型數據混合組成。
2 相似度計算
2.1 數值型數據
數值型數據可分為區間標度型和比例數值型數據。
2.1.1 區間標度型數據
區間標度型:是一個粗略線性標度的連續量,這種量的值是有序的,可以為正數、負數或0。典型的例子有重量、高度、大氣溫度等。具體計算時,區間型數據的相似度通常轉換成相異度計算。常用的計算方法是先將這種量標準化,消除度量單位對分析結果的影響,然后,采用距離來計算對象間的相異度。距離是一個非負數,距離的大小代表著2個對象之間的差異程度,距離越大,2個對象相異度就越大,距離越小,2個對象之間的相似度越高。這里給出常見的相異度計算方法[3]。
設 p=(p1, p2, …, pn)T, q=(q1, q2, …, qn)T 為N維空間中的兩個對象,pi是對象p對應的第i個屬性所取的值,是對象P的所有屬性值的平均值。qi是對象q對應的第i個屬性所取的值,是對象q的所有屬性值的平均值。
曼哈頓、歐氏和閔可夫斯基距離等計算公式分別如下:
1)曼哈頓距離
曼哈頓距離又稱為城市街區距離,是使用在幾何度量空間的幾何學用語,用以表明2個點在標準坐標系上的絕對軸距總和[4],對n維空間的曼哈頓距離表示如下:
2個n維向量p(p1, p2, …, pn)與q(q1, q2, …, qn)間的曼哈頓距離:
2)歐氏距離
歐式距離也稱為歐幾里得距離,是通常采用的距離,它是在n維空間中2個點之間的真實距離,用來表示各個數據對象之間的距離。歐式距離與對象的量綱有關,從統計的角度看,使用歐氏距離要求各個坐標對歐式距離的貢獻是同等的且變差大小也是相同的[5]。
2個n維向量p(p1, p2, …, pn)與q(q1, q2, …, qn)間的歐氏距離:
(2)
3)切比雪夫距離
切比雪夫距離是一種最大距離。在向量空間中,2個向量間的切比雪夫距離,就是將其沿著任意坐標尺寸的最大值[6]。二維和n維空間的切比雪夫距離如下:
2個n維向量空間向量p(p1, p2, …, pn)與q(q1, q2, …, qn)間的切比雪夫距離:
4)閔可夫斯基距離
閔科夫斯基距離是歐氏距離和曼哈頓距離的推廣[7],定義如下:
當x=1時,為曼哈頓距離,當x=2時為歐氏距離。
5)馬氏距離
馬氏距離 [3]是一種常用的距離度量方式,能夠充分考慮模式特征參數的大小以及特征間的相關性,在模式識別中其性能通常比歐式距離好。馬氏距離是歐式距離的改進,是歐式空間中非均勻分布的歸一化距離,它對于一切線性變換是不變的[8]。
6)Canberra距離
Canberra距離是一種相對馬氏距離,不受量綱的影響,同樣沒有考慮多重相關性,Canberra距離對微小變化很敏感[9]。
7)相關系數
相關系數是對向量做標準差、標準化后的夾角余弦,表示兩個向量的線性相關程度[10]。當兩個向量方向相近時,夾角余弦值越大,反之越小。特別地,當兩個向量平行時,夾角余弦值為1,而正交時余弦值為0。
2.1.2 比例型數據
比例型數據一般是通過非線性尺度取得的測量值。計算這類對象的相似度有三種方法:轉換為區間標度型數據、轉換為連續的序數數據、取對數。
2.2 非數值型數據
許多數據挖掘方法只能處理數值型數據,因此需要將非數值型數據轉為數值型數據??山⒎菙抵敌土康牟煌瑺顟B值或利用離散數據建立其與對象之間的對照表。非數值型數據又可細分為標稱數據、二元數據和序數型數據等。
2.2.1 標稱數據
標稱數據又稱為類別數據,標稱型屬性的值可以是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態等。標稱型屬性的值之間沒有順序關系。例如:設hair_color(頭發顏色)是一個描述實體人的屬性。它取值可以為黑色、棕色、淡黃色、紅色、赤褐色、灰色和白色等。因此,hair_color是標稱屬性。
通常,可以用數字表示這些符號或名稱,例如對于hair_color,可以指定數字0表示黑色,1表示棕色,2表示淡黃色等。
兩個標稱型對象i和j之間的相異度可以用簡單匹配方法來計算:
其中p為對象的屬性的個數,m為對象i和j取值相同的屬性個數,我們可以通過賦權重來增加m的影響,或者賦給有較多狀態的變量匹配以更大的權重。
對于標稱數據,歐氏距離等不能直接應用于其數據的特點,Ralambondramy提出了一種該類型轉換成二進制屬性的方法,用0和1表示一個屬性是否存在,并把這些二進制屬性當做數值來處理[11]。
通過這種方法也很容易描述分類屬性的海明距離公式:
2.2.2 二元型數據
二元數據是一種特殊的標稱數據,只有二個類別或狀態(0和1)構成,0表示該屬性不出現,1表示出現。
設x = (x1, x2, …, xn), y = (y1, y2, …, yn) 為二元數據,常用0-0、0-1、1-0、1-1匹配表示xi及yi相應的取值。其中fij表示集合{(xk, yk)| xk = i且yk = j, k = 1, 2, …, n}的基數,[12]。計算二元型數據相似度的方法比較多,由于篇幅原因,只列如下幾種:
1.簡單匹配系數(對象的變量是對稱時)
2.Jaccard系數
(11)
3.Rogers-Tanimoto
4.Srensen
2.3 序數型數據
序數型屬性變量分為分類和連續兩種。分類序數屬性與標稱屬性類似,不同的是,分類序數值表示不同的狀態,將其狀態可按一定的次序排列。例如,職稱就是一個分類序數,按照助教、講師、副教授、教授的順序排列的;人的年齡段可按兒童、少年、青年、中年、老年順序排列。一個連續序數型數據看上去就像一組未知范圍的連續數據,值之間的相對順序是重要的,而其實際的大小則不重要。在計算對象的相異度時,對序數型數據的處理方式與區間標度數據非常類似。
假設f是用于描述n個對象的一組序數型屬性之一,若序數屬性f有mf個狀態,關于f的相異度計算包括如下步驟:
1)屬性f有mf個有序狀態,第i個對象的屬性f的取值為xf,將屬性值xf替換為相應的等級rf,rf{1,2,3,....,mf}。
2)將序數屬性等級做變換,映射到區間[0,1]上。
3)利用數值屬性的任一種距離計算公式來計算相異性。
2.4 字符串型數據
海明距離是專門針對字符串數據而設計,用來衡量兩個字符串之間的相似度,其計算公式如下所示:
其中,表示兩個字符串。而,,分別表示字符串中各個位置上的字符。count( )函數用于獲取兩個字符串中對應字符值不同的個數,海明距離是分析文本等字符型數據之間相似度的常用方法,在文本分類等領域得到了廣泛應用。
2.5 文檔向量型
通常,文檔用向量表示,向量的每個屬性代表一個特定的詞(關鍵詞)或短語的頻度。每個文檔都被一個所謂的詞頻向量來表示。詞頻向量通常很長,并且稀疏。使用這種結構的應用包括信息檢索、文本文檔聚類、生物學分類和基因特征映射。對于這類稀疏的數值數據,常采用余弦相似性來計算兩個文檔間的相似性。
2.6 其他非數值型數據
在實際的應用中,對象的某些屬性數據值與我們研究的結果毫無關系,則可忽略,不需考慮在內。
3 混合型數據
當對象的屬性是由多種數據類型組成時,此時對象之間的相異度計算變得比較復雜了,目前有四種方法來處理:按單個屬性獨立計算、按類型分組獨立計算、通過相異度矩陣計算、采用摘要信息方式計算等,由于篇幅有限,摘要信息方式計算在文中就不具體列舉了。
3.1 按單個屬性計算
將對象的每個屬性單獨進行考慮,按照一般正規相似度的定義方式進行計算,也就是先度量單個屬性之間的相似度,然后利用綜合函數得出整體相似性。但是一般在計算數據相似度時會歸約到同一形式上[12]。
3.2 按類型分組計算
將屬性按數據類型分組,將每種數據類型的屬性分成一組,利用相應的相似度計算公式來計算不同類型屬性的相似度,之后利用綜合函數得到整體相似度,這種方法將同種類型的屬性看成整體進行考慮。如果這些分析得到兼容結果,則這種方法可行,但在實際的數據應用中,每種屬性類型分別分析得到兼容結果的可能性不大,所以這種方法的可行性不大。
3.3 通過相異度矩陣計算
將所有的數據一起處理,只進行一次分析。將不同類型的數據組合在單個相異度矩陣中,所有有意義的數據轉換到共同的值域區間[0, l]上[13]。
假設數據集中包含p個不同的類型的屬性,對象i和j之間的相異度定義為:
其中,如果或缺失(即對象i或對象j沒有屬性f的度量值),或者,且屬性f是不對稱的二元型數據,則指示項;否則,指示項。
對象i和j之間相異度的計算方式與屬性f的具體數據類型有關:
如果f是二元型數據或標稱型數據:如果,則;否則。
如果f是標度型數據:這里的取值是屬性的所有非空缺對象。
如果是序數型或者比例標度型數據,計算排序位和,并將作為區間標度型數據對待。
4 相似度計算的應用
4.1應用
對象間的相似度計算在數據挖掘中涉及面很廣,如K最近鄰分類(KNN)、聚類和異常檢測等技術。
K最近鄰(KNN)分類算法通過計算給定的檢驗對象與訓練對象之間的相似度,找出檢驗對象的K個“最近鄰”[27]?!班徑浴庇孟嗨贫葋矶攘?。因此,如何選擇相似度計算方法在KNN最鄰近算法中對分類效果有著直接影響。若對象的屬性是數值型數據,則直接用對象間的距離來度量,對每個屬性的值進行規范化,變換到[0,1]區間,防止較大初始域的屬性權重過大而影響結果。若屬性是標稱型數據,常比較對象x1和x2中對應屬性的值,若兩者相同者取0,反之則取1。
聚類,也稱作無監督分類。聚類分析的目的是把數據對象劃分成多個組或簇(即不同的類),來發現隱藏的、潛在于數據中的有用信息。其目標是使得同一簇內的對象具有較高的相似性,而簇間的對象盡可能相異。眾多聚類算法都是建立在事先假定某種相似度度量方式基礎上,因此聚類算法的基本出發點都是根據對象間相似度將對象劃分為不同的簇。
在實際的數據挖掘應用中,如果涉及相似性度量,首先應分析對象的數據類型是否是單一,是數值型的數據還是是非數值型的或者是混合型的數據類型。然后根據相應類型的相似度的計算公式進行處理。
4.2 計算實例
下面用KNN算法和k-summary算法應用的兩個實例來介紹相似度的計算。
實例1.數據集weather如下表所示,測試樣本X=(rain,hot,normal,weak,?), k取3,下面根據KNN最鄰近方法預測該樣本的類符號。
由于outlook的值有三個,屬于標稱型數據類型,為了便于區別它們之間的差異性,在此將其值對應轉化為序數型數據。sunny=1,overcast=2,rain=3;同理temperature的hot=1,mild=2,cool=3。
首先計算樣本X到14個記錄的距離(取曼哈頓距離)分別為:
Distance(X,p1)=3,Distance(X,p2)=3,Distance(X,p3)=2,Distance(X,p4)=1.5,Distance(X,p5)=1,Distance(X,p6)=2,Distance(X,p7)=2.5,Distance(X,p8)=2.5,Distance(X,p9)=2,Distance(X,p10)=0.5,Distance(X,p11)=2.5,Distance(X,p12)=3,Distance(X,p13)=0.5,Distance(X,p14)=2.5;
根據KNN的概念可知,K=3,在這里取3個距離最小的值,分別為Distance(X,p10)=0.5,Distance(X,p13)=0.5,Distance(X,p5)=1。所以取離樣本X最近的3個近鄰為p5,p10,p13。而這3個最鄰近對應的類標號都為yes,因此樣本X的類標號被預測為yes。
5 結論
論文對相似性的概念進行了介紹,然后對數據類型進行了分類,并對不同數據類型對象的相似度的衡量方式進行了分析。不同的數據類型具有不同的相似性處理方式,相似性的計算方法有很多,有的適用于專門的領域,同時也有適用于特定類型數據的限制,選擇相似性的一個重要的因素就是屬性的類型。在進行非數值型數據時,有時會因為將其化為標稱類型,但是這樣的轉換并不能很好地了解屬性間的差異性,而將其進行序數化,再進行相似度計算,更能體現數據之間的差異性。
參考文獻:
[1] Jiawei Han, Micheline Kamber, Jian Pei.Data Mining Concepts and Technologyes[M].3rd ed.China Machine Press,2012.
[2] 蔣盛益,李霞,鄭琪.數據挖掘原理與實踐[M].北京:電子工業出版社,2013.
[3] 黃.相似度度量的研究及其在數據挖掘中的應用[D].福州:福建師范大學,2009.
[4] Yano Y.Associative Memory with Fully Parallel Nearest-Manhattan-Distance Search for Low-Power Real-Time Single-Chip Applications[C]. Proc. Of IEEE ASP-DAC, 2004:543-544.
[5] Hua-Kai Chiou, Gia-Shie Liu.Multiple Objective Compromise Optimization Method to Analyze the Strategies of Nanotechnology in Taiwan[C]. Symposia and Workshops on Ubiquitous, Autonomic and Trusted Computing,2009:172-177.
[6] de Souza R M C R , de Carvalho F A T. Dynamic clustering of interval data based on adaptive Chebyshev distances[J]. Electronics Letters, 2004, 40(11).
[7] Ryotaro Kamimura, Osamu Uchida. Greedy Network-Growing by Minkowski Distance Functions[C]. IEEE Transaction on Neural Networks, 2004:2837-2842.
[8] Chunhua Shen, Junae Kim, Lei Wang. Scalable Large-Margin Mahalanobis Distance Metric Learning[J].IEEE Transactions on Neural Networks, 2010, 21( 9): 1524-1530.
[9] Sheng-Yijiang.Efficient Classification Method for Large Dataset [C]. Proceeding of the Fifth International Conference on Machine Learning and Cybernetics, Dalian, 2006:13-16.
[10] Xing E P, Ng A Y, Jordan M I,et al. Distance metric learning, with application to clustering with side-information[C]. proc Adv Neural Inf Process Sys., 2003:505-512.
[11] 陳|.基于劃分的混合屬性聚類算法研究[D].長沙:湖南大學,2010.