多維數據可視化技術的運用

前言:尋找寫作靈感?中文期刊網用心挑選的多維數據可視化技術的運用,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。

多維數據可視化技術的運用

 

隨著科技的發展,地質研究過程中可獲得的屬性信息越來越豐富(地質、物化和遙感信息),這些信息往往量大且標度不統一[1],不利于研究。常用的直方圖、等值線圖等方法由于各自研究的局限性,難以在全局上用一個圖形簡單地總體把握研究區的屬性特征,因此迫切需要一種新的、簡單且快速可行的方法來反映這些屬性信息的特征。目前,多維數據可視化技術可以滿足這一要求,而定量化的屬性信息本質是研究區屬性的多維數據,其中的任何一維(列)數據均表示研究區的某一個屬性特征??梢允褂枚嗑S數據可視化技術來展現多維數據的內在特征,這種方法可以在一定范圍內作為一種有效的抽象信息展現工具,準確快速地發現數據集中隱藏的特征信息、關系信息、模式信息及趨勢信息等[2]。本文在總結前人研究成果的基礎上,用VC++6.0實現了基于幾何的多維數據可視化方法,即平行坐標法和圓形平行坐標法。該方法在澳大利亞新南威爾士州Mandamah地區銅-金礦床鉆孔數據的應用中,可以看出平行坐標法和圓形平行坐標法對比直方圖和等值線圖具有獨特的優勢,并且包含了兩者的優點,拓寬了一個圖所能表示的獨特信息。   1多維數據可視化   人類生活在三維空間中,面對海量的多維信息,由于自身認知能力的局限性,需要通過特殊的途徑對數據進行變化才能被我們在低維空間(一、二和三維)所認識。這種數據變化不應當只是簡單的圖形映射,而是要盡可能地把多維數據的特征及它們之間的關系信息在低維空間中展現出來[3-4]。目前,國內外學者已經提出了多種有效的多維數據可視化方法。如:(1)主成分分析中的數據方差[5]和多維尺度變換算法中的相異度[6]等是基于降維技術映射的方法。其基本思想就是將多維數據看做多維空間中的點,然后將這些點用某種可以在一定程度上保持這些點間特定關系的方法映射到低維可視化空間中。(2)CherNoff面法、星繪法和SurveyPlot法等基于圖形和圖標的多維可視化技術。圖形法用一個圖標表示一個多維信息的對象[7];圖標法用多個具有可視特征的圖標來表達多維信息,圖標的每一個信息可用來表示多維信息的一維[8]。(3)平行坐標法和圓形平行坐標法等基于幾何的多維可視化技術。其中,平行坐標法是目前最常用的多維數據可視化方法之一,圓形平行坐標是對它的進一步擴展[9-10]。這兩種方法表達的數據比較直觀且容易理解,但當數據量較大時,折線密度增加將產生大量交疊線,不便于辨識。   平行坐標的基本思想是將n維數據屬性空間通過n條等距離的平行軸映射到二維平面上,每一條軸線代表一個屬性維,軸線上的取值范圍從對應屬性的最小值到最大值均勻分布。這樣,每一個數據項都可以依據其屬性取值,用一條跨越n條平行軸的折線段表示,相似的對象就具有相似的折線走向趨勢??梢赃@樣來實現:設Pi=(pi1,pi2,…,pin),i=1,2,…,m,Pi為n維歐式空間中的一點(m為n空間中點的個數),經過映射Pi的第j分量pij變換為二維平面第j個平行軸上的點qij(xij,yij),那么Pi可以用依次經過點qi1,qi2,…,qin的折線段表示。令Aj和Bj分別表示這m個點的第j分量xij的最小值與最大值,第一個平行軸的橫坐標為d0,平行軸最低點的縱坐標為l0,平行軸的間距為d,平行軸的長度為l,映射關系可用圖1來表示,那么點qij在二維直角坐標系中的坐標(xij,yij)可用下式計算。   圓形平行坐標法是對平行坐標法的擴展。首先將圓n等分,使圓中的n條半徑表示n維空間的n條坐標軸。將n維數據中的每一維數據映射到對應半徑上,并用折線把相鄰半徑(維)間的數據連接起來,形成的閉合多邊形表示一個多維數據。由于坐標軸內外的不對稱性,它能更好地揭示多維信息之間的某些特殊關系。其映射關系可用圖2來表示,從圖中可以看出圓形平行坐標法不僅需要對y軸方向進行壓縮或拉伸,x軸方向也需要。具體實現時,令半徑為R,第一條半徑(坐標軸)角度為0°,相鄰半徑之間的夾角為θ=360°n,則表示第i個半徑的角度為:θi=θ(i-1)。那么點Pi=(pi1,pi2,…,pij,…,pin),i=1,2,…,m,Pi的第j分量pij在圓形平行坐標系中點qij的坐標(xij,yij)可用下式計算。   2程序設計   本程序設計了數據處理模塊和繪圖模塊。數據處理模塊用于接收數據和處理用戶命令;繪圖模塊根據數據和用戶命令繪制并顯示圖形。主要實現的功能及實現方法原理為:(1)在數據處理模塊中,首先定義了本程序可識別的數據結構。其中第1行第1列數據為數據的個數,第2列數據為數據的維數;第2行為各維數據的名字(可以是任意字符串),從第3行開始為對應維數據,數據間用空格隔開,最后用通用的文本文件保存結果。(2)其次根據各維數據的最大值和最小值,設計了供用戶選擇各維數據顯示范圍和順序的命令窗口。可供用戶選擇的數據表示方法有平行坐標法、圓形平行坐標法和二維散點法。(3)在繪圖模塊中,為避免由于數據量大而使系統在重繪時造成的死機現象,應用Cbitmap類定義了虛擬畫布。當程序接收到繪圖命令時,先在虛擬畫布上繪制圖形并保存,最終調用已保存的圖片進行顯示。這樣可以避免圖形重繪,提高了系統的效率。   本程序除以上大框架的功能外,在細節上也進行了很多人性化的處理,使得本程序更具有通用性,具體將在實例部分闡述。實現整個程序的流程圖如圖3所示。   3應用實例   將上面VC++6.0實現的多維可視化方法應用于Mandamah地區銅-金礦中。該礦床位于澳大利亞新南威爾士州中南部[11],Temora以北30km,Barmedman以南4.5km,地理位置在東經147°22′30″~147°23′12″、南緯34°10′27″~34°11′00″,研究區地形平坦。本文使用了該地區353個鉆孔數據,共36418個采樣點,每個樣品都分析了Au、Cu、Pb、Zn、Fe、Ni、Mo、As、Bi和Ca等10種元素的含量(由于各種元素含量差異較大,在分析時將各元素含量的單位進行了統一,用g/t即10-6來表示);此外還記錄了每個采樣點的三維地理坐標,分別記為East、North和Depth(單位為m)。#p#分頁標題#e#   在這些數據中,以(534500,6218300,15)采樣點為例,分析得到Au、Cu、Pb、Zn、Fe、Ni、Mo、As、Bi和Ca等10種元素的含量分別為0.01、47.00、12.00、18.00、6.99、0.00、5.00、7.00、0.00和0.04。將該點的三維坐標值及10種元素的含量值一起作為13維空間的一個點,記為(534500,6218300,15,0.01,47.00,12.00,18.00,6.99,0.00,5.00,7.00,0.00,0.04)。前3維數據為原數據中地理坐標East、North和Depth,后10維數據分別為Au、Cu、Pb、Zn、Fe、Ni、Mo、As、Bi和Ca的元素含量。對該數據進行變化(公式(1)和公式(2))后得到平行坐標和圓形平行坐標中的13個散點,依次連接這些點,形成如圖4所示的折線和圖5所示的閉合多邊形,分別表示該采樣點的數據。當單擊該折線時,該折線高亮顯示并顯示各維數據值;雙擊坐標軸時,顯示該處坐標值。其中East、North和Depth之間的折線表示(534500,6218300,15)這個采樣點。Depth和Au之間的線段表示該點的Au元素含量,Au和Cu之間的線段也表示該點Cu元素的含量。同時,該線段的方向(斜率)也可以表示Cu元素與Au元素的相對含量是增加還是減少。   在地理坐標為(537115,6216690)的位置上,打鉆總深度為96m,垂直方向每隔2m分析一個巖心樣品點。用表示一個鉆孔采樣點的方法,在平行坐標和圓形平行坐標上分別表示該鉆孔數據(如圖6,7)。從圖中可發現,表示Pb、Fe、Ni、Mo、As、Bi和Ca等7個元素數值的坐標軸兩邊折線分布稀疏或者趨于0,表示這些元素數值分布少或者不存在。深度超過47m(單擊Depth和Au之間的線段定位)時,Au元素含量約為0.01左右(雙擊該處坐標軸讀出,以下類似),Cu和Zn元素量約為60,該深度段內折線分布密,說明這些位置有Au、Cu和Zn元素分布。進一步查看(如圖8)Au、Cu和Zn元素間的關系,由折線密度可知Cu、Zn元素的含量值有兩個主要聚集區,分別在12和60附近。   將上面的方法應用于該地區353個原始鉆孔數據,結果見圖9和圖10。從圖中折線密度可以看出,Au、Cu、Pb、Zn等元素都有高值突出,即高值附近折線密度稀疏,而大量數據聚集在低值附近,即低值附近折線分布密度高。   從上面的例子可以看出,用平行坐標和圓形平行坐標法表示多維數據,具有以下性質:(1)若研究某一維數據的頻數分布時,可以通過對應坐標軸上折線的密度來判斷,即兩側折線越疏,表示頻率越低;兩側折線越密,表示頻率越高。這與直方圖表示的效果類似。更為重要的是,平行坐標和圓形平行坐標法克服了直方圖無顯示樣本空間位置的缺點。直方圖是對數據作無序的頻數統計,這一點使得直方圖失去了地質數據的位置屬性。而平行坐標法或圓形平行坐標法可以通過雙擊坐標軸間的線段來顯示該數據地理坐標,表示結果比直方圖表示法更全面。此外,直方圖只能表示二維或一維數據的頻數分布,而平行坐標法和圓形平行坐標法不受維數的限制。平行坐標法或圓形平行坐標法可以用一個圖表示多個數據頻數分布信息,而使用直方圖方法需要用多個直方圖才能表示這種情況。(2)在分析數據分布的等值性時,可以通過雙擊某一坐標軸(代表某一地質屬性)上某一數值所在的折線段,將與其等值的所有折線段及其所代表的數據值高亮顯示,通過讀取各坐標來尋找與該值等值的點。該功能可以定位與該折線等值的所有等值點的坐標,這與等值線表示的效果類似。更為重要的是,等值線圖只能顯示各數據的坐標,不能表達各數據的頻數分布,而平行坐標法或圓形平行坐標法可以通過折線密度判斷頻數,這比等值線圖表示法更全面。此外平行坐標法或圓形平行坐標法可以用一個圖表示多個數據等值分布信息,而使用等值線方法需要用多個等值線圖才能表示這種情況。   從以上分析可以看出,平行坐標法和圓形坐標法融合了直方圖和等值線圖各自的信息,避免了信息丟失的問題;且由于每個圖可以表示多個屬性(如各元素含量)的數據信息,因此可以在全局上了解整個研究區的數據分布特征。此外,坐標軸間線段的斜率還可以表示研究區各個研究對象(屬性)之間可能存在的關系。綜上所述,用平行坐標法和圓形坐標法來研究多維數據在很大程度上拓寬了一個圖所能承載的數據信息。   4結論   基于多維數據可視化方法,用VC++6.0實現了基于幾何的平行坐標系法和圓形平行坐標系法的多維數據可視化方法,該方法可以表示研究區的多個屬性信息,從而在全局上了解研究區的特征。在澳大利亞新南威爾士州Mandamah地區銅-金礦的實際應用中成果顯著。(1)直方圖可以統計數據頻數,但無法顯示坐標信息;等值線圖可以定位位置,但無法顯示數據的頻數。此外,這兩種方法對數據的維數有嚴格的限制。平行坐標法和圓形平行坐標法用一個圖簡單、快速可行地融合了兩者的優勢:通過對應坐標軸上折線的密度來表示的頻數分布;通過對應位置坐標,可查看數據分布位置。而且坐標軸間線段的斜率,還可以分析多維數據間的相對關系。(2)應用上述方法在澳大利亞新南威爾士州Mandamah地區銅-金礦床鉆孔數據中,通過折線密度可以看出,Au、Cu、Pb和Zn4個元素都有高值突出,即高值附近折線分布密度稀疏,而大量數據聚集在低值附近,即低值附近折線分布密度高。本文的數據由澳大利亞新南威爾士大學地球科學學院D.R.Cohen博士提供,在研究中還得到了他的指導與幫助,在此致謝。

亚洲精品一二三区-久久