前言:中文期刊網精心挑選了數據類型范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
數據類型范文1
1、贊成中立反對屬稱名數據類型。
2、只說明某一事物與其他事物在屬性上的不同或類型上的差異,它具有獨立的分類單位,其數值一般都取整數形式,只計算個數,并不說明事物之間差異的大小
3、只說明某一事物與其他事物在屬性上的不同或類型上的差異,它具有獨立的分類單位,其數值一般都取整數形式,只計算個數,并不說明事物之間差異的大小,比如性別、顏色類別、人口數、學校數、被試對某一書屋的態度(贊成、反對、沒有意見)等等,它們只能用具有相同屬性的個體數目來統計。這是根據數據反映的測量水平而分的四種類型中的一種。
(來源:文章屋網 )
數據類型范文2
【關鍵詞】數據庫管理系統 數據類型 存取機構
【中圖分類號】P208 【文獻標識碼】A 【文章編號】1674-4810(2014)03-0043-01
一 引言
傳統的數據庫系統只適用于管理二維數據(如表格、正文、字符串等)。隨著數據庫應用領域的不斷擴展,涌現出聲、圖、動畫等新的數據類型。這些類型的共同之處是要處理基于空間概念上的數據。近年來,美國、德國等科技先進國家正在開發對空間數據庫系統的研究,試圖在大部分傳統的數據庫管理系統(DBMS)的基礎上捆綁一些處理空間信息的功能模塊。
二 空間數據庫管理機制的特點
空間數據庫管理系統是空間數據庫的核心軟件,將對空間數據和屬性數據進行統一管理,為GIS應用開發提供空間數據庫的管理系統除了必須具備普通數據庫管理系統的功能外,還具有以下兩方面的研究內容:(1)空間數據存儲管理,實現空間數據強大的基礎平臺。和屬性數據的統一存儲和管理,提高數據的存儲性能和共享程度,設計實現空間數據的索引機制,為查詢處理提供快速可靠的支撐環境。(2)支持空間查詢的SQL語言,參照SQL-92和OpenGIS標準,對核心SQL進行擴充,使之支持標準的空間運算,具有最短路徑、連通性等空間查詢功能。
三 空間數據類型
傳統的DBMS只能處理一些基本數據類型、時態數據類型、貨幣數據類型以及結構數據類型等。然而空間數據庫可以應用到許多不同的領域,如擴充傳統數據類型、編制轉換函數或編程模擬新類型,但這種方法的效率不是非常理想。當我們運用數據庫引擎時,我們必須要增加空間數據類型處理的功能。由于篇幅有限,在此我們就暫時給出幾個面向空間實體的數據類型。
1.如果一個對象針對某個參照系,它的尺寸大小無關緊要,可抽象成為一個點模型
如一所學?;蛞患裔t院所占空間在小比例尺地形圖上無法表示大小時,通常我們用一個點來表示。數字線劃數據是將空間的物直接抽象為點、線、面的實體,用坐標描述它的位置和形狀。這種抽象的概念直接來源于地形測圖的思想。當要繪制地圖時,根據道路等級給它配賦一定寬度、線型和顏色。這種描述非常適用于計算機表達,用抽象圖形表達地理空間實體。
2.影像數據包括遙感影像和航空影像,它可以是彩色影像,也可以是灰度影像
影像數據在現代GIS中起到越來越重要的作用。其主要原因:一是數據源豐富,二是生產效率高,三是它直觀而又詳細地記錄了地表的自然現象,人們使用它可以加工出各種信息,如進一步采集數字線劃數據。在GIS中影像數據一般經過幾何和灰度加工處理,使它變成具有定位信息的數字正射影像。
四 關系—對象型存取結構
關系—對象型存取結構相對傳統的結構化數據模型,用更豐富的數據語義區別了對象類屬性和關系類型屬性兩個概念,使其適用于半結構化數據的存儲與管理。從分析空間數據的半結構化特征入手,以空間數據的嵌套關系為管理對象,實現了在關系型數據庫中對空間半結構化數據的存儲與管理。如適用于二值圖像存儲的四叉樹;有利于表示空間規則物件的八叉樹;GIS領域里常用的柵格數據結構和拓撲型數據結構“點—線—面”結構;此外還有R樹、R+樹等。這些結構在不同領域得到廣泛的應用,但是無論哪種結構,都有局限性,只能適用于某一領域或幾種應用領域。很難找到一種通用的空間數據結構來有效管理不同類型的數據。
五 結論
數據庫因不同的應用要求會有各種各樣的組織形式。數據庫的設計是根據不同的應用目的和用戶要求,在一個給定的應用環境中,確定最優的數據模型、處理模式、存貯結構、存取方法,建立能反映現實世界的地理實體間信息之間的聯系,滿足用戶要求,又能被一定的DBMS接受,同時能實現系統目標并有效地存取、管理數據的數據庫。簡言之,數據庫設計就是把現實世界中一定范圍內存在的應用數據抽象成一個數據庫具體結構的過程。
參考文獻
[1]郭力平等編著.數據庫技術與應用——Visual FoxPro[M].北京:人民郵電出版社,2008
[2]薩師煊、王珊編著.數據庫系統概論[M].北京:高等教育出版社,2000
數據類型范文3
關鍵詞:聚類分析;初始中心點;K-原型算法;聚類算法;混合屬性數據
中圖分類號:TP301文獻標識碼:A 文章編號:1009-3044(2010)11-2713-04
A K-prototypes Algorithm Based on Improved Initial Center Points
CHEN Dan, WANG Zhen-hua
(Faculty of Computer, Guangdong University of Technology, Guangzhou 510006, China)
Abstract: The K-prototypes is the main clustering algorithm that capable of handling mixed numeric and categorical data. However, K-prototypes sensitive to its initial center points, is parameter-dependent and susceptible to noise interference. In order to overcome them, a method is proposed to build initial center points heuristically through the neighbors of objects, and then calculate according the K-prototypes algorithm's procedures. At last, use a rule to optimize the clustering results which able to identify the abnormal points. The proposed algorithm successfully resolved the defects of the traditional algorithm, improves the accuracy of clustering results and stability of the algorithm. Experiments show the proposed algorithm leads to better accurate and scalable, superior to the traditional K-prototypes.
Key words: Clustering analysis; Initial center points; K-prototypes; Clustering algorithm; mixed numeric and categorical data
聚類是數據挖掘中的一種數據分析技術,具有重要意義和很強的挑戰性。其基本原理是將數據劃分成有意義的簇,相同簇的對象之間具有較高的相似性,而不同簇的對象之間則相似程度較低。這種數據分析技術廣泛應用于模式識別、數據分析、圖像處理和商業研究等方面。目前已劃分出多種聚類算法,常見的聚類算法有基于劃分的K-均值,基于密度的DBSCAN算法,基于層次的BRICH算法等?;趧澐值木垲愃惴↘-means簡單快速,對處理大數據集,但它是基于歐氏距離的劃分,難以滿足混合屬性集聚類的要求。文獻[1-2]對K-means算法進行擴展,先后出現了K-modes算法和K-prototypes算法。K-prototypes算法能夠有效地處理混合屬性數據集聚類的問題,但它的缺點也很明顯:1) 對于不同的初始值,可能會導致不同的聚類結果;2) 需要用戶給定初始參數,這些參數的選擇需要用戶具備大量的先驗知識才能確定,而用戶通常對數據集缺乏先驗知識導致所選參數對聚類結果產生很大的影響;3) 算法非常容易受“噪聲”干擾,導致聚類精度下降。
近鄰法是由Cover和Hart于1968年提出的,是非參數法中最重要的方法之一。它的原理是以全部訓練樣本作為代表點,計算測試樣本與所有樣本的距離,并以最近鄰樣本的類別作為決策,具有原理直觀,方法簡單等優點。因此,本文提出了一種基于近鄰法的初始中心點選擇策略對算法進行改進,利用近鄰法,啟發式地獲得初始中心點和k值。最后用一個基于最小距離的規則來識別異常數據點,防止“噪聲”的干擾。
改進后的算法能有效地解決傳統K-prototypes算法的缺點,基本特征有三點:1) 在選擇初始中心點的時候,采用近鄰法,有依據的選擇初始中心,避免了傳統K-prototypes算法對初值選擇的盲目性;2)它可以自動的獲取k個聚類,解決了K-prototypes算法k值必須預先給定的問題;3)為了避免算法中的“噪聲”干擾,采用了一個基于最大距離的啟發式規則,將離聚類中心最遠的數據點識別為“異常數據點”;經過實驗證明,其聚類后的精度和穩定性要優于原算法。
1 K-prototypes算法
K-prototypes算法是由Huang提出的可以對分類屬性和數值屬性相混合的數據進行聚類的一種有效算法[2]。其基本思想和K-均值算法類似,只是在K-prototypes算法中定義了一個對數值與分類兩種屬性都計算的相似性度量,以此作為聚類的目標函數,通過不斷更新聚類原型來達到優化目標函數,獲得最優聚類效果的目的。
算法描述如下:假定待聚類對象集合為X={X1,X2, …,Xn},由n個觀測對象組成,屬于混合型數據集,且每個觀測對象Xi={Xi1,Xi2, …,Xin}有 個屬性,由A1A2, …Am來表示,其中A1A2, …Ap為數字屬性,Ap+1A p+2,…Am為可分類屬性,屬性Aj取值域用Dom(Aj)表示,且xij∈Dom(Aj)。對于可分類屬性有Dom(Aj)={aj(1),aj(2), …,aj(nj)},其中nj指屬性Aj取值的數目。聚類中心用Z表示,相應的,簡單記作Za=(za1,za2, …,zam)。
K-prototypes算法的距離函數d由數值型和可分類型兩部分組成[3-4]:
d(Xi,Za)=dr(Xi,Za)+rdc(Xi,Za)(1)
其中:γ∈[0,1],為分類屬性的權重參數;
dr(Xi,Za)=(xij-zaj)2,由歐式距離度量;
rdc(Xi,Za)= γδ(xij,zaj),
當xij≠zaj時,δ(xij,zaj)=1;
當xij=zaj時,δ(xij,zaj)=0.
K-prototypes算法最小化目標函數[4]:
F(W,Z)=wiad(Xi,Za)(2)
滿足:
wia∈[0,1];1≤i≤n;1≤a≤k
wia=1;1≤i≤n
0≤waai≤n;1≤a≤k
綜上所述,K-prototypes聚類算法具體步驟如下:
1) 初始化初始聚類數k和聚類中心Z,即從數據集中隨機選取k個初始聚類原型;
2) 按照2)式定義的目標函數最小化原則,將數據集中的各個對象劃分到離它最近的聚類原型所代表的類中;
3) 對于每個聚類, 重新計算新的聚類原型;
4) 計算每個數據對象對于新的數據原型的差異度,如果離一個數據對象最近的聚類原型不是當前數據對象所屬聚類原型,則重新分配這兩個聚類的對象;
5) 重復Step 3和Step 4,直到各個聚類中不再有數據對象發生變化。
2對K-prototypes算法的改進
針對上面列出的K-prototypes的不足,該文提出一種基于近鄰的初始點選擇算法,該算法思想來源于近鄰方法[6],可確定初始的中心點集和 值。并在原型算法中加入適當的啟發式規則,使算法能夠有效地辨識異常數據點,綜合這三點改進,算法獲得更好的穩定和聚類結果。算法流程圖如圖1。
2.1 基于近鄰方法的初始中心點選擇策略
基于近鄰方法的初始聚類中心選擇策略基本思想為:以全部樣本數據作為代表點,計算測試數據點與所有樣本之間的距離,如果小于初始閾值,就把該點劃分為與測試數據點相同的類,記數變量增1,同時更新最短距離。最后選擇鄰居數目最多的數據對象作為初始中心點。
樣本點 的鄰居定義為P=Neigbour(x, θ):
{
判斷P是否為x的鄰居;
IfDist(P,x)≤θ返回1;
Else 返回0;
}
其中 為兩個數據對象的相似度量函數。
算法描述如下:
1) 定義一個初始閥值θ和中心點集Z,Z初始值為空;
2) 從數據集中隨機選一個點Q作為起始點;從Q開始遞歸地按照深度優先方式遍歷各點,P=Neigbour(Q, θ) ;如果返回值為1,則判斷P屬于以Q為中心的聚類,更新閥值θ,并使初始值為0的局部變量m=m+1(用于記錄Q的鄰居數目);否則退回到前一點繼續搜索。遍歷數據集中的每一個數據點;
3) 選擇鄰居數目最多的數據對象作為第一個初始中心點,加入到Z中,初始值為0的全局變量k=k+1;
4) 將原數據集刪除中心點及其鄰居,如果還有未被聚簇的點,即在這些數據點集中重復執行(2)-(4);
5) 輸出初始聚類中心Z和k。
2.2 對異常數據點的識別
聚類算法是將數據集中相似的數據歸為一類,因此理論上,一個簇中的所有數據點都應該離簇中心點比較近。然而可能存在一些異常點,它們不屬于任何聚簇。為了有效識別這些異常點,在K-prototypes中加入以下啟發式規則,在算法進行全局搜索的時候,引導算法避免異常數據點的干擾。
加入的算法啟發式規則描述如下:
Min{d(Xi,Za)} ≤ε; 1≤i≤n; 1≤a≤k(3)
其中ε為距離閥值。
算法在最后利用這個啟發式規則來檢驗聚類結果是否滿足這個條件,不滿足則標記為異常點;如果所有的異常點數目小于閥值ψ,則算法結束;否則,則將所有的異常點歸為一類,令k=k+1; 重新迭代,直到所有的異常點數目小于ψ。
2.3 改進后K-prototypes算法步驟
綜上所述,改進后的算法描述如下:
輸入:待處理數據集S,參數 θ,ε,ψ,γ
輸出:k個聚簇
步驟:
Step 1:使用數據預處理技術處理不完整、有噪聲的數據集,為后續聚類做準備。
Step 2:使用基于近鄰的初始中心點選擇方法獲得初始中心點集Za=(za1,za2,…,zam)和聚類數k;
Step 3: 按照(2)式的目標函數最小化原則,將數據集中的各個對象劃分到離它最近的聚類原型所代表的類中;
Step 4:對于每個聚類,重新計算新的聚類原型Za’;計算每個數據對象 對于新的數據原型Za’的差異度d(x,Za’),如果離一個數據對象最近的聚類原型不是當前數據對象所屬聚類原型,則重新分配這兩個聚類的對象;
Step 5:重復Step 3和step 4,如果各個聚類無數據對象發生變化,轉至Step6;
Step 6:利用啟發式規則(3)來檢驗聚類結果,標記異常數據點,如果異常數據點數小于ψ,算法結束;否則將這些異常數據點歸為一類,并使k=k+1,轉至Step3,反復迭代,直至使異常數據點控制在較小范圍內,算法結束。
3 實驗結果與分析
為了驗證所改進后的K-prototypes算法的有效性和可行性, 實驗過程分別采用隨機選擇初始點的K-prototypes算法和改進后的K-prototypes算法對給定數據集進行測試,并比較分析聚類結果。
系統配置為:Intel 酷睿2 雙核 CPU,1G內存,Windows XP,應用Matlab6.5平臺進行實驗仿真。
3.1 實驗1:人造數據實驗
為了顯示的直觀性,我們構造的數據樣本共有300個樣本,可以劃分為3類,分別為A類、B類和C類。每個樣本具有2個特征:一個數值型和一個分類型。使用隨機選取十組初始聚類中心所得到的最壞與最好結果與優化選取初始聚類中心的算法所得到的結果進行比較。如圖2所示。
實驗1參數設置:θ=0.20,ε=4.5,ψ=50;γ取0.5。
從圖4可以直觀地看出,傳統K-prototypes算法對于不同的初始聚類中心會得到差別很大的聚類結果;這說明初始聚類中心的選擇對算法的分類性能有很大的影響;圖5是采用改進后的K-prototypes算法,相比之下,改進后的K-prototypes算法具有更好的分類效果。
3.2 實驗2:標準數據庫數據實驗
實驗2采用UCI機器學習庫[7]中的真實數據集Voting和Cleve作為聚類對象,其中Voting為分類型數據集,而Cleve為混合類型的數據集,分別用原始K-prototypes算法和改進后的K-prototypes算法對其進行聚類分析,數據集描述如表1所示。
上述數據集Voting、Cleve都包含多個屬性,不能直觀地顯示其聚類結果,故從正確識別率和穩定性兩個方面進行分析。
3.2.1 評價標準
為了將原始數據的分類特征與算法得到的聚類結果作比較,本文采用聚類結果正確率作為聚類實驗結果的評價標準。
評價聚類效果的指標如下:
E=(n/N) ×100%
其中:n為正確分類的對象數,N為總對象數。E∈[0,1],為正確識別率,其值越大,表明聚類結果越精確;反之,聚類結果誤差越大。
4.2.2 聚類性能分析
實驗過程中,兩個算法的參數設置分別如下:在改進后的K-prototypes算法中,對于Voting,Cleve兩個數據集,分別設置閾值θ=0.15,ε=4.5,ψ=70;θ=0.20,ε=4.8,ψ=50,…,每組閾值分別運行5次;γ分別取1,0.7。
將傳統算法運行10次,通過打亂數據集的各個數據位置,反復仿真得出以下聚類結果。
表2是對兩組實驗數據的聚類精度值的對表,從表2可以直觀地看出:采用改進后K-prototypes算法進行聚類,得到的聚類精度都在90%以上,比原始K-prototypes算法聚類精度高很多。而采用原始K-prototypes算法聚類得到的結果有時高,有時低,波動比較大,說明原始K-prototypes算法對初始值很敏感,對于不同輸入順序的初始值而得到不同的聚類精度;相比,采用改進后的K-prototypes算法,每組實驗的聚類結果波動很小,聚類精度高。由此可證明,改進后的K-prototypes算法成功地解決了原始算法對初始值非常敏感,參數必須預先設定和對易受“噪聲” 影響等缺點。因此,實驗結果表明:本文提出的基于近鄰法的K-prototypes算法在分類精度和穩定性兩個方面都是十分有效的。
4 結論
該文提出了一種改進的K-prototypes混合屬性數據聚類算法,通過近鄰法獲取初始中心點集和初始聚類數目,避免了初始中心點選擇的盲目性和對聚類數目k值的依賴性;同時加入啟發式規則,防止了“噪聲點”的干擾。通過實驗可以看出該算法成功解決了原K-prototypes算法對初始敏感的缺點,并且自動獲取初始中心點集和初始聚類。通過對聚類結果的精度分析和穩定性分析,可看出改進后的算法優于傳統的K-prototypes聚類算法。
參考文獻:
[1] Ralambondrainy H. A Conceptual Version of the k-means Algorithm[J].Pattern recognition Letters,1995(16):1147-1157.
[2] Huang Zhexue. Extension to the k-means algorithm for clustering large data sets with categorical values[J]. Data Mining and Knowledge Discovery,1998(2):283-304.
[3] 陳寧, 陳安等. 數值型和分類型混合數據的模糊K-prototypes聚類算法[J].軟件學報,2001,12(8):1107-1119.
[4] 尹波,何松華.基于PSO的模糊K-prototypes聚類[J].計算機工程與設計,2008(11):2283-2285.
[5] 吳孟書,吳喜之.一種改進的K-prototypes聚類算法[J].統計與決策,2008(5).
數據類型范文4
關鍵詞 網頁布局;表格;框架;div+css
中圖分類號 TP393 文獻標識碼 A 文章編號 1673-9671-(2012)051-0178-02
網頁是網站構成的基本要素,而網頁元素在網頁中的組合決定了整個網站的最終效果,因此選擇合適的網頁布局類型及技術是關鍵。本文圍繞網頁布局的類型及布局技術進行了分析,并結合《三農服務網》實例進行了簡單的說明。
1 網頁布局類型分析
1.1 網頁布局的類型
大致分為標題正文型、T字型、國字型、框架型、封面型、Flash型6大類。
1.2 布局類型的分析
1)標題正文型:頁面分為上下結構,上面部分是標題、廣告、導航等,下面部分是正文。
優點:結構清晰、簡單,一目了然。
缺點:頁面顯得比較單調、枯燥。
2)T字型:頁面頂部為網站標志、廣告,下面部分的左列為主菜單,右列為主要內容。
優點:結構清晰,主次分明,容易上手。
缺點:頁面顯得呆板,變化較少,在頁面停留時間久會感覺看之無味。
3)國字型:也可以稱為“口”、“回”或“同”字型,頁面分為上中下三部分,頂部是標題、廣告,底部是網站的鏈接區、聯系方式、版權聲明等,中間部分分為左中右三列,左右分別列出一些小條,中間部分是主要內容。
優點:充分利用頁面空間、增大信息量。
缺點:內容過多,顯得頁面擁擠。
4)框架型:一般分為左右框架型、上下框架型、綜合框架型。左右框架型是一種左右分為兩頁的框架結構,一般左面是導航鏈接,右面是正文。上下框架型:與左右框架類似,區別僅僅在于它是把頁面分為上下兩頁的框架。綜合框架型:上面兩種結構的組合,相對復雜的一種框架結構??蚣苄瓦m合于聊天室、論壇、軟件下載等網站的版面布局,
優點:框架型頁面分割合理、布局結構清晰。
缺點:兼容性差、頁面加載速度慢。
5)封面型:頁面布局是一張精美的平面設計宣傳海報,常用于網站首頁。
優點:頁面顯得美觀、大方、輕松,給人時尚優雅、自由的感覺。
缺點:文字信息量少,頁面打開速度緩慢,瀏覽者不能直奔主題瀏覽信息。
6)Flash型:與封面型類似,只是其添加了動畫效果與音頻效果,表達的信息更豐富。
優點:靈活、表現力強,很直觀的展現了網站的理念等,適用于網站的首頁。
缺點:速度慢,瀏覽者需要漫長的過程才能瀏覽到所需的
信息。
2 網頁布局技術分析
2.1 表格技術
表格用于在網頁上顯示表格式數據以及對文本和圖形進行布局的強有力的工具。表格由一行或多行組成,每行又由一個或多個單元格組成。表格、行、單元格的標簽分別為、< tr>、,添加表格、行、單元格時,就增加相對應的標簽。
頁面一般由嵌套表格的技術實現。嵌套表格是在一個表格的單元格中的另一個表格??梢韵衿渌魏伪砀褚粯訉η短妆砀襁M行格式設置。但是其寬度受它所在單元格的寬度的限制。引入嵌套表格,由總表格負責整體的排版,由嵌套的表格負責各個子欄目的排版,并插入到總表格的相應位置中。
使用表格布局時,瀏覽器一般是等整個表格的內容都接收到以后才顯示表格里的內容,因此盡量把一個表格拆分為若干個表格,加快打開頁面的速度,優化頁面。
優點:使用表格布局網頁,可以精確地控制各網頁元素在網頁中的位置組織整個網頁的外觀,通過在表格中放置相應的圖片或其他內容,即可有效地組合成符合設計效果的頁面。
缺點:使用過多的表格,特別是嵌套表格,會造成頁面垃圾代碼過多且可讀性非常差,影響頁面下載速度,不符合W3C網頁標準,網站不便于維護。
2.2 框架技術
框架把瀏覽器窗口劃分為若干個區域,每個區域可以顯示不同的網頁??蚣苤饕▋蓚€部分,一個是框架集,另一個就是框架。框架集是在一個文檔內定義一組框架結構的網頁。框架集定義了在一個窗口中顯示的框架數、框架的尺寸、載入到框架的網頁等??蚣芗臋n本身不在瀏覽器中顯示,它只是向瀏覽器提供如何顯示框架以及在框架中顯示哪些文檔的信息,是一個用于存儲框架的容器??蚣軇t指在網頁上定義的一個顯示區域,每個框架都有自己獨立的滾動條,方便訪問者獨立瀏覽這些框架。
優點:使用框架可以非常方便的完成導航工作,各個框架之間不存在干擾。框架還有個很大的優點就是網站的風格能保持統一,它把相同的部分單獨制作成一個頁面,作為框架結構一個子框架的內容給整個站點公用。
缺點:框架是有邊框的,占用空間。采用過多的框架會增加下載網頁所需的時間,影響網頁的瀏覽速度,對于內容多、布局復雜的網站不宜采用框架布局,且框架結構的頁面兼容性不好。
2.3 div+css
div+css是網站標準中常用的術語,是一種網頁的布局方法,有別于傳統的html網頁設計語言中的表格(table)定位方式,可實現網頁頁面內容與表現相分離。
xhtml是一種在html基礎上優化和改進的新語言,在xhtml網站設計標準中,要求用div+css的方式來實現各對象的定位,即div定義網站結構(即布局網頁)、css創建網站表現(即格式化網頁元素),從而實現更加豐富的網頁效果,提高網頁的傳輸速度和維護更新效率。在xhtml網站設計標準中,不再使用表格定位技術,而是采用div+css的方式實現各種定位。
優點:表現和內容相分離,提高搜索引擎對網頁的索引效率。代碼簡潔,提高頁面瀏覽速度,易于維護和改版,只需簡單的修改幾個css文件就可以重新設計整個網站的頁面。
缺點:雖說div+css解決了大部分瀏覽器兼容問題,但是也有在部分瀏覽器中使用出現異常,比如火狐瀏覽器。而且div+css比表格定位復雜的多,不適合初學者。
2.4 圖像處理軟件技術
Photoshop等圖像處理軟件提供了“切片”工具,實現把圖形轉換為網頁布局。首先是在圖像處理軟件中繪制出頁面布局圖,然后根據實際切出的需要區域,應用到頁面當中。
優點:布局精確,適合比較復雜的頁面。
缺點:過程復雜,要求能熟練使用圖像處理軟件。
3 《三農服務網》的網頁布局分析
3.1 使用的布局類型分析
使用者:《三農服務網》是一個農業網站,瀏覽者多為農民,他們的電腦水平比較相對比較差,太復雜的網頁使他們無從下手,因此設計的頁面結構盡量簡單,并且能一目了然。
網站內容:網站主要以視頻教學為主,文字為輔,除首頁內容豐富一些,其他子頁面的內容稍微單調,因此盡量使得子的頁面內容顯的飽滿,避免出現過多的空白、枯燥區域。
綜合以上的兩大主要因素,《三農服務網》以簡單的國字型網頁布局。結構簡單、內容清晰,使用方便。頁面頂部為標志+主題語+導航欄,底部為版權聲明、友情鏈接,中間部分分為左右兩列,考慮到內容稀少,單調,子頁面左列也放置了導航欄?!度r服務網》的首頁、子頁面如圖1、圖2所示。
3.2 使用布局技術分析
圖像處理軟件技術:能處理大量的圖片,特別是首頁的圖片,都盡量處理與網站的主體顏色“綠色”協調一致。還可以設計一些特殊字體(如頁面頂部的主題字體),美化頁面。
表格技術:可以精確地控制由photoshop切片工具切割的圖片,組合成符合理想的效果頁面。
綜合兩種技術的優點,《三農服務網》頁面布局輕松地實現了預期的效果。使用圖像處理軟件技術、表格技術的布局效果如圖3、圖4所示。
4 結束語
網頁的布局實際是一個信息合理化整合的一個過程,在實際制作過程當中,依據實際情況,合理的選擇網頁布局的類型及布局技術,盡可能地做到“興其利,廢其弊”。
參考文獻
[1]揚森香,聶志勇.網頁設計與制作案例教程[M].北京大學出版社,2009.
[2]楊紀梅,肖志強.網頁設計與制作指南[M].北京:清華大學出版社,2010.
[3]章舜鐘.網頁設計與制作[M].北京:電子工業出版社,2010.
[4]焦坤.如何改善網頁布局以提高檢索效率[J].現代情報,2008.
[5]梁斌,柯華坤.網頁布局技術比較與應用優化[J].中國教育技術裝備,2009,11.
數據類型范文5
隨著我國信息化建設的不斷深入,信息資源在檔案的行政事業管理中不斷需要加強,以保證檔案的管理和利用能夠健康快速地發展。由于檔案工作牽扯到的社會信息以及業務工作非常多,因此對于檔案信息資源的開發和利用已經成為國企檔案工作發展的基本目標,是適應國企改革發展需要進行的時代性的創新和變革。新時期檔案實業要達到健康持續的發展,需要對各類文件、會議資料、電傳等等加以管理,還有與企業發展有關的技術資料、科研報告、論文資料等,以及企業的立式檔案,線性文件等都要加強管理。不同的應用領域,其側重點也不盡相同。檔案的管理系統涉及到的內容眾多,當前運用計算機輔助管理系統,對檔案的信息和實體進行管理,是非常有必要的。
1 數據庫類型
數據庫的管理平臺包含了檔案的管理系統的全部內容,從當前檔案管理的數據庫的發展里程來進行數據庫的類型分類,可以看到:
從檔案的發展初期,采用手工錄入的方式,建立檔案目錄表,要求檔案管理人員參照檔案的放歸規定,將各類紙質實體檔案加以收集、整理、立卷和歸檔。進入計算機輔助檔案目錄管理之后,采用獨立的計算機管理的方式,將檔案的目錄加以整理,形成了桌面式的?稻菘獾蛋改柯脊芾砥教ā5攪嘶チ?網時代,依托網絡建立大中型關系數據庫,將數據平臺中的掃描功能加以利用,形成了檔案實體的掃描管理體系。
如今,數據庫的全文檢索功能,能夠對檔案的目錄以及全文等加以掃描和管理,電子文件、多媒體文件等等,都可以進入非結構化數據管理體系中,而且通過管理結構的不斷調整和優化,數據庫管理已經達到了全文數據管理和數字檢索的發展階段[1]。
當前,國企的檔案掛歷I軟件已經實現了數字化的接收、整理和編目的技術。通過計算機管理將檔案的利用和移交全程加以運行,網絡的查詢以及調檔等,通過服務,實現了管理系統的運行,即便是海量的信息,全文數據庫技術通過OCR檔案管理識別技術、電子文件全文內容索引和存儲技術等,都能達到高效快捷的檔案的索引和存儲,提高了檔案的查全率和查準率,能夠將全文檢索手段予以提高,對于檔案的利用水平來說是十分高效和便捷的。但是,由于后臺數據平臺的數據庫的類型的不同,在物理原理上,檔案的數據物理儲存的功能不盡相同,因此也不能保證數據段的一致性以及完整程度。這兩類數據庫的開發結構不同,因此在系統開發的難度上有所增加,增加了數據庫維護的成本。
兩類數據庫的類型,分為傳統的關系型數據庫管理系統以及現代信息檢索系統,前者的缺點在于不具備數據處理效率,靈活性一般,后者需要結構化數據以及元數據的支持。因此,在集成傳統數據庫管理系統的基礎上建立新的數據庫管理平臺,體現數據存儲的管理非結構化,將數據的關系特性和全文特性予以表現,構成檔案管理的新課題?;旌闲蛿祿炀蛻\而生,在當前國企檔案管理系統中發揮著重要的作用。
2 數據庫應用以及技術特點
1)數據庫采用的是擁有自主知識產權的數據管理系統,支持關系數據模型以及強大的多語種核心語法集,能夠進行高擴展性和穩定性的多語種檢索全文,遵照標準化和開放性的原則,在數據訪問中能夠做到跨平臺和標準化,為企業服務接口服務。
2)該系統的特點首先是能夠對數據進行半結構化和非結構化的混合統一管理,對于海量的數據,從檢索技術和數據庫管理技術的角度出發,保證數據庫管理技術中的事務性和完整性,對全文進行檢索的數據查詢功能利用的是非結構化索引融合,采用的是多種查詢方式和相互操作的
實現[2]。
3)OCR識別技術,通過對暗、亮的模式的掃描,采用掃描儀等設備對字符進行識別,然后將形狀識別為計算機文字,形成文本資料和圖像文件進行分析處理。
4)PDF技術是通過設備的分辨,將文字、字型等封裝在一個文件中,設置超文本連接或者動態影像等電子信息,提高集成度和安全可靠性。
5)全文信息自動抽取技術,是將文件的無關信息進行過濾,然后得到全文數據庫的索引等的自動加載,將電子文件以附件的形式入庫,提供原版的瀏覽。
3 系統架構
由數字化掃描將檔案生成目錄數據或者是電子文件,通過OCR識別技術生成檔案,加載到檔案資源庫中,生成數據導入數據表,自動掛接電子文件,通過全文信息技術的抽取,建立全文索引。
用C/S和B/S相結合的模式提供檔案信息的管理和利用,其中以C/S方式提供檔案信息管理和維護功能,以B/S方式提供檔案信息的檢索和利用功能。
應用平臺調用業務層數據訪問接口,在不影響其他功能模塊的前提下,構建五大業務功能模塊客戶端,各業務功能模塊再通過數據層數據訪問接口,采用混合型數據庫管理系統,提供訪問接口的服務:檔案維護、檔案管理、檔案利用、系統檢索利用和Web管理,只需更各業務功能模塊和檔案系統利用平臺(Browser)相應的模塊,就能通過檔案系統管理平臺(Client)問業務功能模塊統一訪問和操作數據庫。整個系統可存放檔案目錄,可在支撐平臺和安全保障的支持下對用戶信息、日志信息、系統設置等系統數據進行維護,確保全文、電子文件等檔案信息能夠被安全、訪問和利用,并在數據庫平臺中加以封裝,并穩定、可靠地運行。
數據類型范文6
關鍵詞:數據分類模型 關聯性 貝葉斯
1 引言
隨著我國城鎮化水平不斷提高,燃氣管道接入千家萬戶。隨著用戶逐步增長,傳統的燃氣計費及用戶管理方式需要消耗大量的人力物力,已經無法滿足現有狀況的需求。信息技術的發展為燃氣計費及用戶管理提供了有效的解決方案。通過構建一個基于B/S分布式的燃氣計費及用戶管理系統能夠提高燃氣企業業務管理效率[1]。
然而,隨著用戶數量以幾何級數的方式增長,燃氣企業所收集到的海量用戶信息及業務數據信息離散的分布在系統數據庫中。傳統的數據查詢方法僅利用用戶的查詢請求從海量數據中提取信息,不僅增加了查詢匹配復雜度,而且消耗大量的系統資源[2][3][4]。面對復雜的用戶查詢請求,系統無法有效地分析用戶請求信息,以至于返回的低相關度結果不能滿足用戶需求[5][6]。此外,企業的發展離不開業務統計信息,數據以靜態方式存儲,系統忽略了數據之間的關聯性,使得海量一維數據無法滿足企業需求,進而導致不能為企業決策提供支持。
本文設計了一個基于貝葉斯的多維數據分類模型,利用數據之間的相關度,將數據進行分類,根據不同的數據查詢維度,將數據進行多維度組織。經過仿真實驗,該模型能夠提高數據查詢效率。
2多維數據分類模型
在數據庫中,用戶數據的存儲方式依賴于關系數據庫的結構化存儲模型,即。其中user表示一個用戶信息的存儲結構;ID為系統為該用戶分配的ID號,ID作為主鍵通常用來唯一標識用戶的信息;name作為結構化信息中的一個特征項被用來表示用戶的名字;address代表用戶的居住地址;cost,表示用戶的消費情況。
傳統的分類方法通常采用一維的方式對數據進行分類。例如,根據用戶所在區域、用戶消費狀況、用戶信譽度或用戶入庫時間等特征項進行分類。這種簡單的分類方法無法滿足用戶多維的查詢及統計需要。在數據分類之前,需要定義一個分類維度庫,即D=(d1,d2,...,dn)。通過分層的方法將每個分類維度通過分類維度來表述,也就是說,將現有的分類維度進行抽象,生成頂層分類維度集合,若新生成的分類維度隸屬于其中的某個,則將其隸屬于該分類維度下,成為其子節點。從以上過程看出,該分類模型是個不斷學習變換的模型,可通過樹形結構進行表示。子類的創建需要通過評價函數來給出,這里我們選用貝葉斯分類方法,當一個新類別創建后,將其與頂層類別進行匹配,若屬于其中某一類的概率較大,則歸屬于該類別。當某一新類別隸屬di或di的子孫后,那么該類別可以被視為di或di子孫的一個特征,即該新類別與其他類別可以表示di或di的子孫。那么一個類別可以表示為di=(unode,dnode,f),其中unode為該di的父類別,dnode為該di的子類別集合,f為di的特征。
貝葉斯分類模型是一個利用先驗知識來構建分類樹的模型。每個類別均有特征對其進行描述,也就是f在創建該類別時需要進行初始化。本文采用基于訓練模型的分類構建算法。首先定義分類特征F=(f1,f2,...,fm),F為當前所有分類D的特征集合,一個分類di可以由一個或幾個特征f來表示。設FB=(fb1,fb2,...,fbk)為特征訓練庫,根據特征fi從文本或其他信息選擇具有該特征較為明顯的信息進行分解,將含有或表示該特征的分解信息存儲至FB中,這些信息即可表示一個fbi,也就是說,fbi中存儲著表示該特征的離散的信息,若某一數據需要進行分類識別,那么可從該信息中提取若干特征與特征信息進行匹配,首先獲取該數據的特征,再將其特征與fbi進行匹配,以判斷其是否屬于該fbi,再根據fbi所隸屬的fi,從而確定該數據隸屬于某一類別di。當判斷該數據屬于某一頂層類別后,還需進一步進行細化,以判斷該數據是否屬于其子類,若通過特征匹配后屬于某一子類,則循環此過程,直到將該數據判定屬于分類樹中的葉子節點。反之,若在分類判別過程中出現無法確定該數據分類后,則可進行評估,并判定是否生成一個新的類別。因此,數據的分類判別過程也是分類樹的一個不斷學習進化的過程。在數據庫中的任一數據均可能具有多個類別,通過確定某一分類,即可獲得該類別下的數據,分類過程如圖2所示。
計算分類隸屬度可通過貝葉斯分類模型來計算其隸屬度的大小,根據評估結果進行排序,可分別列出所屬分類。貝葉斯分類模型還可以被用來計算特征隸屬度,根據隸屬度大小將特征進行排序。在特征計算過程中,數據包含多個特征,但由于用戶分類查詢的意圖對查詢特征具有較大影響,因此,需要在計算隸屬度的過程中加入一個判定閾值來消除某些相關度低特征的影響,還需要引入一個特征識別的機制,即一旦認定該信息屬于某個特征,且該特征較為重要,則該信息即使可被視為噪聲也要作為一個特征信息,也就是說,可根據先驗知識將某些重要的特征信息或標志性信息分配較高的權重,在計算特征隸屬度或分類隸屬度的過程中,將其作為重要信息而保留。
3 實驗結果及分析
在仿真實驗中,數據庫中存儲的數據量為5000。通過運行分類算法,數據庫中的信息被劃分為46個類別。本文與傳統未分類查詢算法進行比較,并分別進行了1000次查詢。圖3表示查詢時間對比結果,圖4表示查詢相關度對比結果。
如圖3所示,隨著請求數量的不斷增加,未分類查詢算法始終擁有較高的查詢響應時間,基于貝葉斯分類的查詢算法則保持較低的查詢時間。對于兩種算法之間存在的性能差異而言,當一個查詢進入到系統中,對于未分類查詢算法而言,它需要從整個數據庫中查詢所需的信息,因此,它的查詢空間較大?;谪惾~斯分類查詢算法能夠精確將數據內容分類,通過確定所查詢數據的特征,能夠將查詢請求定位到某一類別,根據查詢數據特征不斷的縮小分類粒度,則可精確地定位所查詢的數據,從而降低了查詢空間規模,因此查詢響應時間維持在較低的水平。
如圖4所示,基于貝葉斯分類的查詢算法根據數據之間特征的關聯性,將數據進行分類,當用戶輸入查詢信息時,快速精確地定位到分類節點上。因此,本文提出的算法能夠獲得較高的信息檢索結果相關度,即所檢索的相似信息集合中的信息被采納的程度較高。從而驗證了本文提出模型的有效性。
5 結語
本文提出了一個基于貝葉斯的多維數據分類模型,利用數據之間的關聯性,構建一個自學習自調節的分類樹,降低了查詢空間規模,能夠精確地將查詢請求定位到所需的查詢數據分類上,使得用戶所獲得的查詢結果與查詢請求具有高度的相關性。
參考文獻:
[1] 李鍇, IC卡燃氣表預付費系統的研究[J]. 山西電子技術. 2006,3:86-88.
[2] 閉樂鵬,徐偉,宋瀚濤, 基于一類SVM的貝葉斯分類算法[J]. 北京理工大學學報. 2006,26(2):143-146.
[3] 孫天昊,陳飛,朱慶生,曹峰, 基于貝葉斯分類的增強學習協商策略[J]. 計算機科學. 2011,38(9):227-229.
[4] 彭興媛,劉瓊蓀, 不同類變量下屬性聚類的樸素貝葉斯分類算法[J]. 計算機應用. 2011,31(11):3072-3074.
[5] 曹玲玲,潘建壽, 基于Fisher判別分析的貝葉斯分類器[J]. 計算機工程. 2011,37(10):162-164.