前言:中文期刊網精心挑選了數據理論論文范文供你參考和學習,希望我們的參考范文能激發你的文章創作靈感,歡迎閱讀。
數據理論論文范文1
通過研究傳統的關系數據庫得知,以往的數據管理過程存在一定的局限性,往往受制于較弱的擴展性方面。相對而言,云數據管理系統中的技術形態較為高級,因其已經具備了利用云計算平臺來處理海量數據以及數據信息檢索的能力。從技術應用的角度來看,云數據管理系統的運作模式較以往有了較大的改進,不僅有效降低了維護系統的資金與人力的成本,而且,能夠憑借較為先進的技術來增強系統本身的可擴展行以及容錯能力,正是由于云數據管理系統的職能作用較為突顯,該系統備受大型網站運營管理的青睞,其應用極為廣泛[4]。事實上,云計算是一種基于互聯網平臺的多元化管理模式,為諸多領域提供信息傳遞、儲存等服務。在當今大數據時代背景下,云計算服務項目得到了更為廣闊的發展空間,為現代社會生產建設助力,云數據管理系統中的技術形態,云計算服務的實踐價值較為突出,在諸多領域都有所涉及。
2闡述有關云數據管理系統中的查詢技術研究內容
2.1有關云數據查詢處理的目標及其運作特征的研究內容
由于信息時代的到來,大多數人們在生活和工作中都離不開各類電子產品的應用。從現實環境來看,在資源的利用與存儲方面,云數據中心及其服務能夠滿足互聯網平臺上的用戶服務需求。從具體的實踐領域來看,現代企業或其它社會組織機構通過各種途徑來獲取大量的數據信息資源,并利用這些所能查詢得到的信息資源來強化系統管理。在信息技術快速發展的當今社會,在很多領域所構建的數據庫的規模以及范圍都在不斷地擴容,但即便是相關技術在不斷更新當中,卻也無法運用傳統技術來滿足極快速增長的數據信息量,這便是大型數據集過程的特點所致。從具體來看,云數據查詢處理技術具有可擴展行、可用性等目標特點,而且,查詢處理技術在異構環境中的運行能力較強,具有較為豐富靈活的用戶接口,以便于滿足用戶的差別化數據查詢以及存儲的需求。
2.2云數據管理系統中的查詢技術的種類及其操作模式
在以往,大多數人會利用移動硬盤、U盤等設備來進行數據存儲,將海量數據進行歸檔處理,但在有了云數據管理系統以后,便可以憑借云計算及其相關技術來實現數據的儲存及查詢調用等目標。通過研究云數據管理系統中關鍵技術的特征及系統的基本框架可知,云數據信息在接受到用戶指令進行數據查詢的過程中,需要通過諸多關鍵技術的集合作用來解決實際問題,尤其是需要索引管理、查詢處理及優化的過程來輔以操作,才能達到精準查詢云數據的目標。從總體情況來看,技術的應用不僅要考慮其可行性和有效性,還要考慮技術應用的經濟性,如若技術應用的成本過高,則要考慮該方案的優化管理。對于商用海量數據存儲要求來講,信息記錄及存儲要進行合理的規劃,以便于提升調用系統數據的效率。通常情況下,云數據管理系統中的查詢技術主要有兩種常見的模式,即BigTable技術與Dynamo技術。二者各具優勢,前者BigTable技術;后者Dynamo技術采用了DHT(內網用分布式哈希表)作為技術的基本存儲架構,其優勢在于它的自我管理能力較強,從而避免了很多數據處理過程中可能發生的單點故障[5]。
3結束語
數據理論論文范文2
大數據管理與大數據應用都離不開大數據技術,但更離不開大數據人才。沒有人才,再先進的設備只能是“豪華擺設”;沒有人才,再先進的技術也只能是“紙上談兵”。因此,推進大數據管理,除了需要培養一大批優秀的IT人才外,還迫切需要培養一大批大數據人才———數據管理師、數據分析師,造就一批數據科學家等高端人才。因為只有他們才能駕輕就熟處理海量的信息,并從中挖掘出“數據財富”。此外,面對全體員工傳播大數據知識,普及大數據技術,培訓大數據技能,奠定推進大數據管理的群眾基礎和技術基礎,同樣也是一項長期而艱巨的任務。
二、構筑大數據管理“一站式”工程,建設“大數據管理智庫”新平臺
1.加強內、外部數據的“一站式”管理。對企業來說,數據無處不在,無時不有,究其來源,無非企業內部和外部兩個渠道。內部數據的活水源頭是各單位、各部門、各專業的統計報表提供的數據;外部數據一方面是國家管理部門、行業管理部門、權威機構等的統計數據,另一方面是來自互聯網、移動互聯網、各種傳感器等信息感知和采集終端采集的數據。這些數據,日積月累,最終“百川歸海”,匯成大數據的海洋。大數據時代,企業通過建立“大數據管理智庫”,打破渠道的邊界,把不同來源的數據整合在一起,實施一站式管理,讓數據時時刻刻為企業提供服務。2.注重數據挖掘環節的“一站式”管理。企業數據挖掘過程也是數據發現和梳理的過程,其有4個重要環節:采集、存儲、分析、預測。企業建立了“大數據管理智庫”,對這4個環節實施一站式管理,可以大大“提純”數據價值。首先是盡可能采集異源甚至是異構的數據,去偽存真,多角度驗證數據的全面性和可信性。其次是要用到冗余配置、分布化和云計算技術,分類、過濾和去重,減少存儲量,同時加入便于檢索的標簽。第三是將高維數據降維后度量與處理,利用上下文關聯進行語義分析,從大量動態而且可能是模棱兩可的數據中綜合信息,導出可理解的內容。第四是將數據分析后預測出的結論應用到企業中去。3.突出價值鏈上數據的“一站式”管理。企業價值鏈可以分為基本增值活動和輔增值活動兩大部分?;驹鲋祷顒?,即一般意義上的“生產經營環節”,如材料供應、成品開發、生產運行、成品儲運、市場營銷和售后服務。這些活動都與商品實體的加工流轉直接相關;輔增值活動,包括組織建設、人事管理、技術開發和采購管理。價值鏈的每一個環節都有相伴而生的數據。過去這些數據處在分散狀態。大數據時代,企業通過“大數據管理智庫”平臺,對這些數據實施一站式管理,有利于每一個環節的價值再創造和價值鏈的增值。
三、構筑大數據管理“一體化”工程,打造“大數據管理融合”新生態
數據理論論文范文3
(1)部門管理:按行政線展示,通過行政管理關系管理部門;按業務線展示,通過業務上級部門關系管理部門。系統缺省提供已有涉及渠道管理部門信息,數據來源M域系統、B-SDM系統、集中渠道系統。部門修改功能。支持按部門名稱或部門編碼模糊查詢。(2)部門行政關系查詢:系統缺省提供已有涉及渠道管理部門信息,數據來源總部管理數據庫。部門關系樹按行政管理部門建立,即可進行行政管理部門查詢功能。(3)業務部門管理:系統缺省提供已有涉及渠道管理部門信息,數據來源總部管理數據庫。部門新增、修改、刪除和查詢功能。(4)部門補充信息:將新增的部門添加行政管理部門。(5)部門補充業務線:將新增的部門補充業務線。(6)部門導出:對部門查詢出的內容進行導出。
2人員信息維護
(1)自有人員信息管理:支持對部門的人員信息的選擇添加、修改和查詢功能。支持人員修改時對渠道名稱的修改。支持人員添加與管理渠道之間的維護。(2)自有人員導出:查詢出符合條件的聯通自有人員信息,并且將這些信息導出為EXCLE格式。(3)社會人員導出:查詢出符合條件的歸屬渠道社會人員信息,并且將這些信息導出為EXCLE格式。(4)社會人員帳號管理:支持對社會渠道中的人員信息、帳號信息的新增、修改、刪除(注銷)功能。支持批量導入注冊功能。支持區分人員是實體人員還是虛擬人員,對于標記虛擬人員的員工禁止登入使用系統。支持對是否客戶經理以及客戶經理類型的區分。支持新增人員與管理渠道之間的維護。(5)虛擬人員維護:查詢出歸屬地域以下的所有存在人員賬號信息的自有人員信息。提供虛擬人員新增功能,虛擬人員新增必需要掛靠已有的自有人員帳號下。提供虛擬人員修改功能。提供虛擬人員注銷功能。提供虛擬人員詳細信息查看功能。
3數據變更提醒
變更提醒:在我的工作臺中人工處理M域發起的部門新增、修改、注銷操作。提供在我的工作臺中人工處理渠道發起的部門維護操作。提供在我的工作臺中人工處理B-SDM發起的部門維護操作。
4接口異常處理
記錄管理:查詢出操作員所在省份的記錄信息。通過【查詢明細】按鈕,可以查詢與記錄關聯的明細信息。通過【重新發送】按鈕,對發送失敗的明細信息重新發送。通過【人工處理完成】按鈕,將發送失敗的明細信息置為人工處理完成狀態。
5系統管理
系統管理員可以管理用戶分組,維護組的信息,通過增加新組添加一個新的用戶分類方式。系統有默認的超級管理員,只能做設置系統管理員的操作。由系統管理員設置部門管理員,部門管理員具有對整個系統的部門、用戶管理權。部門管理員能設置轄內下級部門的管理員。(1)權限管理:權限管理是按不同的工作范圍和角色管理系統操作者享有的資源及訪問的范圍,通過對一些要素的靈活控制實現權限管理,分為業務操作權限和數據權限。(2)日志管理:日志是系統運行過程中,在某一時刻對系統某一運行狀態的記錄。集中渠道管理的任一功能模塊,均應將處理狀態、處理結果、進程執行情況等信息記錄日志,供系統維護人員瀏覽查詢。
6結束語
數據理論論文范文4
圖1,通道保護器可防止傳感電路受瞬態電壓沖擊。
圖2,通道保護器將瞬態過壓箝位在安全電平內。
當出現某種故障時,通道保護器輸入端電壓就會超過一個由電源電壓減去MOSFET閾值電壓設定的電壓。如果發生正過壓,則這一電壓是VDD-VTN,其中VTN是NMOSFET的閾值電壓(典型值為1.5V)。如果發生負過壓,則這一電壓是VSS-VTP,其中VTP是PMOSFET的閾值電壓(典型值為-2V)。當通道保護器的輸入超過上述兩個設定電壓中任何一個時,保護器都能將輸出箝位在這兩個電壓值以內。NMOSFET和PMOSFET都具有雙向故障保護和過壓保護功能,所以它們的輸入和輸出端可以交換使用。圖3顯示出了正過壓情況下的設定電壓和MOSFET狀態。
圖3,在出現正過壓時,設定電壓和MOSFET的狀態如圖中所示。
圖4,在出現故障條件時,輸出負載將電流限制在VCLAMP/RL以下。
圖5,在本電路中,ADG466通道保護器保護測量儀表放大器的敏感輸入端,防止發生傳感器故障。
數據理論論文范文5
隨著天文數據的日益增加,存儲和管理天文數據變得非常重要,尤其在天文數據的歸檔和管理方面,占有舉足輕重的地位。能夠很好地管理海量的天文數據就相當于在后續的科學研究中成功了一大半。通過對天文數據管理方面知識的了解,經過一系列的研究與開發,最終開發了一個高效的天文數據自動入庫管理工具AutoDB,旨在幫助天文學家提高工作效率,促進天文學研究的進展。
1.1AutoDB的設計思路與方法
在之前的裴彤等人的設計中,已經實現了天文數據的自動入庫,該工具采用Python[11]語言編寫,并且能夠自動地添加pcode字段,建立HTM(HierarchicalTriangularMesh)[11]索引分區,便于以后的交叉認證工作。HTM是一種多層次的、遞歸的球面分割方法,可將天球分成多級的三角網絡,每個網絡都有一個pocde,利用HTM可以將一個大星表從邏輯上分割為多個小星表[11],HTM分級算法采用C語言編寫,充分地利用了C語言的高性能和Python語言的高開發效率。然而該程序僅支持底層數據庫為MySQL,且只支持CSV格式的文件,且文件中的數據不能為空,若為空則會拋出錯誤,在使用方面具有一定的局限性。其HTM分區是對ra和dec進行計算產生pcode值來實現天空分區,同時使用pcode_htmN數據列來存儲這些值,然后對其進行btree索引,方便后續的高效查詢。首先,其計算的算法必須跟隨著后續數據的復雜性進行優化,其次,先計算在存儲勢必有I/0性能限制,最后使用btree一維索引間接性的對赤經ra和赤緯dec索引,無法利用天文數據的空間性,且若想實現一定半徑內的查詢需要非常復雜的SQL語句。為了解決這些問題,我們仔細地閱讀了裴彤等人的論文和程序代碼[12],在深入分析其原理的基礎上,對自動入庫管理工具進行了更加全面的完善和改進:(I)底層數據庫同時支持MySQL和PostgreSQL;(II)針對PostgreSQL數據庫,使用一種新類型Q3C索引,其直接與數據庫進行交互,無其他I/0交互,直接對赤經ra和赤緯dec進行空間索引,并且提供簡單的SQL語句來實現復雜的查詢;(III)數據格式同時支持FITS格式和CSV格式;(IV)數據優化,若其中存在為空的數據項,數據項自動變為’9999’或者’NULL’,則入庫時不會拋出錯誤。下面分別展開闡述。一、底層數據庫架構工具的底層數據庫是基于MySQL和PostgreSQL兩種數據庫開發的。這兩種都是非常好的開源數據庫,對于選擇哪種數據庫更好取決于哪種數據庫更能滿足用戶的需求。之前采用的是MySQL數據庫,然而由于數據量的增加,數據表格越來越龐大,一個表格甚至達到了幾十億行,對于表本身的容量遠遠地超過了物理內存的大小,甚至出現了連建索引也不能改善性能的情況,這樣查詢時間會將大大地延長,在此情況下非常有必要對數據進行分表管理,即將表拆分為一系列較小的、與之相關聯的表來進行替代,通過對子表的數據查詢,就相當于對整個表進行了查詢操作。對基于MySQL數據庫分表來說,取決于數據引擎(InnoDB),不支持哈希分區表,而PostgreSQL數據庫支持臨時表、常規表以及范圍和列表類型的分區表。而且PostgreSQL的表分區是通過表繼承和規則系統完成的,所以可以實現更復雜的分區方式。且在索引方面,PostgreSQL支持B-樹、哈希、R-樹和Gist索引,MySQL取決于數據引擎,大多數為B-Tree索引。由于天文數據具有空間屬性,位置坐標為(赤經ra,赤緯dec),其索引會是一個二維的。建立一個高效的索引非常重要,使用第三方擴展庫如Q3C索引即是采用的二維索引,又如使用PGSphere中的GIST索引,會使數據的查詢更加高效。所以在當數據量非常大的時候,或者需要使用到第三方庫時,對于空間點索引時,采用Postgresql比采用MySQL要方便得多。但若數據量不是很大,對于億行級以下的數據量,不需要采用第三方庫去支持創建索引的數據,則是采用MySQL比較好。同時MySQL的性能方面要比PostgreSQL較為高效。面對種種數據管理的需求,我們增加PostgreSQL作為該入庫工具的底層數據庫是必要的,天文工作者可以根據自己的需求存儲到不同的數據庫中。二、Q3C索引龐大的數據儲存在數據庫中,若想能夠準確高效的使用這些數據,必須對其數據創建索引,索引不僅能夠加快數據的查詢速度,而且會使數據的管理變得簡單容易,可以大副提高系統的性能。當然索引的創建也不是越多越好,因為索引過多會隨著數據量的增加而加大數據庫的負荷,就起不到提高系統的性能的作用,反而會降低性能,所以索引的使用要準確得當。在本系統中,由于我們是對天文數據進行入庫管理,天文數據的復雜性、空間性決定了普通的一維索引并不能很好地解決天文數據的查詢管理要求,所以我們是用了一個全新Q3C(QuadTreeCube)對天空分區索引,其能夠很好地對天文數據進行二維的空間索引,Q3C索引方案為開源項目運用于數據庫PostgreSQL中,大家在使用的同時也可以隨時進行修改,非常適用于學術研究,由于直接運用于數據庫,使用者不需要書寫任何算法,相比于HTM,首先需要對天文數據進行分區計算pcode值,然而分區計算算法需要由使用者編寫,這樣會無形地增加風險,同時也帶來了復雜化。Q3C的產生是專門針對天文數據的,其目的性非常明確。雖然普通的索引如btree也能夠用于天文數據,但是如果需要進行錐形查詢,在不使用Q3C索引的前提下,其查詢SQL語句會非常復雜,并且查詢速度非常慢,而且也只能運用于數據量較少的情況下,數據過多極有可能導致內存不足而出現程序卡死現象,然而上面的問題對于Q3C索引來說都不存在,所以這種基于四叉樹的空間索引Q3C就顯得非常實用了。Q3C索引不僅能夠提供天文數據特有的查詢,而且也提供交叉認證功能,這對以后的數據處理來說,很大程度地簡化了工作量,同時又容易使用,而且不論是在查詢方面,還是交叉認證方面,Q3C會提供的簡單的SQL語句就能夠執行處理工作,而HTM方面則需要從數據庫中提取數據,然后利用算法進行處理,當數據量非常大的時候,程序的性能就會受到影響。三、支持的數據文件格式入庫管理工具同時支持兩種類型的數據格式文件:CSV(Comma-SeparatedValues)格式文件和FITS(FlexibleImageTransportSystem)格式文件。CSV文件由任意數目的記錄組成,記錄間以某種換行符分隔;每條記錄由字段組成,字段間的分隔符是其它字符或字符串,最常見的是逗號或制表符。FITS格式是天文學界常用的數據格式,它專門為在不同平臺之間交換數據而設計。1988年的國際天文學聯合會IAU(InternationalAstronomicalUnion)大會指定IAU的FITS工作組全權負責此格式的修訂。FITS文件由文件頭和數據組成。在文件頭中存儲有對該文件的描述,如觀測目標、源的位置、觀測時間、曝光時間等信息,同時也可以在文件頭中注明觀測時的視場、精度等,便于后期的數據管理和分析之用。文件頭部分每行占80個字符,并以END結尾。FITS文件的容量大小通常比相同數據量的CSV文件小,在本地存儲中占用硬盤容量小,且天文數據文件采用FITS格式存儲的文件占大多數。針對FITS格式文件數據,我們開發了一個分析FITS文件頭文件的工具,用來得到頭文件中表格數據中的列名和每個列對應的數據格式,方便天文學家在使用入庫工具時編寫readme文件。在輸入不同格式文件時,工具會自動地判斷文件的格式選擇相應的程序實現自動入庫。四、存儲數據的優化龐大的天文數據中有時難免會存在的超過數據庫中最大數據存儲大小的數據或者小于數據庫中支持的最小數據,不過在數據庫中可以自己定義數據類型來支持導入的數據,但這樣便失去兼容性了,使得不同數據庫之間數據的交換和融合變得很困難,而且在對于文件中的數據項為空的時候,存儲到數據庫中會產生一些錯誤,所以在入庫之前很有必要先對數據進行優化。因為不符合要求的數據非常少,而且改變其大小不會影響到后續的數據分析環節,故在入庫前,在程序中把超出數據庫最大支持數據的記錄數和小于數據庫最小支持數據的記錄數更改為數據庫所支持最大和最小的數據記錄數,同時對于文件中為空的數據項,程序會根據數據類型的不同,自動的填充‘9999’或‘NULL’字樣,方便數據的錄入和后續的計算分析。
1.2AutoDB流程圖
在存儲FITS格式文件的數據時,我們還專門開發了一個分析FITS文件頭文件的小工具,方便天文學家存儲時選擇自己想要存儲的數據列。在使用過程中,天文學家也不需要編寫任何的代碼,同時該工具有很好的易用性。根據不同的格式文件,有著不同的入庫流程,下面給出了文本CSV文件和FITS文件的入庫流程,如圖1所示。
1.3AutoDB系統環境支持
AutoDB采用Python語言編寫,推薦使用Linux操作系統。由于Python是跨平臺型語言,若需要在WINDOWS系統中使用也非難事,需要安裝Python,一般的Linux發行版本都會自帶Python程序,同時也需要下列數據庫系統(異地或本地均可)和第三方庫作為支持:1)PostgreSQL(9.0+):支持最新的SQL語法,更高的功能完整性。2)MySQL(5.1+):性能非常的高效。3)Q3C(QuadTreeCube):一種基于PostgreSQL數據庫的新的天文數據的索引概念,提供海量天文數據的查詢與融合。該工具中同時嵌入了一個很好的虛擬終端,用戶可以根據虛擬終端的反饋,了解自己在使用過程中出現了哪些錯誤,從而糾正錯誤,使得程序完美地運行。
1.4AutoDB圖形用戶界面
AutoDB圖形入庫界面如2所示,用戶可以選擇入哪種數據庫,入庫的數據文件及數據的說明文件,創建HTM的級數,每次分次上傳的記錄數,赤經赤緯列要指出等。在這里,用戶可以直接點擊程序運行圖形界面,也可以手動地在命令行中使用命令來運行圖形界面,其圖形界面和主程序是分開的,其協助用戶按照各個參數,并收集起來,按照一定的規范得到收集的參數,供主程序使用。也就是說主程序不依賴于圖形界面,用戶也可以手動地編輯被指定的文件來運行主程序。FITS頭文件分析工具會把FITS頭中的數據輸出到文件中,該文件名由用戶定義,在FITSSOURCEFILE對應的一行中瀏覽添加FITS源文件,然后在FITSHEADFILE一行中輸入想要創建FITS頭文件名,界面如下圖3所示。在使用入庫工具時,用戶需要編寫readme文件供程序使用,其格式如下:第一行為各列列名(即數據庫表中的列名字段,請參照MySQL/PostgreSQL對字段命名相關文檔),以一個或者多個空行分隔;第二行與第一行相對應,為每列的數據類型(如:float、char、varchar、double、int,具體請參照MySQL/PostgreSQL數據類型相關文檔[13]),同樣是以一個或者多個空行分隔,內容中不能有引號,字段不能為空或NULL。同時在對FITS文件進行入庫時,需要參照頭分析工具得出的頭文件以及格式轉換文件編寫readme文件。頭文分析工具得到的頭文件實例如圖4所示,格式轉換文件如圖5所示。編寫readme文件完畢后,即可使用自動入庫工具進行數據的錄入,數據庫可以自己選擇,數據庫服務器可以是本地服務器或遠程服務器。使用遠程服務器時,應該保證遠程服務器支持遠程連接,否則將會報錯。
2實驗結果
2.1Q3C索引與非Q3C索引的查詢性能比較
在使用索引的時候,我們最在意的是索引是否能夠提高查詢效率,對于具體選擇哪種索引方式,要看哪種索引提高的性能更高些。為此我們做了如下的實驗測試(在數據庫命令行的形式下使用SQL語句進行查詢的實驗)。實驗數據為Pan-STARRS數據,總共11,495,847個星表源數據。對比使用Q3C索引情況下和不使用Q3C索引(對ra與dec進行B-tree索引)的情況下,實現以赤經赤緯(5度,50度)為中心,查詢半徑在0.1度到0.9度變化范圍內的錐形查詢,比較隨著提取結果源數目的增多上述兩種方案的查詢時間,其結果如圖6和圖7所示。我們從圖7和圖8中可以看出,隨著查詢半徑的增大,符合查詢條件的源數目也在不斷增多,同時查詢時間以近乎線性速度增長,說明查詢元組數目越多,消耗的時間也就越多。還發現使用非Q3C索引的查詢時間是使用Q3C索引時間的至少100多倍以上,可見Q3C索引方式的有效性。Q3C索引具有層次結構、平等區域、異維度分布等特性的天空分區方案,對天文數據的處理具有得天獨厚的優勢。特別是對于數據量大的情況下,我們非常有必要使用Q3C對數據索引,其表現不僅僅是數據查詢速度的提高,對日后的交叉認證起到了打下了很好的基礎。這也正是我們選擇Q3C索引的原因。
2.2AutoDB工具的應用
AutoDB能夠快速地將數據存儲到相應的數據庫中,上傳數據的速度與本地機器硬件性能、數據庫的配置以及數據庫服務器的位置(本地或異地)、數據量的多少以及索引的復雜程度都有著直接或間接的關系。建議在使用過程中本地機器中不要運行太多的其他程序。我們使用的是SDSS部分數據進行的實驗,總共有100,000,000行數據導入數據庫中,測試平臺使用的是兩臺計算機平臺,一個是本地數據庫平臺和程序運行平臺,另外一個是遠程數據庫運行平臺,通過百兆以太網訪問遠程數據庫平臺。具體配置如表1所示。在實驗過程中多次分別對本地和遠程數據庫進行了入庫,在入庫時將數據分割為100,000,00行,200,000,00行,400,000,00行,600,000,00行,800,000,00行,100,000,000行數據導入數據庫中,得出實驗結果,如表2所示。單從數據上傳的速度來看,MySQL數據庫的速度要優于PostgreSQL數據庫。
3總結與展望
數據理論論文范文6
1.1監測任務名稱的標準化處理
以目前的全國業務化海洋環境監測任務為基礎,對上報的監測任務進行標準化命名,如海洋生物多樣監測、海洋大氣監測,對不同填報的名稱進行標準化處理。
1.2組織單位名稱的標準化處理
各地上報的組織單位比較混亂,有的上報了監測機構名稱,有的上報了其隸屬的行政部門名稱,不利于監測任務的考核。根據國家海洋環境監測工作任務以及各海區年度海洋環境監測工作方案,目前組織單位主要包括國家海洋局局屬單位、3個分局、11個沿海?。ㄗ灾螀^、直轄市)海洋行政管理部門和5個計劃單列市海洋行政管理部門,如國家海洋環境監測中心、國家海洋局北海分局、遼寧省海洋與漁業廳、大連市海洋與漁業局,對不同填報的組織單位進行標準化處理。
1.3監測區域名稱的標準化處理
由于各地方上報的監測區域不夠規范,且很難表現出更多的區域信息,同時考慮到區域統計分析,因此需對監測區域進行規范化命名。監測區域命名結構為:沿海地區/海區+沿海城市/特定區域+名稱,其中沿海地區/自然海區和名稱字段不能省略,沿海城市/特定區域字段若無可以省略。如,遼寧葫蘆島赤潮監控區,廣東近岸、福建廈門近岸、東海近海及遠海,對不同填報的監測區域名稱進行標準化處理。
1.4監測要素名稱的標準化處理
每個監測任務里包含了不同的監測要素,且不同的任務可能會監測相同的要素,因此需對監測要素進行規范命名,以便對相同的要素進行統一分析、數據量統計等。以目前的業務化海洋環境監測要素為基礎,對上報的監測要素進行標準化命名,如水文氣象、海水水質、沉積物質量、浮游植物和浮游動物等,對不同填報的監測要素進行標準化處理。
1.5監測參數及單位的標準化處理
由于每個監測要素需要監測不同的監測參數,如海水水質需要監測化學需氧量、氨氮和溶解氧等。而每個監測參數的名稱在寫法上有不同的形式,如化學需氧量也可寫為COD,氨氮也可寫為氨-氮或NH4-N等,給數據的統計、評價帶來一定的不便,因此有必要規范不同監測參數的名稱。另外,每個監測要素的單位也需統一規范。如重金屬的鋅元素,有的上報其參數單位為mg/L,有的上報為μg/L。在數據統一進入標準數據庫時,需將單位統一。參照國際標準、國內海洋環境監測調查規范以及各地監測機構的填報習慣等,針對不同的監測任務和監測要素,對每個監測參數的名稱及計量單位進行標準化處理。
1.6站位基礎信息的數據類型標準化處理
監測數據的類型包括數值型、字符型、布爾型和百分比等。對站位基礎信息如站位編號、經緯度、監測日期、水深和層號等的數據類型進行規范。(1)站位編號。上報的站位編號大部分為字符型,但也有站位編號為1、2、3等,為數據庫的統一管理,需統一轉換為字符型。站位編號不規范主要有以下幾個方面:①站位編號英文大小寫不一致;②監測機構各自命名;③在站位編號上加“臨”“平行樣”和“空白樣”等字樣。參照目前海洋環境監測站位編號規則,由任務編號、海區編號、類別編號和站位序號順次排列組成。對站位進行統一編號。對于歷史站位編號的確認,可通過核查相關的監測數據、核實年度監測方案、聯系地方監測機構等方式,將站位編號統一。(2)站位的經、緯度。上報的經緯度有兩種形式:一個是小數形式,另一個是度分秒形式。為便于計算機的計算方便,目前統一為小數形式。由于經緯度的小數位數不一致,會導致部分空間定位有細微的差別。結合監測任務計劃和實際監測情況,統一經緯度的有效位數,目前保留到小數點后6位。(3)監測日期。上報的監測日期格式不一致,主要形式為:“2011-08-20”“2011/8/20”、或為時間型等。現統一其形式為“2011-8-20”,年份:填滿4位;監測月份:1—12,月信息小于10,前位無需補零。注意檢查,監測年份是否為該年度;月份是否大于12;日期是否在該月的自然日以內。(4)采樣深度與層號。部分地方監測機構在該填報“層號”的地方填寫了采樣深度,同時層號不統一,有的為中文———“表層”“中層”“底層”;有的為英文———“S”“M”“B”?!逗Q蟊O測規范》中對水深和相應的采樣層次進行了規范。對層號,統一用英文表示。其中:表層為S;底層為B;若只有一個中層用M表示,若為多個中層,則分別用M1、M2、M3等順延表示。另需檢查層號與層深的匹配情況,若層號為S(表層),則采樣深度應小于或等于2m;層號為B(底層),則采樣深度大于3m。部分填報機構填寫層號時,出現表層填寫“B”和底層填寫為“D”的現象,可能是按“表層”和“底層”的首拼音字母填寫造成的。
1.7監測參數不規范類型的處理
監測參數的不規范類型問題,主要應注意以下幾點。(1)大于號、小于號。某些監測參數如重金屬、大腸桿菌數等,其監測參數值上報中含有大于號或小于號。此類數據通常不影響其評價等級的判定,但會影響該類參數最大值、最小值、均值等統計的結果??裳芯吭搮档睦砘再|并聯系地方監測機構,確認該參數的具體值大小。其缺省解決方法是刪除大于號、小于號,以便該參數的統計及評價。(2)未、無、“-”等字樣。結合年度監測任務,聯系地方監測機構,確認該監測參數是未被監測,還是低于檢出限。未監測用空值表示;低于檢出限用“未檢出”表示。(3)空格及其他無效字符。上報的監測數據中常含有空格及其他無效字符,使得計算機在識別、歸類等過程中出現異常。可核查監測數據的內容和性質,確認為無效字符后,對數據值前、后含有的空格或其他無效字符進行刪除處理。對經緯度空缺,可核查相關的原始上報數據集和年度監測工作方案,或聯系地方監測機構;對層號空缺,可根據水深判斷,或聯系地方監測機構補缺;對某些監測參數值空缺,可結合年度監測任務,聯系地方監測機構,確認該監測參數是未被監測,還是低于檢出限,再根據判斷結果給出規范填寫。
2監測數據的齊全性檢驗
海洋環境監測數據的齊全性檢驗,是以海洋環境監測方案為依據,檢查監測方案中規定的監測數據是否全部上報完整。首先對國家海洋環境監測工作任務以及各海區年度海洋環境監測工作方案進行分析,對監測工作方案進行信息解析,按空間維度、指標維度和時間維度對監測任務進行細化,空間維度包括監測站位、監測區域、管轄區域等,指標維度包括監測參數、監測要素等,時間維度包括監測時間等。其中監測站位、監測參數、監測時間是空間維度、指標維度和時間維度的最小單元,通過對最小單元的數據量統計,可獲得其上一統計單元的數據情況。因此對海洋環境監測方案的解析按監測站位、監測參數和監測時間3個方面進行分解。對照監測方案,檢查接收的數據是否存在區域、站位或頻次等有空缺監測的情況。記錄缺失的原因:可能由于某些緣故未能進行監測、地方調整了監測方案或地方漏報。仔細核查年度監測任務計劃,聯系地方監測機構確認。
3站位基礎信息數據質量控制
3.1空間位置檢驗
空間位置檢驗主要針對調查單位在站位信息匯總過程中可能出現的錄入錯誤。將調查站位經緯度轉換為十進制的單位后,通過利用GIS生成站位圖的方式檢查站位落點所在位置,看其是否落在規定的監測區域,對于斷面上的調查站位,還要檢查其是否明顯偏離斷面沿線。同時還需檢查“相同的站位編號,經緯度不同”和“不同的站位編號,經緯度相同”等數據空間位置精度的問題。對于該類問題,可通過核查相關的監測數據、核對年度監測任務、聯系監測機構確認等方法,予以更正。
3.2站位基礎信息一致性的檢測
根據站位基礎信息一致性檢驗方法,即監測區域、站位編號、站位經緯度、監測日期等基礎信息決定一條數據記錄,根據不同的監測任務和監測要素,分析站位基礎信息一致性是否符合。針對站位編號和經緯度不一致的情況,從空間位置檢驗是否合理,并核實監測方案進行解決。針對監測日期相同且站位編號相同等情況,判斷兩條記錄的監測參數值是否完全一致,若完全一致則認為是重復記錄;若不完全一致,可認為是平行樣記錄,并進一步核實。
3.3數據記錄重復的處理
海洋環境監測數據的上報過程中存在很多重復的數據記錄,產生這種重復記錄的主要有如下原因。(1)地方上報數據時,重復上報了監測數據集,如8月份上報了5月份和8月份兩份數據;年底將全年的監測數據再次上報。(2)不同監測機構報送的重復數據,如屬于上下兩級監測機構(省、計劃單列市)重復報送。(3)地方監測機構監測人員填寫報表時,將某些記錄重復填寫。(4)地方監測機構監測人員填寫報表時,將平行樣的數據填寫。(5)數據集合并時,將曾經合并過的數據集再次合并。對于重復的記錄數據,在建立環境監測數據庫中應做剔除處理。
3.4平行樣的處理
平行樣數據只作為監測數據質量保證的輔助,在實際統計、評價和監測數據時需區別對待。一般來說,只有少數站位上報的數據是平行樣。為了數據量統計、環境質量評價等的需要,對于平行樣的記錄數據,可將監測參數值進行求平均處理。
4監測參數數據質量控制
4.1值域一致性檢驗
在海洋環境監測中,每個監測參數有其對應的經驗值域范圍,通過值域檢測規則對填報的監測數據按不同監測要素分別對每個監測參數值進行檢驗,對于超出值域范圍的值,需進一步分析該區域其他站位、其他頻次、周邊站位的參數值情況,并結合監測任務性質以及超出值域比例,從而判斷該參數值的可靠性。
4.2邏輯一致性檢驗
某些監測參數間存在一定的邏輯關系,即監測參數與監測參數間存在某種相關關系,有些關系具有一定的規律性,根據邏輯一致性檢驗方法,對于不符合邏輯一致性的監測數據記錄,應進一步同監測機構進行核實。
4.3數據輸出
對文件進行批量檢驗處理,對于檢驗結果,給出合理且足夠詳細的錯誤提示,并保存質檢日志,使得數據便于修改。為了區別一個數據是否進行了質檢、是否通過質檢,以及了解質檢的情況,需要對質檢過后數據增加一個質量控制符號,簡稱質量符。綜合參考“國標GB/T12460-2006海洋數據應用記錄格式”以及“908海洋化學標準記錄格式”等質量符格式。其中,“908海洋化學標準記錄格式”中質量符2表示可疑傾向正確,3表示可疑傾向錯誤,本研究將這兩者綜合考慮,記為可疑;另外,“908海洋化學標準記錄格式”中質量符8表示痕量,由于與“未檢出”有一定的重疊,因此本研究只采用“未檢出”。表1給出海洋環境監測數據的質量符及說明。一般來說,數值型的監測參數數據,對其質量檢驗出有問題的只能作為“可疑”處理,不宜隨意修改或刪除。除非經過專家經驗檢驗,并經監測單位核實,可明確其為錯誤的,其質量符方可標注為“4”。對于監測站位基礎信息,如監測日期、站位編號、經緯度、層號等,檢驗出有問題的,可根據檢驗情況,標注其質量符為“4”或“3”等。按步驟完成監測數據處理流程后,可分年度或季度對處理的文件形成數據處理報告,并制作經標準化處理和質量控制后的標準數據集。
5結束語