信息化檔案管理方法研究

前言:尋找寫作靈感?中文期刊網用心挑選的信息化檔案管理方法研究,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。

信息化檔案管理方法研究

摘要:隨著科技的迅速發展,當今社會已經全面進入信息化、數字化、網絡化的時代。檔案信息的跨地區、跨部門利用日趨頻繁,而傳統檔案管理面臨著嚴峻的考驗,因其使用效率較低,已適應不了新形勢下社會發展的需要,在信息化條件下采用支持向量機的方法進行檔案管理可以有效提高工作效率。

關鍵詞:信息化;檔案管理;支持向量機

1引言

近年來,在信息技術的大力推動下,各個單位都在進行檔案信息化、數字化的工作,并將建設數字檔案館、提高各級檔案管理信息化水平擺在重要位置。檔案信息化是在國家檔案建設管理部門的統一規劃和組織下,在檔案管理的活動中全面應用現代信息技術,對檔案信息資源進行數字化管理和提供利用。檔案管理模式從以檔案實體保管和利用為重點,轉向檔案信息的數字化存儲和提供服務為重心,從而使檔案工作進一步走向規范化、數字化、網絡化、社會化。

2檔案管理系統設計

預歸檔庫:預歸檔的方法是對歸檔文件進行初步處理,建立預歸檔庫,管理人員對日?;厥盏募堎|文檔和電子文檔進行初步收集整理,首先對已回收的紙質文件按照發文字號進行排序,然后將每一份文件,按照年度、全宗號、標題、發文字號、發文單位、頁數(張數)、責任人、保管期限等字段信息錄入預歸檔數據庫,將紙質文件和電子文件分別保存于檔案柜或數據庫硬盤中,形成預歸檔庫,待文件全部回收后,進行數據歸檔工作。數據歸檔:將預歸檔庫中的文檔錄入至檔案庫。檔案檢索:在搜索框中可通過輸入關鍵詞來實現搜索。檔案使用:在通過檢索找到需要的檔案后申請使用,經過審批后可以進行借閱或者復印。使用查詢:查詢使用檔案的歷史記錄。

3支持向量機檔案分類

在預歸檔的過程中,我們通過使用SVM算法對檔案文本進行分類,并將分類信息錄入預歸檔庫中。檔案文本特征提取的過程如圖3所示,該模型各部分功能如下:檔案文本分詞處理:在經過去停用詞處理后,對檔案文本進行提取關鍵詞,我們采用TF-IDF方法選取關鍵詞。提取特征:提取樣本特征,待識別的文本通過提取出的特征來進行識別。文本向量表示:本文采用布爾型向量空間模型來表示文本信息,將這些提取出來的關鍵詞存儲在一個數組中,將關鍵詞轉化為向量的形式。得到特征向量值:通過對特征進行標記得到一篇檔案文本的特征向量值。由于檔案文本的內容很多,因此找出其主要的分類關鍵詞尤為關鍵,在找出關鍵詞后就可以用這些關鍵詞對郵件進行特征標記,也就是如果關鍵詞在這篇文本中標記為1或-1,不出現則標記為0。為了防止出現偏差并提高效果,對于任何詞,無論它是否在文檔中出現,都賦一個基礎值0.0001。然后進行向量歸一化的操作,消除文檔長度對于關鍵詞出現頻率的影響。我們使用SVM中linear核的SVC函數進行訓練最終得到svm_module訓練模型并存儲為train_model.m,利用訓練好的模型進行測試。首先將郵件中提取出關鍵詞用向量表示,并用predict函數進行預測,得到返回值ret。對txt文本文件和字符串的分詞代碼如圖4所示:對提取出的關鍵詞分別存儲在yiqing_key_words.txt和ham_key_words.txt中,內容如圖5所示。標記郵件的特征向量值代碼如圖6所示。訓練分類模型并保存如圖7所示。

4結論

本文對信息化檔案管理系統進行了設計,使用SVM算法對檔案本文進行分類,能夠滿足日常檔案管理的信息化需求,得出科學的結論,為有效提高檔案歸檔整理和查詢使用的效率提供方法。

作者:顧天一 朱昊 董寧 張國軍 梁滿志 單位:66139部隊

亚洲精品一二三区-久久