前言:尋找寫作靈感?中文期刊網用心挑選的關于敏感數據脫敏策略技術的探索,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
摘要:隨著互聯網、云計算、大數據等信息技術與通信技術的迅猛發展,社會逐步進入了數據時代,數據在進行采集、傳輸、交換和共享的過程中如果不采用必要的手段防止數據泄露,數據安全將無法得到保障。本論文從數據安全的角度出發,研究了敏感數據的識別掃描方式,同時研究了敏感數據脫敏技術的處理過程和脫敏方式。
關鍵詞:敏感數據;數據脫敏
1引言
信息化時代,海量數據在各種信息系統上被存儲和處理,其中包含大量有價值的敏感數據。不管企業還是政府單位,每天都在有意無意地收集、存儲、共享數據,且規模越來越大。這些數據中包含了大量客戶的敏感信息和企業自身隱私數據,這些數據已然成為企業發展的生命線,一旦出現數據泄露,不但影響企業的形象,還會造成不同程度的經濟損失,甚至有些可能會承擔法律責任。數據在流轉過程中的安全性保證,已經越來越受到企業的重視,對敏感數據脫敏處理可有效保證數據的安全。
2敏感數據識別掃描
通常情況下,根據梳理出的數據資產,進?敏感數據的?動探測,通過特征探測定位敏感數據分布在哪些數據資產中;針對敏感的數據資產進?分級分類標記,分類出敏感數據所有者(部門、系統、管理?員等);根據已分類的數據資產由業務部門進?敏感分級,將分類的數據資產劃分公開、內部、敏感等不同的敏感級別。數據分級分類按照下述原則進行:1)數據分類依據數據的來源、內容和?途對數據進?分類;2)數據分級按照數據的價值、內容敏感程度、影響和分發范圍不同對數據進?敏感級別劃分?;诜诸惙旨?a href="http://www.www-68455.com/article/185765.html" target="_blank">策略,參考公司企業標準數據安全分級標準的要求,并根據用戶自身的數據特點進行優化調整,針對不同類別、不同級別的敏感數據,采用不同脫敏策略。
2.1敏感字段標注
通常情況下,根據敏感數據構成特征來設定,一般包含兩類,一類是個人隱私數據,一類是企業經營類數據。個人隱私敏感數據標簽包括:身份證、手機號、銀行卡號、地址、郵箱等;企業經營類敏感數據標簽在各行業之間,區別較大,除統?社會信?代碼,營業執照號碼,稅務登記證號碼,組織機構代碼,車輛識別代碼等,可根據實際業務情況進行合理定義。
2.2敏感字段識別
敏感字段識別主要有正則匹配,關鍵字,算法三種?式。通常情況下,銀?卡號、證件號、?機號,有明確的規則,可以根據正則表達式和算法匹配;姓名、特殊字段,沒有明確信息,可能是任意字符串,可以通過配置關鍵字來進?匹配;營業執照、地址、圖?等,沒有明確規則,可以通過?然語?算法來識別,使?開源算法庫。人工梳理敏感數據信息工作量繁重,為了提高效率,我們需要實現自動發現功能,例如敏感數據探測引擎,對數據庫中的數據進行抽樣查詢,使用探測規則與查詢出的數據進行匹配,當滿足一定匹配百分比時,將數據確定為疑似敏感數據,記錄數據庫中并在敏感數據分布結果中進行展示。抽樣數據量以及探測結果匹配率可以通過實際情況進行設定。獲取抽樣數據實現方案是,對表按照一定數據單位進行等分,并從每個單位中隨機抽取數據,然后根據隨機抽取的數據內容進行正則匹配。例如:某表數據庫量是2000,需要抽樣20條數據,按500條數據量進行等分,即2000條數據,分成4份,從每份500條數據中,隨機抽樣5條數據進行規則匹配。這種方式最大限度的保證了探測速度,并且保持了隨機性,探測結果相對更加準確。對用戶現有數據源數據的敏感數據掃描,通過配置待掃描數據源列表,確定具體掃描任務的覆蓋范圍,逐一適配待掃描列表中的數據源類型,連接數據源,對數據源中的數據進行抽取和抽檢;通過配置掃描任務的待檢測敏感信息正則表達式,確定掃描任務檢測的內容,當系統發現符合項時,將其記錄下來保存到數據庫,形成可視化的掃描報告。
3敏感數據脫敏
數據脫敏是指對敏感信息通過脫敏規則進行數據變形,實現敏感隱私數據的可靠保護。數據脫敏也叫數據的去隱私化,在我們給定脫敏規則和策略的情況下,對敏感數據?如?機號、銀?卡號等信息,進?轉換或者修改的?種技術?段,防?敏感數據直接在不可靠的環境下使?。像政府、醫療?業、?融機構、移動運營商是?較早開始應?數據脫敏的,因為他們所掌握的都是?戶最核?的私密數據,如果泄露后果是不可估量的。數據脫敏可以使數據本身的安全等級降級,這樣就可以在開發、測試和其它非生產環境以及外包或其它計算環境中安全地使用脫敏后的數據集。數據脫敏的應?在?活中也是?較常見的,?如我們在淘寶買東西訂單詳情中,商家賬戶信息會被?*遮擋,保障了商戶隱私不泄露,這就是?種數據脫敏?式。
3.1數據脫敏分類
數據脫敏?分為靜態數據脫敏和動態數據脫敏:1)靜態數據脫敏靜態數據脫敏:適?于將數據抽取出?產環境脫敏后分發?測試、開發、培訓、數據分析等場景。有時我們可能需要將?產環境的數據復制到測試、開發庫中,以此來排查問題或進?數據分析,但出于安全考慮?不能將敏感數據存儲于??產環境,此時就要把敏感數據從?產環境脫敏完畢之后再在??產環境使?。這樣脫敏后的數據與?產環境隔離,滿?業務需要的同時?保障了?產數據的安全。2)動態數據脫敏動態數據脫敏:?般?在?產環境,訪問敏感數據時實時進?脫敏,因為有時在不同情況下對于同?敏感數據的讀取,需要做不同級別的脫敏處理,例如:不同??、不同權限所執?的脫敏?案會不同。在抹去數據中的敏感內容同時,也需要保持原有的數據特征、業務規則和數據關聯性,保證我們在開發、測試以及數據分析類業務不會受到脫敏的影響,使脫敏前后的數據?致性和有效性。?論是靜態脫敏還是動態脫敏,其最終都是為了防?組織內部對隱私數據的濫?,防?隱私數據在未經脫敏的情況下從組織流出。
3.2數據脫敏技術處理過程
數據脫敏技術對數據的處理基本經過5個過程,分別是元數據識別、脫敏數據識別、數據脫敏方案制定、任務執行及效果比對。數據脫敏技術處理過程如圖1所示:1)元數據識別數據脫敏平臺將脫敏文本讀入,脫敏平臺可設置讀入數據的行數,默認為文本格式,用戶可自行設置間隔符號;同時若文本文件中默認不包含元數據頭文件,用戶可自行設置元數據名稱與格式。2)脫敏數據識別經過元數據識別或設置后,文本脫敏的敏感數據識別與數據庫敏感數據識別是相同的,均按照元數據描述及抽樣數據本身特點,使用系統的敏感數據掃描可識別出疑似敏感數據。3)定義脫敏方案在疑似敏感數據基礎上,用戶根據實際需求對需要脫敏的數據、脫敏規則進行設置,形成文本文件的脫敏方案。4)脫敏執行設置脫敏后數據的目標(需支持到文件、到庫),脫敏執行過程將數據抽取、處理、裝載一次性完成。5)脫敏后對比脫敏后數據用戶需在界面可見脫敏前后對比,對比的內容包括:脫敏前數據條數、脫敏后數據條數等。
3.3數據脫敏?式
數據脫敏技術的目的是通過一定方法消除原始環境數據中的敏感信息,數據脫敏的數據處理方法是通過對指定的敏感數據進行編輯,使得敏感數據不再含有敏感內容,從而達到使人或機器無法獲取敏感數據的敏感意義的目的。數據脫敏的?式主要有如下六種方式。1)仿真仿真是根據敏感數據的原始內容生成符合原始數據編碼和校驗規則的新數據,使用相同含義的數據替換原有的敏感數據,例如姓名脫敏后仍然為有意義的姓名,住址脫敏后仍然為住址。仿真算法能夠保證脫敏后數據的業務屬性和關聯關系,從而具備較好的可用性。2)數據替換數據替換用某種規律字符對敏感內容進行替換,從而破壞數據的可讀性,并不保留原有語義和格式,例如特殊字符、隨機字符、固定值字符等。例如,采?特殊字符*代替真值,這種隱藏敏感數據的?法簡單,但缺點是?戶?法得知原數據的格式,如果想要獲取完整信息,要讓?戶授權查詢,?如我們將?份證號?*替換真實數字就變成了"220724******3523"。3)加密通過加密算法進行加密。例如Hash(密碼算法)算法是指對于完整的數據進行Hash加密,使數據不可讀,或如對稱加密,是?種特殊的可逆脫敏?法,通過加密密鑰和算法對敏感數據進?加密,密?格式與原始數據在邏輯規則上?致,通過密鑰解密可以恢復原始數據,要注意的就是密鑰的安全性。4)數據混淆混淆算法是將敏感數據的內容進行無規則打亂,從而在隱藏敏感數據的同時能夠保持原始數據的組成方式。例如,使用隨機值替換,字母變為隨機字母,數字變為隨機數字,?字隨機替換?字的?式來改變敏感數據,這種?案的優點在于可以在?定程度上保留原有數據的格式,往往這種?法?戶不易察覺的。5)數據偏移和取整這種?式通過隨機移位改變數字數據,偏移取整在保持了數據的安全性的同時保證了范圍的?致真實性,?之前?種?案更接近真實數據,在?數據分析場景中意義?較?。?如下邊的?期字段create_time中2021-11-0816:15:25變為2018-02-0315:00:00。取整,數據脫敏規則在實際應?中往往都是多種?案配合使?,以此來達到更?的安全級別。
4結論
為深入評估客戶敏感信息在創建、存儲、使用、傳輸和銷毀等過程中的安全風險,綜合運用多因素認證、訪問控制、邊界防護、泄密檢測、密碼算法和技術、數據脫敏和安全審計等手段,切實提高客戶身份認證和驗證強度,防范敏感數據泄露、篡改、丟失和非授權訪問等風險,越來越多的行業將采集數據,利用大數據技術提高產業效率,從而推動產業升級。數據量將進一步匯聚,規模將以指數級增長,數據脫敏技術的應用場景將擴展到國民經濟的各個領域,隨著需求的增長和多樣化,數據脫敏技術也將得到長足的發展。
參考文獻:
[1]劉雋良王月兵譚錦端等.數據安全實踐指南[M].機械工業出版社.2022
[2]張莉.數據治理與數據安全[M].人民郵電出版社.2019
作者:宗蕓 單位:中國聯合網絡有限公司天津市分公司