前言:尋找寫作靈感?中文期刊網用心挑選的醫療大數據及隱私泄露研究,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
摘要:大數據中的醫療大數據與人類的健康生活息息相關,隨著大數據的發展、信息化的加快,醫療衛生信息平臺、數字化的醫療設備與儀器迅速普及,導致醫療領域內的數據呈爆炸式增長,且類型繁多、關系復雜。敏感的醫療數據安全問題同樣備受關注。醫療數據在為人類的健康提供幫助的同時,保護相關聯的敏感數據越來越成為學者、從業者和普通大眾所關注的熱點。本文從大數據的基本概念入手,通過對現階段隱私泄露及醫療大數據的相關研究進行分析,結合大數據領域的相關研究對當前隱私泄露行為、保護技術等問題進行分類闡述,希望能為本領域學者的進一步研究有所啟示和幫助。
關鍵詞:大數據;醫療;隱私泄露;隱私保護
0引言
在我國,近30年來信息化工作不斷地進行著改革與探索。醫療信息化的普及不僅限于大型醫院,包括小型社區衛生服務中心等很多醫療機構已經構建了業務信息系統,隨之而來的是醫療數據爆炸式增長,醫療數據的潛在利益讓隱私數據安全問題面臨著極大的挑戰。特別是近年來云服務的出現,大量的個人隱私數據都存放于網絡空間,增加了隱私數據泄露的風險。例如,2017年TheDarkOverlord通過3次非法侵入,盜取并公布了18萬份患者病歷,其中包括3400余份紐約地區牙科美容診所AestheticDentistry的病歷,3.41萬份加州的牙科護理診所OCGastro-care的病歷,以及14.2萬份佛羅里達州坦帕灣地區TampaBaySurgeryCenter的病歷;同年HealthNowNetworks泄露事件,HealthNowNetworks的軟件開發員在互聯網上上傳了資料庫備份后,超過91.8萬份老年人的個人健康數據被泄露。這些重大的隱私數據泄露事件,特別是和健康息息相關的醫療領域的隱私泄露,嚴重影響了人們的生活。本文基于以上背景,針對移動互聯網大環境下的用戶行為等進行闡述,希望可以發掘隱私泄露的途徑及規律,通過結合大數據隱私保護技術的發展方向和趨勢,對未來醫療大數據隱私保護有所啟示和幫助。
1醫療大數據概念及來源
醫療大數據是大數據的一種,且在大數據中處于極其重要的地位,一般認為與人體健康活動相關而產生的數據統稱為醫療大數據。醫療大數據較多的是使用若干基本特征去認識它。通常,把大數據的特征概括為4個“V”應用于醫療領域中,即:1)規模(Vol-ume)———全體住院患者、全息數據(患者的全過程數據);2)快速(Velocity)———快速、實時收集患者信息;3)多樣(Variety)———多類型、多種格式、多來源、多時間、多空間、多渠道等的數據;4)價值(Val-ue)———真實數據通過深入的大數據可視化分析挖掘,發現問題,總結和預測發病、治病規律,提高患者、醫院及政府的有價值應用[1-2]。除此之外,醫療大數據的時間性(例如病人的發病以及醫學檢測的波形、圖像信號等都具有時效性,屬于時間函數)[3]、多態性、隱私性(醫療數據當中不可避免會涉及患者的隱私信息,這些信息的泄露會對患者的生活造成不良的影響)[4]、冗余性也是目前討論的醫療大數據的特點。藥物研發所產生的數據是相當密集的,即便對于中小型的企業也在TB級以上。臨床和實驗室數據整合在一起,使得醫療機構面臨的數據增長非???,一張普通CT圖像含大約150MB的數據,一個標準的病理圖則接近5GB。醫療費用是患者就醫過程中產生的費用信息、報銷信息、新農合基金使用情況等。在以上數據來源中個人隱私數據占有相當大的比例,如臨床數據、費用等。
2隱私泄露分析
隱私泄露行為可概括為隨著信息化的發展,個體通過PC、移動終端等連接互聯網所留下的數據信息,例如就診時所提供的姓名、性別、出生年月、就診日期、電話、婚姻、疾病等病歷信息在采集、傳輸、存儲及應用過程中都有泄露的風險,即使是一些常規加密的病歷信息,例如隱藏了姓名、年齡、住所等隱私信息的個人病歷,在大數據條件下,隱私信息竊取者經過廣度、深度的搜索,結合已有的公開數據,完全有可能將被隱藏了的個人信息還原出來。這些數據如被第三方利用都會給用戶自身帶來極大的隱患。在隱私泄露分類當中,可將隱私泄露分為直接隱私泄露與間接隱私泄露,但以大數據生命周期對隱私泄露進行分類是現階段研究者的主要方式。
2.1信息采集、傳輸過程中的隱私泄露
在醫療領域,信息采集傳輸隱私泄露行為主要集中在網絡傳輸過程中,比如匿名攻擊者利用一些軟件工具截取醫院發送的患者信息。張丞[6]分析認為隱私泄露主要由接入環境、傳輸網絡等存在漏洞所引起,如利用ARP協議漏洞欺騙網關、終端或進行ARP畸形包攻擊、DDOS攻擊。此外攻擊者通過篡改數據定向、釣魚攻擊等方式可在信息采集過程中就獲取采集到的數據。如在WIFI環境下,醫療信息采集方對采集到的數據進行上傳時攻擊者可利用欺騙方式篡改上傳服務器地址,從而導致醫療信息直接傳輸到攻擊者指定的服務器。
2.2信息存儲過程中的隱私泄露
在存儲過程中,攻擊者通過截取傳輸過程中的加密信息(一般的醫療數據都會對用戶的姓名等敏感數據進行匿名化的加密)對數據進行解密分析,追溯存儲服務器地址,獲取屬性數據。通過對比用戶的特征數據如用戶位置信息、瀏覽記錄、通信錄等與服務器數據進行對照,最終獲得隱私信息。李威[7]闡述了移動互聯網環境下用戶行為分析面臨用戶信息更加明確、信息量低密度等新特點,并依此將用戶行為分析分成數據?集、數據預處理、行為分析模型建立及用戶行為特征分析4個階段。其中在行為分析模型中,攻擊者截獲信息后,對有用信息如身高、體重、問診記錄、位置服務等進行分析對比,可造成用戶隱私數據的二次泄露。例如,攻擊者在獲取到用戶的基本信息后,可將用戶與其位置服務進行連接,得到相應的運動軌跡[8],通過用戶的軌跡可能推測出用戶的行為習慣,如了解到其工作地點、家庭住址、個人習慣等,嚴重威脅用戶的隱私。
2.3信息應用過程中的隱私泄露
李響[9]指出用戶的隱私泄露方式有應用之間的泄露、應用中的泄露、網絡數據在傳輸過程中產生的泄露、傳感器引起的泄露等。應用中的泄露如人們平時在移動終端上的各種活動都會留下痕跡,醫療健康類終端應用開發商會收集患者信息以提供更好的服務,攻擊者可以利用此途徑獲取對自己有利的信息。例如現階段,微信、支付寶當中的城市服務、醫院在線掛號系統多由第三方服務商提供,患者在進行在線掛號時,用戶會將自己的身份信息如姓名、年齡、所掛號的科室等上傳至服務商的服務器進行驗證,攻擊者可在數據傳輸過程中直接截獲患者的隱私信息。
3主要隱私保護方法
在大數據廣泛應用,隱私泄露不斷經受考驗的情況下,研究者提出了大量的隱私保護技術。吳小同[10]將當前的隱私保護技術簡單地分為語法隱私保護技術和語義隱私保護技術。語法隱私保護技術要求的數據集中的每條記錄都無法被攻擊者從其他的一定數量的相似記錄中區分開來,從而對攻擊者的攻擊造成干擾。語義隱私保護技術中,數據集中的單一記錄的增加或者刪除對于攻擊者來說都是不敏感的,是無法察覺的。孟小峰等。
3.1匿名化方法
在語法隱私保護技術中,匿名化技術是重要的研究手段,主要包括k-Anonymity、l-Diversity、t-Closeness等。Sweeney[12]提出k-Anonymity的方法,通過對半標識屬性進行泛化(指的是用更一般的值來代替原始值)和抑制(指的是將屬性值全部或者部分刪除)以增加等價類來減少數據被重新識別的概率,從而對數據進行隱私保護。在此基礎上,通過增加敏感屬性值衍生出了l-Diversity方法。Li等[13-14]在2010年提出了基于以上技術的新的隱私保護方法t-Closeness,該方法通過保證敏感屬性值與全局分布一致來阻止攻擊者從中獲取更多的隱私信息。這些方法通常是在統計數據庫中進行操作,數據通常是以表格的形式,一般分為標識、半標識、敏感屬性和非敏感屬性這4種類型。保護方法是在數據之前將標識類型剔除或者用隨機符號或數字代替。但這些方法并不能完全保護個體隱私,攻擊者可通過半標識等其他屬性組合識別隱私數據。
3.2差分隱私方法
Dwork等[15]提出的差分隱私技術通過具體參數量化隱私保護的程度,可以確保在某個數據集中增加或者刪除一條記錄時不會影響計算機的輸出結果。其特點是在語義上提供隱私保護,限定攻擊者獲取有限的敏感信息,除此之外,在差分隱私技術上還有其衍生版本如Pufferfish、Bayesian差分隱私、non-ID數據集下的相互關聯的差分隱私等。主要思路是使用一種隨機模糊算法來評估數據的隱私保護程度。語義數據保護技術相比于語法保護技術,不是在數據之前對原始數據進行修改,而是在數據的查詢結果中加入噪音,模糊處理,從而對數據進行保護。
3.3訪問控制保護方法
Sandhu等[16]所介紹的自主訪問控制是根據主體身份以及主體所屬組別來對主體進行訪問的一種訪問控制防范。強制訪問控制是一種多級安全機制,所有主體和客體都標記有安全級別,只有主體的安全級別不低于客體的安全密級時,主體才可以讀客體;只有主體的安全級別不高于客體的安全密級時,主體才可以寫客體。Ray等[17]在基于角色的訪問控制方法(Role-BasedAccessControl,RBAC)基礎之上引入位置信息來確定用戶是否具有訪問數據的權限,提出了LARB(Location-AwareRole-Based)訪問控制模型;通過將各類屬性,包括用戶屬性、資源屬性、環境屬性等組合起來用于用戶訪問權限的設定基于屬性的訪問控制方法(Attribute-BasedAccessControl,ABAC)等。蘇晴等[18]在原有角色訪問控制方法基礎上對基本模型進行改進,提出二級角色定義,根據用戶對不同訪問者設置的角色來設置相應的訪問位置信息的權限,有利于保護實時上傳的位置信息,能有效防止非法攻擊者對用戶位置信息的收集和利用。
3.4數據加密技術
于光許[19]介紹了數據加密技術的一種分類方法———對稱加密和非對稱加密,一般有置換表算法、改進的置換表算法、循環冗余校驗算法、循環移位和XOR操作算法。對稱加密是針對一組加密信息,信息接收者與傳輸者采取的加密、解密方式是相同的,這種方法在密鑰交換過程中容易因存在安全問題而造成密鑰泄露。非對稱加密技術一般采用EIGamal、Diffie-Helltnan、橢圓曲線以及RSA等算法,信息接收者和傳輸者所采取的解密和加密的密鑰各不相同,公開密鑰和私有密鑰共同組成了密鑰,分別用于加密和解密,這相比于對稱加密增強了其安全性。Lin等[20]研究提出了一種混合加密技術,將對稱加密和非對稱加密結合,先通過非對稱加密對內容進行加密,然后使用對稱加密方法對用于加密該文件內容的密鑰進行加密,并將結果存儲于該數據的頭文件中,以此提供對密鑰的有效管理。除此之外,針對云存儲的數據加密方法,如Aten-iese等[21]在大數據審計技術中提出的PDP模型可以針對云服務提供商篡改、丟棄數據行為,利用糾錯碼和消息認證來保證數據的可靠性。
3.5區塊鏈隱私保護
區塊鏈的去中心化、去信任在隱私保護方面有著獨特的優勢,其具有難竊聽、匿名化、去中心化等特性,能夠有效避免服務器被攻擊而導致的數據泄露風險。黃永剛[22]根據區塊鏈技術提出了基于區塊鏈去中心化、去中介化特質的健康數據存儲方式,通過醫院、衛生部門的公鑰及個人用戶的私鑰的訪問權限設置,有效提升了隱私保護的可靠性。
3.6多維度隱私泄露保護
針對大數據不同的隱私泄露行為,在現有主流的隱私保護的基礎上,研究者提出了大量的隱私泄露量化模型。李濤等[23]認為現有的研究工作大多基于一種檢測方法開展,孤立地使用靜態檢測或者動態檢測都無法避免其固有的局限性,其對此提出了多維度的隱私泄露評估模型,通過靜態分析應用的結構及調用信息解決動態執行的缺陷,將動態分析和靜態分析結合,先進行靜態分析,尋找可能發生敏感信息調用的路徑,為隨后的動態執行提供指導,提高檢測效率和覆蓋率。邢月秀等[24-25]在其多維度iOS隱私泄露評估模型研究中指出應用程序主要是由代碼、行為和數據3個維度組成,其模型也分為靜態分析、動態分析和網絡數據分析3個維度。靜態分析速度快、效率高,動態分析能夠有效解決程序加殼、隱藏API調用,網絡數據分析可解決應用程序是否通過網絡途徑泄露隱私數據的問題。他們將這些優點組合在一起,相輔相成,有效地彌補了單一分析方法自身的局限性。在針對應用軟件中直接的隱私泄露檢測是有效的方法,上述研究者都是在單一的檢測方法的基礎之上,結合動態分析、靜態分析等方法的各自優點設計出了多維度的隱私泄露評估模型。但以上研究適用范圍較廣,單獨針對醫療行業的移動終端隱私泄露模型研究較少,這也是今后的重要研究方向之一。
3.7區域互換的位置隱私保護
陳細平[26]認為目前大多數的位置隱私保護技術都是通過擴大匿名區域的思想來實現對位置隱私的保護。但隨著匿名區域的擴大,巨大的查詢處理開銷以及之后伴隨的通信開銷成為一大瓶頸,因此提出了一種基于區域互換的隱私保護模型,通過用戶間的區域互換方式來保障用戶的隱私需求值。其通過仿真實驗分析出在用戶數量可變、網格劃分可變、匿名需求可變條件下,具有良好的可擴展性和魯棒性,相對匿名度提高5倍。
3.8基于細粒度著色權限機制的隱私保護
在移動終端應用的隱私保護中,戴威[27]為了彌補Android自身的隱私安全缺陷,設計了CrossDroid隱私數據訪問控制安全模型。通過細粒度權限設置模塊能夠有效地對程序的隱私權限進行配置,實現對單體程序的隱私數據保護。孫慶慶[28]在其研究中提出了一種權限粒度可控的LVPDroid隱私保護模型,通過在系統上建立多個虛擬環境,然后將應用數據進行隔離,同時利用每個虛擬環境中關聯的一套訪問規則來約束應用數據的訪問,從而實現了對隱私數據細粒度的保護。醫療設備的信息化使得現在大型醫院配備了許多的醫療移動終端,但在直接隱私泄露行為的應用中泄露模型的研究還少有學者提及。這也是今后醫療大數據領域隱私保護的重要研究方向。
3.9其它相關隱私保護方法
除以上方法外,現階段的隱私保護技術還包括:Wang等[29]基于重簽名的思想,設計了一個可以有效地保護群組用戶的身份隱私的大數據加密存儲方法,同時他們[30]在對數據的審計過程中利用環形簽名來對數據完整性進行驗證,用于云中共享數據進行審計的隱私保護的大數據審計方法;關聯規則的隱私保護方法;分類結果的隱私保護方法;聚類結果的隱私保護方法。數據分析應用過程中關聯規則、分類結果保護、聚類等也是重要的保護方法,如Aggarwal等[31]在2013年提出的關聯規則的隱私保護方法中將其分類為變換、隱藏,分別對敏感數據規則進行修改或隱藏。Vaidya等[32]則在2003年提出一種分布式K-means聚類算法,在聚類過程中不會獲取目標信息之外的相關信息,既保證聚類的準確又在整個過程中保障數據隱私。但現階段很少有專門針對醫療大數據的隱私保護技術,這也是今后醫療大數據隱私保護的一個重要的研究方向。
4結束語
信息化之后如何在龐大的數據資源中快速獲取信息且盡可能地保護敏感隱私數據,是醫療大數據未來重要的研究領域。首先需要對隱私泄露的行為加以分析,在此基礎上需要通過對原有隱私算法的改進以適應新環境下對隱私數據保護的要求。在對數據本身進行保護研究的同時,也應高度重視數據共享保護問題。在本領域的眾多研究中,隱私保護算法主要集中在匿名化和差分隱私技術領域。在衍生出來的眾多隱私保護模型的研究當中,大多是針對整個領域通用的模型,而專門針對醫療大數據領域的隱私泄露模型相對較少,特別是現階段醫療信息化的加快,醫院醫療應用終端的普及、互聯網醫療的發展使得患者隱私信息泄露更加多元化,希望通過本文對大數據相關領域隱私泄露行為及保護方法等分類闡述,能對大數據及醫療領域研究者有所啟發和幫助。
作者:尚靖偉 姜茸 胡瀟涵 施明月 單位:云南財經大學信息學院 云南省高校服務計算與安全管理重點實驗室