前言:尋找寫作靈感?中文期刊網用心挑選的入侵檢測知識對抗與遷移實驗的設計,希望能為您的閱讀和創作帶來靈感,歡迎大家閱讀并分享。
摘要:設計了基于對抗域適應遷移學習的入侵檢測攻防兩面性實驗。實驗基于課題組科研成果,針對對抗域適應遷移模型,提出通過增設遷移學習不同階段的域對齊來提高遷移能力,以及利用增強域損失評判函數,實現入侵檢測防御知識遷移的實驗設計思路。實驗中,組織學生利用對抗神經網絡,分別實施網絡攻擊數據偽造和遷移學習入侵檢測知識防御,仿真了“攻防”場景,有利于學生深入掌握對抗域適應和遷移學習的入侵檢測前沿技術與發展趨勢。
關鍵詞:對抗神經網絡;遷移學習;入侵檢測;網絡安全攻防;實驗設計
如何使高校網絡安全課程適應當前發展需求,是信息安全課程實踐教學的重要改革方向[1]。當前社會亟需的信息安全人才,要具備豐富的理論知識、扎實的實踐動手能力,可利用多種智能防御技術對網絡信息進行保護。本文設計了一項在物聯環境下實現網絡攻防與知識遷移的教學實驗,目的是融合物聯網、深度學習、網絡安全等方面知識,促進學生對信息安全理論的理解和融會貫通,培養解決實際信息安全“攻防”實際問題的能力。
1網絡入侵對抗和遷移學習
1.1入侵檢測系統
入侵檢測系統(intrusiondetectionsystem,IDS)[2]是1980年由Anderson在《計算機安全威脅監控與監視》技術報告中提出的[3],它通過分析收集網絡中各子網或網絡節點的數據信息來過濾攻擊異常,判斷是否存在入侵。具體的入侵檢測方法包括特征檢測方法和異常檢測方法[4]。近年來,網絡監測運行環境和攻擊數據結構不斷變化,匹配特征的入侵檢測模型(如傳統的K-means模型[3])和模式特征提取IDS模型[5],由于缺乏動態調整辨識的策略和環境適應能力,不再能夠應對復雜網絡攻擊的檢測、響應和防御。于是,基于人工智能的入侵監測方法被提出并被廣泛應用。
1.2對抗神經網絡與遷移學習
對抗神經網絡(GANs)[6]是由數據域生成器網絡和判別器網絡通過博弈組合形成的對抗學習神經網絡。生成器用來捕獲真實數據分布并輸出模擬數據,判別器用來判斷模擬生成的輸出數據是真實的還是模擬的。生成器利用判別損失不斷優化,以使判別器難以判斷,而判別器則不斷優化自身以求判斷更準確。來源于教育心理學的遷移學習,是利用來自某一領域的學習結果解決另一領域中缺少標記數據學習的問題[7],對相似領域模型間的知識學習很有幫助。利用GANs網絡可以讓遷移目標中的數據與預訓練數據高度相似,再從域適應角度使預學習的知識遷移到新的領域。
2對抗域適應遷移學習實驗方案設計
2.1入侵對抗與遷移實驗目標與結構設計
由于多樣性現場與實驗室訓練的深度神經網絡模型存在差異[8-9],本實驗的目標是讓學生利用所學知識,將實驗室訓練的入侵檢測深度神經網絡模型遷移至工作現場,實驗環境使用了物聯云環境及其數據集。為了使學生學習到更多的相關知識和深度學習模型,實驗根據對抗域適用特點,采用可替換模塊框架,設計成攻防“雙面性”實驗,如圖1所示。實驗背景為物聯數據向云端傳輸,實施過程是利用數據監控和預訓練數據集進行攻擊特征知識提取。在攻擊特征知識提取中,設計了攻防兩面的競爭式實驗,目的是使學生充分認識GANs網絡的“雙刃劍”特性。攻擊過程利用GANs網絡對物聯數據進行對抗模擬,生成偽造數據,用來避開入侵檢測,攻擊網絡。與之相對,防御過程則利用對抗網絡遷移預訓練模型,分析監測到的流量數據,辨析攻擊。在上述框架中,使學生分別進行攻擊和防御實驗,理解GANs模型,掌握物聯數據偽造原理;理解對抗域適用的遷移方法,掌握入侵檢測知識遷移應用能力。
2.2入侵對抗與遷移實驗模型設計
假設已標記的源域S數據集為{(,)}SjjjXY,其中1{}SSjijXx表示源域Sj的樣本,對應標簽為SjY?1{}Sijy。目標域T的分布為,()Tpxy,其中不包含標簽TY的數據為{}TTiXx。i表示源域中元素下標,j表示源域下標。如圖2所示,實驗遷移模型MDAN(multi-sourcedomainadaptionnetwork)來源于課題組科研最新研究成果[9]。MDAN由公共特征提取器、域特征提取器、域鑒別器和分類器組成。公共特征提取器f(?)將源域和目標域樣本特征映射到一個公共特征空間。域特征提取器將源域和目標域映射到同一個特征空間。給定樣本sx來自源域(,)ssXY,Tx來自目標域TX,公共特征提取器的結果()sFx和()TFx傳遞給域特征提取器H(?)。然后,使用最大平均差異(maximummeandiscrepancy,MMD)[10]方法,進行類別對齊。然后將每對源域和目標域進行域混淆,再輸入到域鑒別器D中,計算對抗損失。分類器C采用softmax函數對數據分類,使用交叉熵J計算分類損失。J是交叉熵損失函數,F是將所有域映射到一個公共特征空間的特征提取器,C是分類器,H是特定域特征提取器,E表示期望,下標cls表示分類損失。圖2中所標注的各個層次的卷積核,表明該層對應函數是如何通過卷積實現的。下面分別闡述入侵對抗中偽造和識別的利用方式。首先,利用MMD差異度量估計兩域之間的分布差異[10]。為使其支持多源域情況,本文將其修改為平均形式。其中表示向量的內積;Ψ表示無偏估計,參數p=q當且僅當,0()H?pq?。p、q是函數的參數,即式(2)中的兩個H。域對抗是將源域和目標域中由域特征提取器提取的特征進行混淆,獲得其中具有跨域不變性的特征,以使分類器分辨不出二者的區別。dmdrz??PlnD(x,z)?Pln(1?D(x,z))(3)其中,rP表示判定為真實數據x的概率,zP表示判定為生成數據z的概率。這樣,即可將生成的數據最大限度地接近于原始數據,即利用域混淆提高數據偽造效果。其次,在分類過程中,分類器將目標域樣本的類別預測值差異作為損失函數。通過使分類損失函數最小化使目標域接近于源域,實現源域分類知識向目標域遷移。此外,其中所實現的1D卷積,前向傳遞計算可表示為:其中,l表示網絡層數,i表示當前層的第i個數據,qk表示q層卷積核,b表示偏置,zl表示l層輸入,al表示l層輸出。將遷移模型中的激活函數改為GeLU函數[11],以便更好地描述事件發生的正態分布。
3教學實驗實現
針對網絡空間安全攻防特點,根據提供的實驗條件和智能入侵檢測的人才培養需求,實驗內容圍繞入侵檢測對抗的偽造入侵數據[12]與入侵數據分類識別進行設計。
3.1對抗域遷移學習數據來源
Edge-IIoTset[13]是工業IoT特征和異構網絡流量數據集。由10種IoT設備收集,包括5種攻擊類型,分為14個與協議相關的攻擊子類。將其按攻擊時間分為3個域,分別用A、B、C表示。N-BaIoT[14]數據集收集了9個被Mirai和Bashlite真實攻擊的IoT設備數據,含10種攻擊類型。將其分為3個不同領域組合:Danmini_Doorbell、Ecobee_Thermostat、Philips_B120N10_Baby_Monitor,分別用U、V、W表示。實驗中,輪流將兩個域作為源域和目標域。例如,可將2個源域V、W向目標域U遷移學習攻擊識別知識表示為V,W→U。在遷移學習中,將目標域數據集分為訓練和測試兩部分。MDAN使用SDG優化器和RevGrad[15]學習率退火策略進行優化,初始學習速率為0.01,權重衰減為5×10–4。其中,γ從0到1線性變化,η0=0.05,α=10,β=0.75。
3.2混淆對抗的偽造數據實驗
混淆數據實驗的目的是讓學生理解和掌握針對智能入侵檢測的攻擊模式。實驗實現過程如下:①先通過已有的VGG、ResNet等模型對Edge-IIoT數據進行攻擊識別,獲得識別結果。②將圖2中的目標域作為攻擊數據生成器,讓學生隨機生成初始化攻擊數據,再利用混淆對抗方法,獲得模擬攻擊數據的輸出。③用①的識別模型對②的輸出數據進行識別,檢驗攻擊是否成功。分別實驗同一個域、相似域及多源域數據的對抗,提高學生對對抗效果的感性認識。實驗共計4學時。通過上述實驗設計可對所選擇的深度學習算法獲得較高正常數據模擬值,即數據偽造。讓學生實現和觀察對抗模擬產生的數據,理解數據偽造是利用原有檢測方法對某些協議檢測的脆弱性,如漏檢、檢測不全等而實現的。通過混淆對抗網絡挖掘出對應的脆弱性,使偽造數據繞開深度學習模型的識別。表1為部分學生在攻擊過程中產生的偽造數據通過各種入侵檢測模型的比例(為學生實驗10個最好結果的平均值)表1結果顯示,在同一個域中,對抗生成的偽造數據效果較好,如果利用相似域進行對抗訓練,生成的偽造數據效果下降明顯,但利用多個相似域對抗,會對實際偽造數據質量有較大的提升。從平均值來看,對抗生成的偽造數據受到入侵檢測模型復雜度的影響,模型復雜度越高,偽造越困難。
3.3基于對抗域適應遷移防御知識實驗
為了在對抗實驗基礎上,使學生更好地理解攻防的兩面性,設計了多源域對抗遷移MDAN實驗。通過實驗,學生能夠理解和掌握一種新環境下迅速部署入侵檢測防御體系的方法,理解遷移學習各種操作的作用。將實驗結果與幾種域自適應方法進行比較,包括DAN[16]、DANN[17]、DDC[15]、Deep-CORAL(D-COR)[18]、MFSAN[19],以便使學生掌握最新技術。實驗共8學時,前4學時學習使用對比模型并獲取結果,后4學時學習MDAN模型并進行結果對比分析。對新方法MDAN,采用預測準確度(Acc)評估網絡性能。其中,f(x)是分類器預測結果,y(x)是真實標簽,Ttest表示目標域中未標記的測試樣本。為了對各種方法進行公平比較,引入如下三個標準:①SingleBest:最佳的單源遷移實驗結果。②SourceCombine:合并多源域所有數據,作為單源域執行實驗。③Multi-Source:多源域實驗結果。在N-BaIoT數據集上,將MDAN與其他域自適應方法進行對比的實驗結果如表2所示。其中,MDAN-cat(M-cat)模型未添加域對抗,MDAN-dc(M-dc)模型有域對抗但沒有類別對齊。從數據對比發現:(1)MDAN多源域數據組合的實驗結果優于單個最佳源域的遷移,在網絡協議包的入侵識別上,多源域可以找出更多的異常類別。(2)只合并源域不做類別對齊的遷移方法,知識遷移對入侵的識別效果不能得到明顯提升,說明類別對齊在不同IoT監測設備下,入侵的網絡報文格式存在細微差別。(3)MDAN在對抗學習之后,域對齊和分類對齊操作對網絡協議報文識別遷移很重要,因為域體現了協議報文屬性值范圍,類別體現了具體攻擊的細微差別。在Multi-Source的實驗中,將MDAN模型和MFSAN模型的目標域測試樣本進行預測結果可視化,驗證MDAN模型遷移的準確性。將結果處理成2維,如圖3所示。圖3子圖中有2個源域和1個目標域。其中,“o”表示源域1數據,“#”表示源域2數據,“*”表示目標域數據。圖3(a)—(c)是MFSAN在多源遷移任務的可視化預測結果;圖3(d)—(f)是MDAN方法的可視化預測結果。圖3結果顯示出對抗域數據與目標域數據混淆較好,MDAN方法比MFSAN方法分類錯誤更少,且域適應后的目標域數據更接近源域,顯示出MDAN具有更好的效果。通過該實驗可使學生理解對抗識別的域對齊、對抗操作、分類對齊等各種操作在入侵檢測中的作用,并了解域適應遷移學習模型的修改方法。還可進一步設計競爭實驗,將兩個實驗分別由兩組學生競爭對抗,提升學生的對抗能力。
4結語
本實驗緊扣“新工科”背景下網絡空間安全專業培養需求,利用最新科研成果設計的MDAN模型進行了網絡空間安全入侵檢測實驗設計。實驗利用深度學習中的對抗神經網絡與入侵檢測的數據分析基本原理,基于對抗混淆方法,分別設計了偽造攻擊和遷移防御知識實驗內容,在一定程度上實現了人工智能的攻防兩面性。在實驗實施過程中,學生在實驗教師指導下完成了對GAN網絡模型的修改,獨立完成了實驗結果的對比分析與模型改進,更好掌握了入侵檢測原理與技術,了解了深度學習在信息安全中的應用,理解了在信息安全中神經網絡利用的兩面性,提升了知識的綜合運用能力。
參考文獻
[1]李沖,毛偉偉,孫晶.新工業革命與工科課程改革:基于知識生產模式轉型的新工科課程建設路徑研究[J].中國大學教學,2022(7):88–96.
[2]ZARPELAOBB,MIANIRS,etal.Asurveyofintrusiondetectionininternetofthings[J].JournalofNetworkandComputerApplications,2017,84(4):25–37.
[3]ANDERSONJP.Computersecuritythreatmonitoringandsurveillance[R].JamesP.AndersonCo.,FortWashington,1980.
[4]TSCHOFENIGH,BACCELLIE.Cyberphysicalsecurityforthemassesasurveyoftheinternetprotocolsuiteforinternetofthingssecurity[J].IEEESecurity&Privacy,2019,17(5):47–57.
[5]張雪芹,顧春華.一種網絡入侵檢測特征提取方法[J].華南理工大學學報(自然科學版),2010,38(1):81–86.
[6]GOODFELLOWIJ,POUGET-ABADIEJ,MIRZAM,etal.Generativeadversarialnetworks[J].CommunicationsoftheACM,2020,63(11):139–144.
[7]ZHUANGF,QIZ,DUANK,etal.Acomprehensivesurveyontransferlearning[J].ProceedingsoftheIEEE,2020(99):1–34.
[8]HASSANMM,GUMAEIA,ALSANADA,etal.Ahybriddeeplearningmodelforefficientintrusiondetectioninbigdataenvironment[J].InformationSciences,2020,513(C):386–396.
[9]WANGY,LIZ,etal.Internetofthingsintrusiondetectionsystembasedontransferlearning[C].2022ICETCI,2022:25–30.
[10]DZIUGAITEGK,ROYDM,GHAHRAMANIZ.Traininggenerativeneuralnetworksviamaximummeandiscrepancyoptimization[J].arXivpreprintarXiv:1505.03906,2015.
[11]KOVACSG,TOTHL,COMPERNOLLEDV,etal.IncreasingtherobustnessofCNNacousticmodelsusingautoregressivemovingaveragespectrogramfeaturesandchanneldropout[J].PatternRecognitionLetters,2017,100(12):44–50.
[12]KORONIOTISN,MOUSTAFAN,SITNIKOVAE,etal.Towardsthedevelopmentofrealisticbotnetdatasetintheinternetofthingsfornetworkforensicanalytics:Bot-IoTdataset[J].FutureGenerationComputerSystems.2019,100(C):779–796.
[13]FERRAGMA,FRIHAO,HAMOUDAD,etal.Edge-IIoTset:AnewcomprehensiverealisticcybersecuritydatasetofIoTandIIoTapplicationsforcentralizedandfederatedlearning[J].IEEEAccess,2022(10):40281–40306.
[14]MEIDANY,BOHADANAM,MATHOVY,etal.N-BaIoT-network-baseddetectionofiotbotnetattacksusingdeepautoencoders[J].IEEEPervasiveComputing,2018,17(3):12–22.
[15]TZENGE,HOFFMANJ,ZHANGN,etal.Deepdomainconfusion:Maximizingfordomaininvariance[J].arXivprints:1412.3474,2014.
[16]VENKATESWARAH,EUSEBIOJ,CHAKRABORTYS,etal.Deephashingnetworkforunsuperviseddomainadaptation:2017IEEEConferenceonComputerVisionandPatternRecognition(CVPR)[C].IEEEXplore,2017:5385–5394.
[17]GANINY,USTINOVAE,AJAKANH,etal.Domain-adversarialtrainingofneuralnetworks[J].arXiv:1505.07818,2015.
[18]SUNB,FENGJ,SAENKOK.Returnoffrustratinglyeasydomainadaptation[J].arXiv:1511.05547v2,2015.
[19]ZHUY,ZHUANGF,WANGD.Aligningdomain-specificdistributionandclassifierforcross-domainclassificationfrommultiplesources[J].ProceedingsoftheAAAIConferenceonArtificialIntelligence,2019,33(1):5989–5996.
作者:鮑宇 趙亮 韓麗霞 張艷群 王玉濤 單位:中國礦業大學計算機科學與技術學院 中國礦業大學科學技術研究院