將三種模態特征和三種融合方法的結果進行了對比,如表3所示。從表3可以看出,前端融合和中間融合較基于模態特征的檢測準確率更高,損失率更低。后端融合是三種融合方法中較弱的,雖然明顯優于基于dll和api信息、pe格式結構特征的實驗結果,但稍弱于基于字節碼3-grams特征的結果。中間融合是三種融合方法中**好的,各項性能指標都非常接近**優值。表3實驗結果對比本實施例提出了基于多模態深度學習的惡意軟件檢測方法,提取了三種模態的特征(dll和api信息、pe格式結構信息和字節碼3-grams),提出了通過三種融合方式(前端融合、后端融合、中間融合)集成三種模態的特征,有效提高惡意軟件檢測的準確率和魯棒性。實驗結果顯示,相對**且互補的特征視圖和不同深度學習融合機制的使用明顯提高了檢測方法的檢測能力和泛化性能,其中較優的中間融合方法取得了%的準確率,對數損失為,auc值為,各項性能指標已接近**優值。考慮到樣本集可能存在噪聲,本實施例提出的方法已取得了比較理想的結果。由于惡意軟件很難同時偽造多個模態的特征,本實施例提出的方法比單模態特征方法更魯棒。以上所述*為本發明的較佳實施例而已,并非用于限定本發明的保護范圍。如何選擇適合企業的 IT 解決方案?鶴山軟件產品檢測報告
所述生成軟件樣本的dll和api信息特征視圖,是先統計所有類別已知的軟件樣本的pe可執行文件引用的dll和api信息,從中選取引用頻率**高的多個dll和api信息;然后判斷當前的軟件樣本的導入節里是否存在選擇出的某個引用頻率**高的dll和api信息,如存在,則將當前軟件樣本的該dll或api信息以1表示,否則將其以0表示,從而對當前軟件樣本的所有dll和api信息進行表示形成當前軟件樣本的dll和api信息特征視圖。進一步的,所述生成軟件樣本的格式信息特征視圖,是從當前軟件樣本的pe格式結構信息中選取可能區分惡意軟件和良性軟件的pe格式結構特征,形成當前軟件樣本的格式信息特征視圖。進一步的,所述從當前軟件樣本的pe格式結構信息中選取可能區分惡意軟件和良性軟件的pe格式結構特征,是從當前軟件樣本的pe格式結構信息中確定存在特定格式異常的pe格式結構特征以及存在明顯的統計差異的格式結構特征;所述特定格式異常包括:(1)代碼從**后一節開始執行,(2)節頭部可疑的屬性,(3)pe可選頭部有效尺寸的值不正確,(4)節之間的“間縫”,(5)可疑的代碼重定向,(6)可疑的代碼節名稱,(7)可疑的頭部***,(8)來自,(9)導入地址表被修改,(10)多個pe頭部,(11)可疑的重定位信息,。醫院信息系統軟件測評中心可靠性評估連續運行72小時出現2次非致命錯誤。
圖2是后端融合方法的流程圖。圖3是中間融合方法的流程圖。圖4是前端融合模型的架構圖。圖5是前端融合模型的準確率變化曲線圖。圖6是前端融合模型的對數損失變化曲線圖。圖7是前端融合模型的檢測混淆矩陣示意圖。圖8是規范化前端融合模型的檢測混淆矩陣示意圖。圖9是前端融合模型的roc曲線圖。圖10是后端融合模型的架構圖。圖11是后端融合模型的準確率變化曲線圖。圖12是后端融合模型的對數損失變化曲線圖。圖13是后端融合模型的檢測混淆矩陣示意圖。圖14是規范化后端融合模型的檢測混淆矩陣示意圖。圖15是后端融合模型的roc曲線圖。圖16是中間融合模型的架構圖。圖17是中間融合模型的準確率變化曲線圖。圖18是中間融合模型的對數損失變化曲線圖。圖19是中間融合模型的檢測混淆矩陣示意圖。圖20是規范化中間融合模型的檢測混淆矩陣示意圖。圖21是中間融合模型的roc曲線圖。具體實施方式下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例**是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
這樣做的好處是,融合模型的錯誤來自不同的分類器,而來自不同分類器的錯誤往往互不相關、互不影響,不會造成錯誤的進一步累加。常見的后端融合方式包括**大值融合(max-fusion)、平均值融合(averaged-fusion)、貝葉斯規則融合(bayes’rulebased)以及集成學習(ensemblelearning)等。其中集成學習作為后端融合方式的典型**,被廣泛應用于通信、計算機識別、語音識別等研究領域。中間融合是指將不同的模態數據先轉化為高等特征表達,再于模型的中間層進行融合,如圖3所示。以深度神經網絡為例,神經網絡通過一層一層的管道映射輸入,將原始輸入轉換為更高等的表示。中間融合首先利用神經網絡將原始數據轉化成高等特征表達,然后獲取不同模態數據在高等特征空間上的共性,進而學習一個聯合的多模態表征。深度多模態融合的大部分工作都采用了這種中間融合的方法,其***享表示層是通過合并來自多個模態特定路徑的連接單元來構建的。中間融合方法的一大優勢是可以靈活的選擇融合的位置,但設計深度多模態集成結構時,確定如何融合、何時融合以及哪些模式可以融合,是比較有挑戰的問題。字節碼n-grams、dll和api信息、格式結構信息這三種類型的特征都具有自身的優勢。從傳統到智能:艾策科技助力制造業升級之路。
optimizer)采用的是adagrad,batch_size是40。深度神經網絡模型訓練基本都是基于梯度下降的,尋找函數值下降速度**快的方向,沿著下降方向迭代,迅速到達局部**優解的過程就是梯度下降的過程。使用訓練集中的全部樣本訓練一次就是一個epoch,整個訓練集被使用的總次數就是epoch的值。epoch值的變化會影響深度神經網絡的權重值的更新次數。本次實驗使用了80%的樣本訓練,20%的樣本驗證,訓練50個迭代以便于找到較優的epoch值。隨著迭代數的增加,前端融合模型的準確率變化曲線如圖5所示,模型的對數損失變化曲線如圖6所示。從圖5和圖6可以看出,當epoch值從0增加到5過程中,模型的驗證準確率和驗證對數損失有一定程度的波動;當epoch值從5到50的過程中,前端融合模型的訓練準確率和驗證準確率基本不變,訓練和驗證對數損失基本不變;綜合分析圖5和圖6的準確率和對數損失變化曲線,選取epoch的較優值為30。確定模型的訓練迭代數為30后,進行了10折交叉驗證實驗。前端融合模型的10折交叉驗證的準確率是%,對數損失是,混淆矩陣如圖7所示,規范化后的混淆矩陣如圖8所示。前端融合模型的roc曲線如圖9所示,該曲線反映的是隨著檢測閾值變化下檢測率與誤報率之間的關系曲線。性能基準測試GPU利用率未達理論最大值67%。西安第三方軟件評測單位
艾策醫療檢測中心為體外診斷試劑提供全流程合規性驗證服務。鶴山軟件產品檢測報告
后端融合模型的10折交叉驗證的準確率是%,對數損失是,混淆矩陣如圖13所示,規范化后的混淆矩陣如圖14所示。后端融合模型的roc曲線如圖15所示,其顯示后端融合模型的auc值為。(6)中間融合中間融合的架構如圖16所示,中間融合方式用深度神經網絡從三種模態的特征分別抽取高等特征表示,然后合并學習得到的特征表示,再作為下一個深度神經網絡的輸入訓練模型,隱藏層的***函數為relu,輸出層的***函數是sigmoid,中間使用dropout層進行正則化,防止過擬合,優化器(optimizer)采用的是adagrad,batch_size是40。圖16中,用于抽取dll和api信息特征視圖的深度神經網絡包含3個隱含層,其***個隱含層的神經元個數是128,第二個隱含層的神經元個數是64,第三個隱含層的神經元個數是32,且3個隱含層中間間隔設置有dropout層。用于抽取格式信息特征視圖的深度神經網絡包含2個隱含層,其***個隱含層的神經元個數是64,其第二個隱含層的神經元個數是32,且2個隱含層中間設置有dropout層。用于抽取字節碼n-grams特征視圖的深度神經網絡包含4個隱含層,其***個隱含層的神經元個數是512,第二個隱含層的神經元個數是384,第三個隱含層的神經元個數是256,第四個隱含層的神經元個數是125。鶴山軟件產品檢測報告