圖片來源 : 若水 Flow

【落地經驗談】趨勢科技:用AI釋放大數據潛能,節省80%成本

文/若水 Flow AI Blog 編輯團隊

若水AI數據處理團隊總結兩大要點】

1, AI落地,從小地方開始:從小的地方開始命題,逐步訓練、累積不同的AI數據分析模型,最後整合成一套完整的、自動化的系統。

2, AI落地,是持續優化的過程:機器學習模型並非萬能,需要不斷測試、優化,才能時刻符合現況,保有競爭力。

趨勢科技作為全球排名前三的雲端資安公司,旗下開發許多防毒軟體和相關產品,這些產品就像遍布全球的感測器,幫企業防堵資安攻擊或釣魚事件。每天超過10T的大量數據資料需要處理,不僅耗時、也耗費人力。

若水AI邀請趨勢科技資料科學家周秉誼(Ricky),一同分享趨勢團隊是如何在有限的人力裡,運用AI數據分析技術,優化現有流程,降低80%數據處理成本


黃金三角架構,趨勢用 AI 讓大數據「化廢為寶」

趨勢投入AI的時間大概可以回溯到 2005 年左右,在這些年的經驗中,針對 AI 運用形成了一個由「AI 資源」與「客戶價值」組成的 2*2 的思考框架,接著會引導你去選擇投入的組合,是用來降低成本?優化工作流程、產品或是服務?又或者開發新市場?

趨勢每天面對超過7億個不同的檔案來源,要怎麼用有限的人力,把這些惡意的東西找出來?這就是趨勢需要AI的原因。

圖片來源 : 趨勢科技

過去,如果用人力逐一分析,會耗費相當多的時間與資源,特別是遇到「快速變動」的惡意程式、惡意攻擊事件,更是讓人頭痛。同時,有限人力所能分析的數據僅是冰山一角,無法深入洞察每天超過7億個不同的檔案,如此造成許多數據變成「閒置資源」。

我們從專案組織架構下手,組成一個由資安專家、大數據、AI機器學習組成的「黃金三角」,讓AI從中協助、將閒置的海量資料,變成有價值的數據洞察。

大量資料是推力,也是助力

初期整合,這三大要素缺一不可。只有資安專家,無法處理海量資料;而只有大數據,只能單純做初步的資料處理,無法訓練一套能長久運作、深度學習的分析系統。

首先,需要資安專家來定義「何為攻擊事件」、「何為惡意程式」,幫助AI數據模型建立判斷標準。

接著是每天收集、儲存、處理的大數據(Big Data)。

有了龐大數據資料庫後,還需要聯合數據科學家(Data scientists)或是 AI機器學習專家,去分析先前儲存的數據,讓它們發揮最大價值。

實際上怎麼做呢?


AI技術落地資安領域,降低80%數據處理成本

在過去,防毒軟體藉由掃描電腦的文件檔案,偵測是否存在不利於資料安全的惡意程式。因為無法單從外表判斷檔案是好是壞,所以要讓所有檔案先在名叫「沙盒(sandbox)」的虛擬環境中運作一次,才能確實偵測出惡意程式。

然而,一個組織單日可能收到上萬個檔案,若讓每個檔案逐一在沙盒執行,其實是件速度慢、且浪費資源的事情。

Macintosh HD:Users:jauyi214:Desktop:螢幕快照 2019-06-12 下午5.34.55.png
圖片來源 : 趨勢科技
Macintosh HD:Users:jauyi214:Desktop:螢幕快照 2019-06-12 下午5.35.02.png
圖片來源 : 趨勢科技

趨勢科技設計的AI機器學習系統並不複雜,一次只專注做一件事,就是去快速過濾全部的檔案,然後收集各種惡意程式的特徵 ,判斷檔案是否可疑。

接著在 AI 模型初步判讀過的檔案中,隨意篩選其中1/5檔案進入沙盒運作,剩下的4/5直接使用 AI 模型的判讀結果。如此一來,已經可以節省80%的數據處理成本

也許你會覺得,這樣的AI模型並不完美。但對我們來說,僅僅抓取1/5的檔案,便省下80%的成本,這件事讓我們學到:

在AI專案一開始,不見得都要做到非常完整、龐大 ,一次解決所有問題。你大可從小地方開始,運用不同的AI模型,解決專案裡不同部分的問題,確認模型已經可以解決問題,累積起來再把所有的模型組在一起,變成完成的解決方案。


人工智慧並非萬能,需要持續養成

導入AI模型後,趨勢不再需要依循傳統判斷垃圾信件的方式,省去大量人力成本。照理來說,建立完一套自動化的系統,團隊也應該功成身退?其實不然。

Macintosh HD:Users:jauyi214:Desktop:螢幕快照 2019-06-12 下午5.38.14.png
圖片來源 : 趨勢科技

資安是一個變動非常快的產業,每個月的新病毒都長得完全不一樣,隨著時間過去,機器學習模型的效能可能會越來越差。因此,該如何設計一套即時修補錯誤的機制與偵測錯誤的工具,是維運階段值得思考的問題。

任何一套人工智慧,或者機器學習模型的服務上線以後,它並不是結束,而是一個開始

在傳統軟體的開發過程中,軟體上線後還需要有人不斷地去監控、測試它的效能,看有沒有錯誤需要再修改。這是一個需要不停互動的過程。

要導入AI,不需要每次都全部「砍掉重練」,而是應該先想辦法讓AI技術與現有的系統整合。

舉個例子,以下漏斗是資安防護的運作機制。在第一層的,透過網絡、檔案靜態行為的偵測,運用兩、三個不同的AI模型,然後還有一些傳統方法搭配。如果在第一層無法判斷檔案是好是壞,系統會將它轉送第二層的AI模型,這個階段判讀的多為網路上發動的惡意攻擊、偷渡式下載、惡意廣告等動態行為。

Macintosh HD:Users:jauyi214:Desktop:螢幕快照 2019-06-12 下午5.45.00.png
圖片來源 : 趨勢科技

面對AI,我們的作法並不是把舊的東西完全捨棄,而是讓新、舊整合在一起,產生多層保護(layer protection),發揮一加一大於二的效果。

利用這樣的新舊整合,一方面可以很快地用AI技術去存取可疑程式的數據特徵,讓機器學習模型更完整,另一方面也可善用傳統的資安防護方法,以確保當新的機制犯錯時,系統可以即時用這些已經被多次測試的舊方法補足。

透過這個project,我們學習到:

當組織導入AI,並不用把過往的架構整個砍掉重練,這樣子風險會非常、非常大。同時,也不要讓AI單打獨鬥,而是想辦法與現有的系統整合。

我想再一次強調,AI落地的歷程,一開始並不會完美。就算只能做到目標的80%,也還是很有助益,主其事者該思考的是如何將AI與現有系統整合,才能針對這些真實世界的traffic去調整模型l,讓AI早日結合到真實世界的運作流程。

【智慧零售】肺炎疫情衝擊全球超市,不數位轉型,就關門大吉

資源不夠,怎麼導入AI?Cofacts 與若水用數據處理策略,打造最強謠言查證 Line 機器人