in ,

資源不夠,怎麼導入AI?Cofacts 與若水用數據處理策略,打造最強謠言查證 Line 機器人

文/ 若水 Flow AI Blog 編輯團隊

【前言】

AI 落地專案中,最傷腦筋的往往是如何配置資源,以發揮最大效率。如果你也正置身其中,「Cofacts(真的假的)」事實查核平台的經驗,值得參考。

Cofacts 切中現代人使用科技的痛點,曾榮獲 g0v 公民科技創新獎助金,不只政委唐鳳 PO 文說讚,更吸引趨勢科技防詐達人、美玉姨使用其開放資料庫/程式碼,連泰國團隊都來向他們取經。

Cofacts 的煩惱,相信你也曾碰過:在企業、組織快速長大同時,又要發展 AI 專案,有限的人力、時間和經費該怎麼配置?

台灣 40 歲以上民眾的 LINE 使用率超過九成,LINE 的高普及率再加上群組的封閉性,讓假消息難以被觀測和查證。這樣的時代背景下,2017年,「Cofacts 真的假的」因應而生。

Cofacts 效仿維基百科 (Wikipedia) 的精神,透過公民參與、非營利的方式,開放民眾無條件成為假訊息的闢謠者。遇到可疑訊息,民眾可將訊息轉傳至 Cofacts 的網站或 LINE 聊天機器人,集合眾人之力闢謠。

「大自然真的令人難以置信,這朵花叫做玉蘭利利弗洛爾!🤗👍🏽」

「台東改良:長在樹上的草莓,鮮紅又茂盛!」

圖片來源:網路

針對上述似是而非的圖文訊息,公民編輯們找出佐證資料,向用戶澄清:「那只是未完全盛開的玉蘭花」、「那不是改良,而是把草莓插在帶刺的棗樹上。」

Cofacts 切中現代人使用科技的痛點

短時間內用戶快速成長,在 LINE 使用者便已突破 20 萬人,不過隨之而來的壓力,就是資料庫裡有超過 4 萬筆待查證的訊息資料。


數據處理的策略: 專注所長、借力使力

2020 年初,他們決定自建 AI 模型,初步辨識待查訊息,節省人工查證時間。

想建 model,就要有數據

志工之一、負責資料科學 (Data Science) 的工程師 ggm 回憶,當時,他們曾討論過要內部成員自己開發標註工具完成,或比照 UGC(User Generated Content) 眾包標註,最後轉念一想,「既然組織都講專業分工,數據標註 (Data Annotation) 也該找專業的來做。」

這個決定,讓 Cofacts 組織裡的人力能投入在最專長,而且能長期累積的項目,包括:加強對編輯的審核訓練、優化聊天機器人的互動體驗。

在同是 IT 專業的好友推薦下,ggm 找上若水 AI 數據處理服務團隊。他印象深刻,若水的 PM 專案管理團隊說明了許多 AI 數據處理和數據標註上的建議流程,「給了我滿多決策上的判斷依據。」

Cofacts 編輯團隊 (圖片來源 : Cofacts)

「因為有若水在前端的數據處理,讓我們有一個不錯的訓練成果,再過一陣子就會公開了,」ggm語氣期待地表示。

在台灣,幾個打擊假訊息的平台都正在用AI解題,追求更佳回應效率。也許你會好奇,當AI 命題相似,演算法的策略也會相同嗎?

若水做為全台最大的 AI 數據處理服務團隊,超過100個數據專案的經驗值告訴我們:答案並不必然

比方,「Cofacts」和「趨勢防詐達人」這兩個數據處理專案。雖然都是以假訊息的文字標籤分類作為發展 AI 命題,但演算法的使用卻各有千秋。


數據處理的策略 2 : 根據 AI 數據型態,養出適用的演算法

趨勢科技防詐達人的 APP 系統設計,需要精準、明確的幫民眾判斷轉傳來的連結或訊息「是/不是詐騙訊息」。詐騙訊息或釣魚網站裡面出現的關鍵字,大部分有一定的規律可循,所以採用「語意辨識」的演算法來訓練 AI。(延伸閱讀:疫情期間,出現哪些詐騙亂象?看防詐達人如何打破謠言

而 Cofacts 命題的相異點在於:為了維持平台的開放性,Cofacts不會刪除或整併編輯們回覆的留言,以確保每一種聲音都可以被聽見。

影片來源:Confacts官網

於是,Cofacts不只使用需要標註數據的監督式學習,同時也輔以 Google 的非監督式演算法 BERT(Bidirectional Encoder Representations from Transformers),以機率模型的方式,計算該篇文章是屬於哪些分類標籤的。

Cofacts 後台數據資料庫的議題很多元,橫跨農業、保健資訊、助人行善、能源發展、人權、LGBT、…等領域,一共可以分成 13 種分類標籤,並隨著時間持續增加。

影片來源:Confacts官網

藉由數據外包策略,這些若水處理、分類過的數據,對於 Cofacts 的演算法來說,發揮兩大作用,第一:幫助詐騙種類的分類標籤更精準、更清晰,進而幫助模型學習成效

例如,仔細分類過上萬筆的訊息中,會發現有一些訊息難以被分類到現有的類別中,像是小狗走失協尋、購買農產救助清貧者之類「好心幫忙轉傳」的訊息。此時,Cofacts 便可以根據數據處理的結果,於後台新增分類標籤,讓分類更精準。

第二:有了這些數據基礎,可以幫助 Cofacts 找到更適合的專業人員來擔任編輯。假訊息橫跨各大領域,負責審查這些訊息的編輯群,勢必也得來自各行各業、各種年齡層,例如醫生、能源專家、農業專家…等。有了精準的參考數據,才能夠更了解將來招募編輯時,應該吸引哪一類專業的人士進場。

回想當時發起人 Johnson 創立 Cofacts 的初衷,就是希望能手動做些什麼,改變現況,「這大概就是所謂的工程師性格吧!」ggm 說。

目前 Cofacts 的編輯人數已經突破 3,000 人,其中不只有 20~30 歲的年輕族群,甚至不乏60 歲的退休人員,集合了一群社會力量,志願貢獻下班後的閒暇時間,齊心協力打擊假訊息。

未來,Cofacts 計畫成立協會或非營利組織,進一步擴大影響力,而若水也透過數據處理的專業,共同串起了用 AI 解決社會問題的正向廻圈。

【落地經驗談】趨勢科技:用AI釋放大數據潛能,節省80%成本

【一周AI大事】Amazon 砸 12 億買無人車公司/AI 人像應用把歐巴馬變白人?/用 AI 建立川普語言模型?