文／ 若水 Flow AI Blog 編輯團隊

【前言】

AI 落地專案中，最傷腦筋的往往是如何配置資源，以發揮最大效率。如果你也正置身其中，「Cofacts（真的假的）」事實查核平台的經驗，值得參考。

Cofacts 切中現代人使用科技的痛點，曾榮獲 g0v 公民科技創新獎助金，不只政委唐鳳 PO 文說讚，更吸引趨勢科技防詐達人、美玉姨使用其開放資料庫／程式碼，連泰國團隊都來向他們取經。

Cofacts 的煩惱，相信你也曾碰過：在企業、組織快速長大同時，又要發展 AI 專案，有限的人力、時間和經費該怎麼配置？

台灣 40 歲以上民眾的 LINE 使用率超過九成，LINE 的高普及率再加上群組的封閉性，讓假消息難以被觀測和查證。這樣的時代背景下，2017年，「Cofacts 真的假的」因應而生。

Cofacts 效仿維基百科 (Wikipedia) 的精神，透過公民參與、非營利的方式，開放民眾無條件成為假訊息的闢謠者。遇到可疑訊息，民眾可將訊息轉傳至 Cofacts 的網站或 LINE 聊天機器人，集合眾人之力闢謠。

「大自然真的令人難以置信，這朵花叫做玉蘭利利弗洛爾！🤗👍🏽」

「台東改良：長在樹上的草莓，鮮紅又茂盛！」

針對上述似是而非的圖文訊息，公民編輯們找出佐證資料，向用戶澄清：「那只是未完全盛開的玉蘭花」、「那不是改良，而是把草莓插在帶刺的棗樹上。」

Cofacts 切中現代人使用科技的痛點

短時間內用戶快速成長，在 LINE 使用者便已突破 20 萬人，不過隨之而來的壓力，就是資料庫裡有超過 4 萬筆待查證的訊息資料。

數據處理的策略: 專注所長、借力使力

2020 年初，他們決定自建 AI 模型，初步辨識待查訊息，節省人工查證時間。

想建 model，就要有數據

志工之一、負責資料科學 (Data Science) 的工程師 ggm 回憶，當時，他們曾討論過要內部成員自己開發標註工具完成，或比照 UGC（User Generated Content）眾包標註，最後轉念一想，「既然組織都講專業分工，數據標註 (Data Annotation) 也該找專業的來做。」

這個決定，讓 Cofacts 組織裡的人力能投入在最專長，而且能長期累積的項目，包括：加強對編輯的審核訓練、優化聊天機器人的互動體驗。

在同是 IT 專業的好友推薦下，ggm 找上若水 AI 數據處理服務團隊。他印象深刻，若水的 PM 專案管理團隊說明了許多 AI 數據處理和數據標註上的建議流程，「給了我滿多決策上的判斷依據。」

「因為有若水在前端的數據處理，讓我們有一個不錯的訓練成果，再過一陣子就會公開了，」ggm語氣期待地表示。

在台灣，幾個打擊假訊息的平台都正在用AI解題，追求更佳回應效率。也許你會好奇，當AI 命題相似，演算法的策略也會相同嗎？

若水做為全台最大的 AI 數據處理服務團隊，超過100個數據專案的經驗值告訴我們：答案並不必然。

比方，「Cofacts」和「趨勢防詐達人」這兩個數據處理專案。雖然都是以假訊息的文字標籤分類作為發展 AI 命題，但演算法的使用卻各有千秋。

數據處理的策略 2 : 根據 AI 數據型態，養出適用的演算法

趨勢科技防詐達人的 APP 系統設計，需要精準、明確的幫民眾判斷轉傳來的連結或訊息「是／不是詐騙訊息」。詐騙訊息或釣魚網站裡面出現的關鍵字，大部分有一定的規律可循，所以採用「語意辨識」的演算法來訓練 AI。（延伸閱讀：疫情期間，出現哪些詐騙亂象？看防詐達人如何打破謠言）

而 Cofacts 命題的相異點在於：為了維持平台的開放性，Cofacts不會刪除或整併編輯們回覆的留言，以確保每一種聲音都可以被聽見。

於是，Cofacts不只使用需要標註數據的監督式學習，同時也輔以 Google 的非監督式演算法 BERT（Bidirectional Encoder Representations from Transformers），以機率模型的方式，計算該篇文章是屬於哪些分類標籤的。

Cofacts 後台數據資料庫的議題很多元，橫跨農業、保健資訊、助人行善、能源發展、人權、LGBT、…等領域，一共可以分成 13 種分類標籤，並隨著時間持續增加。

藉由數據外包策略，這些若水處理、分類過的數據，對於 Cofacts 的演算法來說，發揮兩大作用，第一：幫助詐騙種類的分類標籤更精準、更清晰，進而幫助模型學習成效。

例如，仔細分類過上萬筆的訊息中，會發現有一些訊息難以被分類到現有的類別中，像是小狗走失協尋、購買農產救助清貧者之類「好心幫忙轉傳」的訊息。此時，Cofacts 便可以根據數據處理的結果，於後台新增分類標籤，讓分類更精準。

第二：有了這些數據基礎，可以幫助 Cofacts 找到更適合的專業人員來擔任編輯。假訊息橫跨各大領域，負責審查這些訊息的編輯群，勢必也得來自各行各業、各種年齡層，例如醫生、能源專家、農業專家…等。有了精準的參考數據，才能夠更了解將來招募編輯時，應該吸引哪一類專業的人士進場。

回想當時發起人 Johnson 創立 Cofacts 的初衷，就是希望能手動做些什麼，改變現況，「這大概就是所謂的工程師性格吧！」ggm 說。

目前 Cofacts 的編輯人數已經突破 3,000 人，其中不只有 20~30 歲的年輕族群，甚至不乏60 歲的退休人員，集合了一群社會力量，志願貢獻下班後的閒暇時間，齊心協力打擊假訊息。

未來，Cofacts 計畫成立協會或非營利組織，進一步擴大影響力，而若水也透過數據處理的專業，共同串起了用 AI 解決社會問題的正向廻圈。

資源不夠，怎麼導入AI？Cofacts 與若水用數據處理策略，打造最強謠言查證 Line 機器人

數據處理的策略: 專注所長、借力使力

數據處理的策略 2 : 根據 AI 數據型態，養出適用的演算法

【落地經驗談】趨勢科技：用AI釋放大數據潛能，節省80%成本

【一周AI大事】Amazon 砸 12 億買無人車公司／AI 人像應用把歐巴馬變白人？／用 AI 建立川普語言模型？