AI專案千百種，怎麼標註數據最有效？試試這四招！

【若水導讀】面對複雜的AI數據處理，你需要：
1. 先釐清AI數據處理的定義原則
2. 人機協作，讓品質和效率兼具
3. 把人放在對的地方，找到對的工作流程

隨著AI應用發展階段的成熟度，各家對於精準數據的要求越來越高，圖資檔案也越來越複雜。

AI產業和應用類型百百種，各有各的「眉角」，很仰賴AI數據標註師的專業know-how判斷。然而，當面對大量的數據，每位AI數據標註師的思維認知都不同，同樣是判斷目標對象的年齡、性別，每個人給出的答案可能不盡相同。再者，一旦作業時間拉長，即使再專業的標註師，也有誤判的機率。

為了解決這些問題，若水的解方是：從四大面向著手，透過工作流程優化和「人機協作」，幫AI專案助攻，做出精準的AI數據。

（圖片來源：Unsplash）

1. 精準標註：培養AI數據標註師的專業能力

精準AI數據處理和AI數據標註師的專業能力有很大關聯。若水團隊針對AI數據標註師進行面試，提供數據標註工具 (Data Annotation Tool) 和domain know-how的職前訓練，確保只有通過面試考核的標註師，可以進入專案。

專案執行期間，團隊會同步紀錄每位AI數據標註師的產能產量，以及擅長／不擅長的AI專案類型，透過數據分析，把對的人放在對的地方上，達到「Right people in the right loop」。另外，透過再回訓機制，時時確保AI數據標註師的專業技能。

AI模型落地很重要的第一步，是釐清客戶對精準度的定義以及標註原則。什麼樣的良率和呈現結果，才是真正符合AI客戶的商業目標？專案對接時，若水PM會和客戶一起討論，將工程師的語言，轉換為上百位數據標註師可以瞬間用直覺理解的原則，剔除互相矛盾的原則，幫助AI模型學習成效。

在AI時代，我們相信科技不是用來取代人類，而是幫助人類減輕勞力負擔，把人放在最有價值的地方，也就是「數據判斷」。

若水自行開發智慧標註工具 (Smart Tool)，以人機合作的方式發揮人類智慧 (Human Intelligence)，讓AI數據標註師可以省去重複動作，專心做數據的專業判斷，提升專案效率。

同時，透過產能產量的即時監測和多層QC機制，團隊可以掌握專案進程，並針對不同專案需求的QC良率檢核方式，確保精準數據產出。

面對越來越多變且繁複的AI數據處理需求，我們透過流程再設計，發展出幾種靈活的應變方法：「階段性標註」、「分流標註」和「投票標註」。

例如智慧零售領域，有時需要針對一個人物，拉框 (Bounding Box)和下十幾個標籤(Tagging)，要記住五花八門的分類並下標籤，這對標註師來說其實並不容易。這時團隊就會啟動「階段性標註」機制，將拉框和下標籤分成兩階段作業，提升精準度。

（圖片來源：若水國際）

一般智慧交通相關的專案，畫面裡面要標註的物件通常會非常多，而且可能需要同時用到多種標註工具。這時，我們會啟動「分流標註」，將標註師團隊分為數個小組，每組各自負責一種標註工具，最後再透過RD工程師的技術能力，將標註成果整合後交付。

（圖片來源：若水國際）

如果是上述這類標註複雜的專案，其實還算好解決。一旦遇到仰賴個人判斷的專案，就真的很讓人頭痛。畢竟每個人的經驗和思維模式不同，如何準確判斷出人物的年齡範圍、性別和臉部特徵？

這種時候，團隊會使用「投票系統」，讓多位AI數據標註師組成一個協作小組，用多數決和互相討論的方式，來決定如何判讀，讓人的認知偏誤降到最低。

（圖片來源：若水國際）

面對快速變動的AI產業，數據處理流程和專業也需要與時俱進，才能夠同步成長。下一篇攻略，我想舉內部幾個有趣的實用案例和大家聊聊，所謂「精準」數據，是如何產生的？期待下回見。