如何處理複雜的數據標註或判斷?

【若水導讀】面對複雜的AI數據處理,你需要:
1. 先釐清AI數據處理的定義原則
2. 人機協作,讓品質和效率兼具
3. 把人放在對的地方,找到對的工作流程

隨著AI應用發展階段的成熟度,各家對於精準數據的要求越來越高,圖資檔案也越來越複雜。

AI產業和應用類型百百種,各有各的「眉角」,很仰賴AI數據標註師的專業know-how判斷。然而,當面對大量的數據,每位AI數據標註師的思維認知都不同,同樣是判斷目標對象的年齡、性別,每個人給出的答案可能不盡相同。再者,一旦作業時間拉長,即使再專業的標註師,也有誤判的機率。

為了解決這些問題,若水的解方是:從四大面向著手,透過工作流程優化和「人機協作」,幫AI專案助攻,做出精準的AI數據。

(圖片來源:Unsplash​)

1. 精準標註:培養AI數據標註師的專業能力

精準AI數據處理和AI數據標註師的專業能力有很大關聯。若水團隊針對AI數據標註師進行面試,提供數據標註工具 (Data Annotation Tool) 和domain know-how的職前訓練,確保只有通過面試考核的標註師,可以進入專案。

專案執行期間,團隊會同步紀錄每位AI數據標註師的產能產量,以及擅長/不擅長的AI專案類型,透過數據分析,把對的人放在對的地方上,達到「Right people in the right loop」。另外,透過再回訓機制,時時確保AI數據標註師的專業技能。

2. 精準定義:釐清客戶對精準度的定義和標註原則

AI模型落地很重要的第一步,是釐清客戶對精準度的定義以及標註原則。什麼樣的良率和呈現結果,才是真正符合AI客戶的商業目標?專案對接時,若水PM會和客戶一起討論,將工程師的語言,轉換為上百位數據標註師可以瞬間用直覺理解的原則,剔除互相矛盾的原則,幫助AI模型學習成效。

3. 精準品管:智慧標註工具 (Smart Tool) 人機協作、多元的QC流程

在AI時代,我們相信科技不是用來取代人類,而是幫助人類減輕勞力負擔,把人放在最有價值的地方,也就是「數據判斷」。

若水自行開發智慧標註工具 (Smart Tool),以人機合作的方式發揮人類智慧 (Human Intelligence),讓AI數據標註師可以省去重複動作,專心做數據的專業判斷,提升專案效率。

同時,透過產能產量的即時監測和多層QC機制,團隊可以掌握專案進程,並針對不同專案需求的QC良率檢核方式,確保精準數據產出。

4. 精準應變:多變時代,需要工作流程再設計

面對越來越多變且繁複的AI數據處理需求,我們透過流程再設計,發展出幾種靈活的應變方法:「階段性標註」、「分流標註」和「投票標註」。

例如智慧零售領域,有時需要針對一個人物,拉框 (Bounding Box)和下十幾個標籤(Tagging),要記住五花八門的分類並下標籤,這對標註師來說其實並不容易。這時團隊就會啟動「階段性標註」機制,將拉框和下標籤分成兩階段作業,提升精準度。

(圖片來源:若水國際)

一般智慧交通相關的專案,畫面裡面要標註的物件通常會非常多,而且可能需要同時用到多種標註工具。這時,我們會啟動「分流標註」,將標註師團隊分為數個小組,每組各自負責一種標註工具,最後再透過RD工程師的技術能力,將標註成果整合後交付。

(圖片來源:若水國際)

如果是上述這類標註複雜的專案,其實還算好解決。一旦遇到仰賴個人判斷的專案,就真的很讓人頭痛。畢竟每個人的經驗和思維模式不同,如何準確判斷出人物的年齡範圍、性別和臉部特徵?

這種時候,團隊會使用「投票系統」,讓多位AI數據標註師組成一個協作小組,用多數決和互相討論的方式,來決定如何判讀,讓人的認知偏誤降到最低。

(圖片來源:若水國際)

面對快速變動的AI產業,數據處理流程和專業也需要與時俱進,才能夠同步成長。下一篇攻略,我想舉內部幾個有趣的實用案例和大家聊聊,所謂「精準」數據,是如何產生的?期待下回見。

(延伸閱讀:如何以終為始,做出精準數據標註?

相關延伸閱讀

歡迎分享給你的朋友,或進一步閱讀系列文章。

Back to Top
Close