如何以終為始,做出精準數據標註?

【若水導讀】 精準AI數據三點訣:
1. 準備符合實際應用場域的數據
2. 明確定義何謂精準數據
3. 策略性配置人才與時間資源

AI專案落地變現,首要面對的挑戰就是AI數據處理 (Data Processing) 和數據標註 (Data Annotation)。但企業可能會想:「AI數據處理能有多難?」,不就是把幾個特徵標出來嗎?

其實拉框、下標籤等動作本身難度不高,但是如何高效產出「精準」的AI數據標註,避免AI模型在第一關就學歪,很需要各個領域專業know-how的累積。

若水經手台灣、日本超過上百個不同產業的AI數據處理專案,擁有從AI的數據收集 (Data Collection)、數據清理 (Data Cleaning)、數據標註 (Data Annotation) 到數據分析 (Data Analysis) 的跨產業執行經驗,我們從客戶反饋回來的AI專案成敗,學習到一件事:「數據精準度,會直接影響AI模型成效」。

(圖片來源:若水國際)

影響AI模型學習的兩大因素:數據良率、數據場域

數據夠精準,AI模型比較容易得到精準的結果。根據我們與台灣各大產業客戶的合作經驗,無論哪種AI人工智慧應用,客戶要求的專案良率通常至少會在90%以上。

其中,工業4.0產業對AI數據精準度的要求特別高,還會要求QC和QA良率到95%,甚至接近Ground Truth程度(良率100%)。

擁有精準的AI數據,已成為各家發展人工智慧的先決條件

另一個可能影響AI模型成效,卻容易被忽略的因素,是AI數據的場域。許多企業起步時,以為用免費的預訓練模型 (Pre-Trained Model) 或開放資料 / 公開數據 (Open Source Data) 即可,卻忽略了每個AI模型想發展的應用落地方式都很獨特,很需要用真正適合的「實際場域」數據來訓練。

例如要在亞洲做人臉辨識AI人工智慧,就不能只用公開素材常見的西方人臉孔,還需要自行補足不同年齡、性別的亞洲臉孔,避免機器學習 (Machine Learning) 偏誤。如果完全用開放資料 / 公開數據 (Open Source Data) ,到最後可能還要花更多內部的人力,以及更多事後收集的AI數據,把結果調整成自己希望的方式。

(圖片來源:若水國際)

如何定義和準備「精準數據」?

提到AI數據的精準度,企業的直覺反應可能是「精準度=把看得到的物體全部標註起來」。但以實際情況來說,數據精準度,應該視「你想發展什麼樣的AI模型應用」而定。

數據怎麼標註,AI模型就會怎麼學,應用就會怎麼呈現

所以,當客戶請我們做AI數據處理時,若水的第一步就是用以終為始的思維,和客戶釐清AI模型想要學會辨認什麼樣的東西、達到什麼樣的的程度,來確保雙方對精準數據的定義一致。

確認完精準數據的定義,還需要確保所有AI數據標註師,產出的AI數據品質一致。PM專案經理會以自身專業和客戶一起討論,歸納出一套客觀的AI數據標註原則,讓原本由一位企業工程師主觀判斷的標準,變成可以一體適用於上百位AI標註標註師的客觀標準,如此前置作業才算大功告成。

數據餵進AI模型之前,企業常在這些地方卡關

在「訓練AI模型,需要多少數據?」篇,前趨勢科技 (Trend Micro) 資深技術經理張佳彥,提到一個很重要的概念:不要為了AI而AI。

如果你的產品或業務不一定需要用到機器學習 (Machine Learning),那就別用,除非你有數據。

當問題無法用既有或傳統的方法來解決,再來考慮用機器學習,開發AI模型應用。也正因為如此,每家的AI模型都很獨特,在餵養數據時更需要「因材施教」,用真正適合自家應用的AI數據來訓練,才能真正讓人工智慧落地。

然而,要產出適合訓練的精準數據,是一條不輕鬆的必經之路。

POC階段,在AI專案時程的壓力之下,要找人來快速產出大量、一致性高的標註數據;而當模型逐漸走向Production階段,需要辨識的場景越來越複雜(例如自駕車應用,可能需要辨識各縣市的道路),對於AI數據標註品質的要求也會更精細,讓QC品管更加棘手。

多數AI模型要學習的物件和情境非常多元,若水處理過最難標註數據的案型之一,就屬人的行為標註。因為人的動作千奇百怪(有些動作甚至看不出是人),當很多人一起標註數據的時候,要客觀且一致很難。一旦品質管理的難度增高,AI專案的管理成本也會隨之上升。這種情況下,若水如何有效的配置人力資源,確保AI數據的標註品質?

精準數據,來自精準的資源配置

若水旗下近兩百位AI數據標註師來自台灣各縣市鄉鎮,專案執行期間,全程透過視訊遠距工作的方式來管理協作。管理這支龐大的遠距標註軍團,維持數據精準度和產能的秘訣之一,在於「Right people in the right loop」機制。

若水的AI數據標註師在面試通過之後,需要經過一關關嚴格的訓練,包括熟悉所有類型的標註工具,還有實際專案的模擬訓練和測驗考核等,以確保該每位若水的AI數據標註師真的能夠做到數據品質。

AI專案的執行期間,若水會即時觀測專案表現,持續建立每位AI數據標註師的Database,記錄每位AI數據標註師過去在哪些類型的專案表現得比較好,在品質和速度的表現如何。如此一來,一旦接到新的專案,專案管理人員 (PM) 便可以快速調動軍力,把人放在最適合他的位置上,讓AI數據標註師和企業可以雙贏。

下一篇攻略,想和大家分享若水綜觀各大產業之後的觀察:從數據處理,看見台灣AI產業發展趨勢期待下回見。

歡迎分享給你的朋友,或進一步閱讀系列文章。

Back to Top
Close