無論是剛導入AI而產生數據處理需求的新手企業,還是已有AI專案經驗、為了retrain模型再度找上若水的老手企業,都曾經在同一個地方卡關:AI數據標註品質有做到位,但AI模型卻無法應用落地。
為什麼?
原因在於,客戶並未以「實際場景」的數據來進行AI模型訓練。
現在市面上有許多開放資料集 (Open Dataset) 或是免費的商用網路圖片,企業通常會優先使用這些免費資源進行AI數據標註 (Data Annotation) 讓機器學習,但是放到實際場域測試後,經常發現AI模型成效不佳,無法適用於實際場景,最終還是需要回過頭再進行第二次模型訓練(Model Training)。
因此在AI專案開始前,建議企業首先需要在內部建立數據資料流(Data Pipeline),而在收集數據時,不只使用開放資料集 (Open Dataset),也須確保有使用符合實際應用場景的數據來訓練AI模型,全盤考量數據類型、角度等多元性,避免機器學習偏誤。
(延伸閱讀:如何以終為始,做出精準數據標註?)