企業的AI專案卡關，通常是這四個原因！

2020年，突如其來的新冠肺炎疫情 (Covid-19) 改變了許多產業的命運，同時加速推促AI落地的速度，AI人工智慧的應用將成為企業的新日常。

若水AI數據服務團隊本著為台灣AI應用落地盡份心力的初衷，順著這波改變，推出全新系列內容：與機器學習 (ML : Machine Learning)、AIOps智能運維 (Artificial Intelligence for IT Operations) 有關的實用文，分享各界專家在每一天如何持續營運、優化AI架構以及數據處理的基本功。

【若水導讀】AI專案順利通關的三個絕招：
1. AI數據來源要多元，避免學習偏誤
2.標註前，請先建立客觀的AI數據標註 (Data Annotation) 原則
3. 讓AI人工智慧成為組織的共同語言，會更容易成功

根據《台灣人工智慧學校 AI Academy Taiwan》2019年針對台灣各大產業1,095位業界校友的調查統計，成功導入AI人工智慧的台灣企業僅占20%。放眼國際，許多全球知名企業的AI專案也慘遭滑鐵盧：

Google在泰國落地測試智慧醫療失敗，拖慢醫療流程；美國杜克大學發布的PULSE演算法誤將歐巴馬的頭像還原為白人，引發種族歧視爭議。

在日本，軟銀(Softbank)社長孫正義原本打算以AI機器人取代銷售人員，沒想到AI機器人無法應付實際場域的複雜性，計畫負責人只好承認失敗：「我們把機器學習 (Machine Learning) 想得太簡單了」。

AI專案難落地，問題究竟出在哪裡？

若水經手過台灣、日本超過200個的AI數據處理專案，從橫跨各大產業領域的專案經驗，整理出企業AI之所以無法順利落地的四大原因。

（圖片來源：若水國際）

一、　AI 模型訓練過程中沒有加入實際場域的數據

無論是剛導入AI而產生數據處理需求的新手企業，還是已有AI專案經驗、為了retrain模型再度找上若水的老手企業，都曾經在同一個地方卡關：AI數據標註品質有做到位，但AI模型卻無法應用落地。

為什麼？

原因在於，客戶並未以「實際場景」的數據來進行AI模型訓練。

現在市面上有許多開放資料集 (Open Dataset) 或是免費的商用網路圖片，企業通常會優先使用這些免費資源進行AI數據標註 (Data Annotation) 讓機器學習，但是放到實際場域測試後，經常發現AI模型成效不佳，無法適用於實際場景，最終還是需要回過頭再進行第二次模型訓練(Model Training)。

因此在AI專案開始前，建議企業首先需要在內部建立數據資料流(Data Pipeline)，而在收集數據時，不只使用開放資料集 (Open Dataset)，也須確保有使用符合實際應用場景的數據來訓練AI模型，全盤考量數據類型、角度等多元性，避免機器學習偏誤。

（延伸閱讀：如何以終為始，做出精準數據標註？）

二、　AI數據標註原則定義不夠客觀

與企業工程師對接AI數據處理需求時，當我們詢問這批人臉辨識 (Face Recognition) 的AI數據標註的原則是什麼，常常會接到諸如此類的回答：「頭太小的話，就不要標註數據」。

（圖片來源：若水國際）

一般人的邏輯覺得很合理的事情，對於機器學習 (Machine Learning) 來說卻是一大挑戰。機器學習需要知道的是趨近「絕對客觀」的原則，例如，所謂的頭太大、太小，換算成具體數值會是幾乘幾大小的pixel？如果圖片背景融色或模糊，也需要標註起來嗎？

一旦AI數據標註原則不夠客觀，AI模型很容易隨著人的「主觀認定」來學習，當專案換了一位工程師，機器學習出來的效果可能也會跟著變。在我們的經驗，原則的訂定最好透過「對話」，藉由反覆詰問，才能加快釐清目標。有了歸納、定義出客觀的AI數據標註原則。就會加快模型學習 (Model Learning) 成效。

為了清楚定義圖片融色或模糊的問題，我們採用國際照明委員會 (International Commission on Illumination)訂定的Delta E標準，和影像(圖像)品質評估標準BRISQUE，和客戶確認彼此認知是否一致。

根據國際標準，人的肉眼能分辨得出來的色差，至少會在Delta E值2以上。所以，當一張影像測出來Delta E值小於2，就表示這張圖的融色程度太高，無法標註。

假如客戶希望「太模糊的圖片不要標註」，團隊也會根據BRISQUE( 影像品質評估標準 )的標準，輸出不同模糊指數的圖片，請客戶確認所謂的模糊，具體來說是70%還是80%。

三、　AI模型訓練 (Model Training) 沒有循序漸進

以肢體行為辨識 (Posture Estimation) 為例，Coco Dataset 從一開始只辨識人體7大主要關鍵點(Key Point)，後來逐步發展成25點，甚至快40點，有些客戶會希望若水AI團隊可以一次就標註40個關鍵點，直接拿去機器學習 (Machine Learning)。

說起來，機器學習和教小孩很像，一下子給太多的特徵點 (Feature Points) 反而會「揠苗助長」，導致AI模型學到最後分不清楚自己到底在學習什麼。我們也遇過有些客戶，一開始想用難度較高的Segmentation方式讓模型學習人的行為，但是人的行為百百種、語意切割 (Segmentation)的變異度也高，就比較難學得好。

當這些客戶再回頭來找若水，通常會比較循序漸進，從小地方開始逐步改進AI模型。

四、　缺乏管理層的理解與支持

AI熱潮讓許多企業趨之若鶩，然而AI要能夠順利落地，除了上述三項實務建議，企業管理層對於AI的認知和支持更是一大關鍵。

許多台灣企業的AI數位轉型主導者，可能是傳統公司裡面有豐富資歷的CTO技術長或管理階層，對於AI人工智慧這個全新領域的概念，比較缺乏深度的理解，也沒有類似AI模型訓練和測試的相關經驗，從上述4個原因去追尋難以落地的根源，或許能有所助益。

延伸閱讀

同系列推薦1：訓練AI模型，需要多少數據？

同系列推薦2：建立數據文化，提升AI成功機率