AI專案一直卡關,為什麼?

2020年,突如其來的新冠肺炎疫情 (Covid-19) 改變了許多產業的命運,同時加速推促AI落地的速度,AI人工智慧的應用將成為企業的新日常。

若水AI數據服務團隊本著為台灣AI應用落地盡份心力的初衷,順著這波改變,推出全新系列內容:與機器學習 (ML : Machine Learning)、AIOps智能運維 (Artificial Intelligence for IT Operations) 有關的實用文,分享各界專家在每一天如何持續營運、優化AI架構以及數據處理的基本功。

【若水導讀】AI專案順利通關的三個絕招:
1. AI數據來源要多元,避免學習偏誤
2.標註前,請先建立客觀的AI數據標註 (Data Annotation) 原則
3. 讓AI人工智慧成為組織的共同語言,會更容易成功

根據《台灣人工智慧學校 AI Academy Taiwan》2019年針對台灣各大產業1,095位業界校友的調查統計,成功導入AI人工智慧的台灣企業僅占20%。放眼國際,許多全球知名企業的AI專案也慘遭滑鐵盧:

Google在泰國落地測試智慧醫療失敗,拖慢醫療流程;美國杜克大學發布的PULSE演算法誤將歐巴馬的頭像還原為白人,引發種族歧視爭議。

在日本,軟銀(Softbank)社長孫正義原本打算以AI機器人取代銷售人員,沒想到AI機器人無法應付實際場域的複雜性,計畫負責人只好承認失敗:「我們把機器學習 (Machine Learning) 想得太簡單了」。

AI專案難落地,問題究竟出在哪裡?

若水經手過台灣、日本超過200個的AI數據處理專案,從橫跨各大產業領域的專案經驗,整理出企業AI之所以無法順利落地的四大原因。

(圖片來源:若水國際)

一、 AI 模型訓練過程中沒有加入實際場域的數據

無論是剛導入AI而產生數據處理需求的新手企業,還是已有AI專案經驗、為了retrain模型再度找上若水的老手企業,都曾經在同一個地方卡關:AI數據標註品質有做到位,但AI模型卻無法應用落地。

為什麼?

原因在於,客戶並未以「實際場景」的數據來進行AI模型訓練。

現在市面上有許多開放資料集 (Open Dataset) 或是免費的商用網路圖片,企業通常會優先使用這些免費資源進行AI數據標註 (Data Annotation) 讓機器學習,但是放到實際場域測試後,經常發現AI模型成效不佳,無法適用於實際場景,最終還是需要回過頭再進行第二次模型訓練(Model Training)。

因此在AI專案開始前,建議企業首先需要在內部建立數據資料流(Data Pipeline),而在收集數據時,不只使用開放資料集 (Open Dataset),也須確保有使用符合實際應用場景的數據來訓練AI模型,全盤考量數據類型、角度等多元性,避免機器學習偏誤。

(延伸閱讀:如何以終為始,做出精準數據標註?

二、 AI數據標註原則定義不夠客觀

與企業工程師對接AI數據處理需求時,當我們詢問這批人臉辨識 (Face Recognition) 的AI數據標註的原則是什麼,常常會接到諸如此類的回答:「頭太小的話,就不要標註數據」。

(圖片來源:若水國際)

一般人的邏輯覺得很合理的事情,對於機器學習 (Machine Learning) 來說卻是一大挑戰。機器學習需要知道的是趨近「絕對客觀」的原則,例如,所謂的頭太大、太小,換算成具體數值會是幾乘幾大小的pixel?如果圖片背景融色或模糊,也需要標註起來嗎?

一旦AI數據標註原則不夠客觀,AI模型很容易隨著人的「主觀認定」來學習,當專案換了一位工程師,機器學習出來的效果可能也會跟著變。在我們的經驗,原則的訂定最好透過「對話」,藉由反覆詰問,才能加快釐清目標。有了歸納、定義出客觀的AI數據標註原則。就會加快模型學習 (Model Learning) 成效。

為了清楚定義圖片融色或模糊的問題,我們採用國際照明委員會 (International Commission on Illumination)訂定的Delta E標準,和影像(圖像)品質評估標準BRISQUE,和客戶確認彼此認知是否一致。

根據國際標準,人的肉眼能分辨得出來的色差,至少會在Delta E值2以上。所以,當一張影像測出來Delta E值小於2,就表示這張圖的融色程度太高,無法標註。

假如客戶希望「太模糊的圖片不要標註」,團隊也會根據BRISQUE( 影像品質評估標準 )的標準,輸出不同模糊指數的圖片,請客戶確認所謂的模糊,具體來說是70%還是80%。

三、 AI模型訓練 (Model Training) 沒有循序漸進

以肢體行為辨識 (Posture Estimation) 為例,Coco Dataset 從一開始只辨識人體7大主要關鍵點(Key Point),後來逐步發展成25點,甚至快40點,有些客戶會希望若水AI團隊可以一次就標註40個關鍵點,直接拿去機器學習 (Machine Learning)。

說起來,機器學習和教小孩很像,一下子給太多的特徵點 (Feature Points) 反而會「揠苗助長」,導致AI模型學到最後分不清楚自己到底在學習什麼。我們也遇過有些客戶,一開始想用難度較高的Segmentation方式讓模型學習人的行為,但是人的行為百百種、語意切割 (Segmentation)的變異度也高,就比較難學得好。

當這些客戶再回頭來找若水,通常會比較循序漸進,從小地方開始逐步改進AI模型。

四、 缺乏管理層的理解與支持

AI熱潮讓許多企業趨之若鶩,然而AI要能夠順利落地,除了上述三項實務建議,企業管理層對於AI的認知和支持更是一大關鍵。

許多台灣企業的AI數位轉型主導者,可能是傳統公司裡面有豐富資歷的CTO技術長或管理階層,對於AI人工智慧這個全新領域的概念,比較缺乏深度的理解,也沒有類似AI模型訓練和測試的相關經驗,從上述4個原因去追尋難以落地的根源,或許能有所助益。

延伸閱讀

歡迎分享給你的朋友,或進一步閱讀系列文章。

Back to Top
Close