3分鐘精華地圖：從數據的角度，看成功AI專案不可缺少的關鍵策略思維

文／簡季婕若水AI數據處理事業部負責人

企業發展AI專案，為什麼有些成功，有些失敗？背後的原因不只和模型或演算法有關，還有一項貫串AI專案全生命週期，卻經常被忽略的關鍵要素：「數據策略」。

此次，應台灣人工智慧學校邀請，在中部智慧製造專班分享若水經手近300個跨領域、跨國的AI數據標註專案經驗。我們濃縮這些數據相關精華，整理成5個小主題，希望用3分鐘時間，助你的AI專案順利通關。

一、AI專案為何無法落地？預先避開4種常見的坑洞

現在大家都已經能琅琅上口，AI訓練有三大要素：演算法、特徵和數據。其中，數據橫跨了AI開發的生命週期，沒有好的數據，模型再厲害也很難學得好。

若水扮演著「處理數據燃料」的角色，即時提供精準的標註數據給客戶，支持工程師的模型訓練。在與跨產業客戶合作的過程中，我們發現AI專案會繞遠路，或者到最後不了了之的企業，通常有這四個共通點：

AI模型訓練沒有分階段循序漸進
不同產業和不同訓練階段，需要的數據種類和標註方式都不同，訓練初期可以先從小地方開始（別擔心！少量數據也能做好機器學習），再循序漸進的優化AI模型，不要貪心強求AI一口氣學會所有特徵。
AI模型訓練缺乏實際場域的數據
訓練前期如果只用開放資料集(Open Dataset)，到了後期可能會因為缺乏實際場域的數據，需要反覆Retrain模型。因此在初期，就要針對數據做跨階段、全盤性的考量。
AI數據的標註原則定義不夠客觀
AI需要「絕對客觀」的原則或數值化的原則。當人制定的標註原則不夠客觀，AI模型很容易隨著人的主觀認定來學習，影響訓練成效。
缺乏管理層的理解與支持
企業導入AI時，管理層如果對於AI的概念比較缺乏深度的理解，沒有類似AI模型訓練和測試的相關經驗（這才是重點：建立數據文化，提升AI成功機率），較導致AI專案開展不易。

二、準備好出發做AI了嗎？你需要這4種指南針

AI訓練不要急著先寫演算法，而是需要「以終為始」的策略思維，先好好釐清想解決的問題是什麼，有沒有足夠的數據可以支持這個訓練過程。

在開始之前，可以先問自己幾個問題：

我想要解決的是什麼問題？
這個問題，一定要靠AI才能解決嗎？
AI訓練會分成哪幾個階段／循環？
各階段需要收集哪些類型的數據，來幫助我達成訓練的目的？

想完之後你可能會發現，其實問題可以用rule based的方式解決，不一定要特地使用AI。

如果真的確定要用AI，你需要預先設想，這個AI專案有哪些模型訓練階段，並且建立起橫跨專案各階段的「數據流(data pipeline)」，以收集各階段需要的標註數據，才能夠事半功倍。

為什麼用「以終為始」的方式，建立數據流(datapipeline)這麼重要？

建立數據流，不只是確保每個AI訓練階段，都能及時取得精準的數據，推動模型訓練進度，同時也是在避免過了前期POC階段之後，模型到了實際應用，才發現數據上有許多問題要回過頭Retrain模型。

例如，自駕車的AI應用在訓練時，如果初期餵給模型的幾乎都是晴天的駕駛畫面，等到實際上路遇到雨天時，AI可能就無從判斷（那麼，如何了解情境需求，掌握對的數據？）。或者，奧運賽事上也曾經發生AI把裁判人頭認成球的情況（過來人說：即使不是數據科學家也無妨，掌握 domain更重要！）這也可能是來自於沒有給予AI符合現場應用情境的數據。

總結來說：先想清楚你的命題和數據，再來思考演算法。

三、策略性瞄準目的地，建立數據流(data pipeline)

AI訓練是一個不斷重複的迴圈，這個過程中，需要思考的數據面向其實很多。數據該怎麼被整理，標註及下標籤，才是最有利於後續AI快速學習的方法？後續追加新數據的頻率，還有每批訓練數據之間的差異是什麼？

簡單來說，數據處理可以分為三個階段：

視其本質：建立數據流，收集各種數據
辨其情境：將數據分門別類，篩選出真正需要的好數據
成事在人：透過人來進行數據標註

收集數據的時候，並不是量愈多愈好，而是「符合訓練目的的數據，才是好數據」。

實際收集時，可以用兩個維度來看：數據的全面性，以及數據的複雜性。意思是，收集來的數據，是否涵蓋了所有需要訓練的目標物件？以及要收集的數據，複雜程度多少？例如一個人或一群人，單純或複雜的場景。

收集好數據以後，會進入到選擇數據分類以及標註的環節。此時，如何評估組織現有的資源，策略性地選擇數據處理的方式，將會影響到團隊的整體效率。

通常在數據量少的時候，會由內部工程師自行標註數據。但是當數據量大時，內部工程師可能無法兼顧核心模型開發，以及耗時又細緻的數據標註作業。如果有預算，交給專業的數據外包商，也是一種資源分配的策略，可以幫註企業省去上述所有麻煩。（不妨參考：找對數據服務團隊，成本省下20%！）

其實在海外也有一些數據標註商，但通常只會提供標註好的數據給客戶。而若水團隊知道數據與AI命題以及模型成效息息相關，所以可以根據自身跨產業的專案經驗，站在客戶的角度一起合作討論，什麼樣的標註原則最適合客戶，讓AI學習事半功倍。

四、做出精準數據標註，一路領先的3種加速器

數據的精準度之所以重要，是因為它會直接影響AI模型的訓練成效，創造與競爭業者之間的差異度。但數據標註，該如何做才能精準呢？

用對工具標註，才能事半功倍
工具的選用和欲解決的問題有關，例如人體偵測，如果只是要AI辨識人數而非人的肢體動作，其實用拉框(bounding box)就夠了，不需要特地使用看起來比較厲害的關鍵點(keypoint)標註。
拆解標註流程，提升效率與精準度
把標註流程線性產線化，將不同標註動作交給不同的人來做，提升效率；遇到容易主觀判斷的顏色、年紀、瑕疵檢測、模糊程度等圖資，可以採用科技工具做數值判定，或是由多數投票決來處理。
根據不同題目與訓練階段，彈性調整標註原則
以人體動作偵測應用來說，在初始階段要先讓AI學習人體結構的運動方式，所以務必正確標註出人體所有重要關節點，即使被遮擋的關節，也要透過透視法等方法，找出具體的位置並標註。

但是到了第二階段，為了讓已經學過一輪的AI自行找出關節點的位置，此時的數據就不用把被遮擋的關節點標出來，避免AI誤學。

五、模型訓練成效不佳，如何江湖救急？

模型訓練成效不佳，可能是三大要素：演算法、特徵和數據，其中的環節出了問題。如果是演算法或特徵選擇錯誤，可以看是不是Feature Collision的問題，也就是兩種截然不同的目標物件，卻取出相同的數據特徵。這部分我們有一系列專家文，可供大家深入參考。

而就數據方面而言，則是數據品質不佳、數據多樣性或複雜性不足、數據標註不到位，或者標註原則本身需要被優化等等。

例如，我們曾經遇到人流辨識AI的客戶，訓練完模型後，回來找我們幫忙看數據。因為AI一直會把畫面中圓圓的氣球，誤認為是人頭。

後來，我們一起討論，調整標註原則，縮小拉框範圍從全身四肢到只有主軀幹，避免框線裡面出現周遭環境的物品，順利的解決了這個問題。

AI模型訓練專案，就像是一場旅行。釐清目標，找對方法和途徑，適時選擇對的工具或數據策略夥伴為你助攻，能讓這場旅行更順利到達目的地。

💡 延伸閱讀：
1. 2021台灣人工智慧小聚@若水：如何用少量AI數據，做好機器學習？
2. 建立數據文化，提升AI成功機率
3. AI 快速落地的關鍵，誰是最值得託付數據標註的對象?