圖片來源:若水國際

3分鐘精華地圖:從數據的角度,看成功AI專案不可缺少的關鍵策略思維

文/ 簡季婕 若水AI數據處理事業部負責人

企業發展AI專案,為什麼有些成功,有些失敗?背後的原因不只和模型或演算法有關,還有一項貫串AI專案全生命週期,卻經常被忽略的關鍵要素:「數據策略」。

此次,應台灣人工智慧學校邀請,在中部智慧製造專班分享若水經手近300個跨領域、跨國的AI數據標註專案經驗。我們濃縮這些數據相關精華,整理成5個小主題,希望用3分鐘時間,助你的AI專案順利通關。

一、AI專案為何無法落地?預先避開4種常見的坑洞

現在大家都已經能琅琅上口,AI訓練有三大要素:演算法、特徵和數據。其中,數據橫跨了AI開發的生命週期,沒有好的數據,模型再厲害也很難學得好。

AI開發生命週期,數據貫串全程(圖片來源:若水國際)

若水扮演著「處理數據燃料」的角色,即時提供精準的標註數據給客戶,支持工程師的模型訓練。在與跨產業客戶合作的過程中,我們發現AI專案會繞遠路,或者到最後不了了之的企業,通常有這四個共通點:

  1. AI模型訓練 沒有分階段循序漸進
    不同產業和不同訓練階段,需要的數據種類和標註方式都不同,訓練初期可以先從小地方開始(別擔心!少量數據也能做好機器學習),再循序漸進的優化AI模型,不要貪心強求AI一口氣學會所有特徵。

  2. AI模型訓練 缺乏實際場域的數據
    訓練前期如果只用開放資料集(Open Dataset),到了後期可能會因為缺乏實際場域的數據,需要反覆Retrain模型。因此在初期,就要針對數據做跨階段、全盤性的考量。

  3. AI數據的標註原則 定義不夠客觀
    AI需要「絕對客觀」的原則或數值化的原則。當人制定的標註原則不夠客觀,AI模型很容易隨著人的主觀認定來學習,影響訓練成效。

  4. 缺乏管理層的理解與支持
    企業導入AI時,管理層如果對於AI的概念比較缺乏深度的理解,沒有類似AI模型訓練和測試的相關經驗(這才是重點:建立數據文化,提升AI成功機率),較導致AI專案開展不易。

二、準備好出發做AI了嗎?你需要這4種指南針

AI訓練不要急著先寫演算法,而是需要「以終為始」的策略思維,先好好釐清想解決的問題是什麼,有沒有足夠的數據可以支持這個訓練過程。

在開始之前,可以先問自己幾個問題:

  • 我想要解決的是什麼問題?
  • 這個問題,一定要靠AI才能解決嗎?
  • AI訓練會分成哪幾個階段/循環?
  • 各階段需要收集哪些類型的數據,來幫助我達成訓練的目的?

想完之後你可能會發現,其實問題可以用rule based的方式解決,不一定要特地使用AI。

如果真的確定要用AI,你需要預先設想,這個AI專案有哪些模型訓練階段,並且建立起橫跨專案各階段的「數據流(data pipeline)」,以收集各階段需要的標註數據,才能夠事半功倍。

為什麼用「以終為始」的方式,建立數據流(datapipeline)這麼重要?

建立數據流,不只是確保每個AI訓練階段,都能及時取得精準的數據,推動模型訓練進度,同時也是在避免過了前期POC階段之後,模型到了實際應用,才發現數據上有許多問題要回過頭Retrain模型。

例如,自駕車的AI應用在訓練時,如果初期餵給模型的幾乎都是晴天的駕駛畫面,等到實際上路遇到雨天時,AI可能就無從判斷(那麼,如何了解情境需求,掌握對的數據?)。或者,奧運賽事上也曾經發生AI把裁判人頭認成球的情況(過來人說:即使不是數據科學家也無妨,掌握 domain更重要!)這也可能是來自於沒有給予AI符合現場應用情境的數據。

總結來說:先想清楚你的命題和數據,再來思考演算法。

三、策略性瞄準目的地,建立數據流(data pipeline)

AI訓練是一個不斷重複的迴圈,這個過程中,需要思考的數據面向其實很多。數據該怎麼被整理,標註及下標籤,才是最有利於後續AI快速學習的方法?後續追加新數據的頻率,還有每批訓練數據之間的差異是什麼?

簡單來說,數據處理可以分為三個階段:

  • 視其本質:建立數據流,收集各種數據
  • 辨其情境:將數據分門別類,篩選出真正需要的好數據
  • 成事在人:透過人來進行數據標註
數據處理三階段策略(圖片來源:若水國際)

收集數據的時候,並不是量愈多愈好,而是「符合訓練目的的數據,才是好數據」。

實際收集時,可以用兩個維度來看:數據的全面性,以及數據的複雜性。意思是,收集來的數據,是否涵蓋了所有需要訓練的目標物件?以及要收集的數據,複雜程度多少?例如一個人或一群人,單純或複雜的場景。

收集好數據以後,會進入到選擇數據分類以及標註的環節。此時,如何評估組織現有的資源,策略性地選擇數據處理的方式,將會影響到團隊的整體效率。

通常在數據量少的時候,會由內部工程師自行標註數據。但是當數據量大時,內部工程師可能無法兼顧核心模型開發,以及耗時又細緻的數據標註作業。如果有預算,交給專業的數據外包商,也是一種資源分配的策略,可以幫註企業省去上述所有麻煩。(不妨參考:找對數據服務團隊,成本省下20%!

其實在海外也有一些數據標註商,但通常只會提供標註好的數據給客戶。而若水團隊知道數據與AI命題以及模型成效息息相關,所以可以根據自身跨產業的專案經驗,站在客戶的角度一起合作討論,什麼樣的標註原則最適合客戶,讓AI學習事半功倍。

四、做出精準數據標註,一路領先的3種加速器

數據的精準度之所以重要,是因為它會直接影響AI模型的訓練成效,創造與競爭業者之間的差異度。但數據標註,該如何做才能精準呢?

  1. 用對工具標註,才能事半功倍
    工具的選用和欲解決的問題有關,例如人體偵測,如果只是要AI辨識人數而非人的肢體動作,其實用拉框(bounding box)就夠了,不需要特地使用看起來比較厲害的關鍵點(keypoint)標註。

  2. 拆解標註流程,提升效率與精準度
    把標註流程線性產線化,將不同標註動作交給不同的人來做,提升效率;遇到容易主觀判斷的顏色、年紀、瑕疵檢測、模糊程度等圖資,可以採用科技工具做數值判定,或是由多數投票決來處理。

  3. 根據不同題目與訓練階段,彈性調整標註原則
    以人體動作偵測應用來說,在初始階段要先讓AI學習人體結構的運動方式,所以務必正確標註出人體所有重要關節點,即使被遮擋的關節,也要透過透視法等方法,找出具體的位置並標註。

    但是到了第二階段,為了讓已經學過一輪的AI自行找出關節點的位置,此時的數據就不用把被遮擋的關節點標出來,避免AI誤學。

五、模型訓練成效不佳,如何江湖救急?

模型訓練成效不佳,可能是三大要素:演算法、特徵和數據,其中的環節出了問題。如果是演算法或特徵選擇錯誤,可以看是不是Feature Collision的問題,也就是兩種截然不同的目標物件,卻取出相同的數據特徵。這部分我們有一系列專家文,可供大家深入參考。

而就數據方面而言,則是數據品質不佳、數據多樣性或複雜性不足、數據標註不到位,或者標註原則本身需要被優化等等。

例如,我們曾經遇到人流辨識AI的客戶,訓練完模型後,回來找我們幫忙看數據。因為AI一直會把畫面中圓圓的氣球,誤認為是人頭。

後來,我們一起討論,調整標註原則,縮小拉框範圍從全身四肢到只有主軀幹,避免框線裡面出現周遭環境的物品,順利的解決了這個問題。

AI模型訓練專案,就像是一場旅行。釐清目標,找對方法和途徑,適時選擇對的工具或數據策略夥伴為你助攻,能讓這場旅行更順利到達目的地。

💡 延伸閱讀:
1. 2021台灣人工智慧小聚@若水:如何用少量AI數據,做好機器學習?
2. 建立數據文化,提升AI成功機率
3. AI 快速落地的關鍵,誰是最值得託付數據標註的對象?

【3分鐘看AI大事:用AI自我訓練,世界頂尖棋士:很痛苦!/誰能超越賈伯斯的美麗花園/遠距工作+機器人,也能為客人送漢堡 】

【3分鐘看AI大事:學會No-Code,員工再創職場第二春/從數據角度看AI專案成功關鍵 】