三種情境的業界案例，帶你看數據標註如何見招拆招

【若水導讀】帶您看見AI數據處理現場：
1. 數據處理的要點，怎麼解決跨領域難題？
2. 實例：人流辨識
3. 實例：跨境追蹤

推開若水AI數據服務團隊的辦公大門，你可能會懷疑，是不是走錯地方了。

眼前一群人正在討論鎖骨的角度，和髖骨的位置。一轉頭，看見另一組團隊對著牆上的人體透視圖陷入苦思，不遠處還有一群人，反覆重播電腦螢幕上的監視錄影器畫面，搜索目標對象的身影。

這不是刑事辦案現場，也不是中醫診所或美術教室，而是若水數據服務團隊的日常。

經過前幾堂課，相信大家都知道精準數據為什麼重要。但精準的AI數據，到底是如何產出的呢？AI數據的第六堂課，透過幾個實際案例，帶大家看見數據處理的挑戰，有哪些「眉角」和相對應的解方。

【人流辨識】AI模型把氣球誤認成人頭，怎麼解決？

（圖片來源：若水國際）

曾經有個客戶，因為AI模型會把圓圓的氣球誤認成人頭，感到困擾。這家客戶找上門來，請若水團隊幫忙標註，目標是取得最精準、無雜訊的校正用數據。

團隊進場了解情況，發現當初客戶的AI模型成效之所以不顯著，是因為大量使用開放數據庫(Open Data Set)。

訓練AI模型之前，很重要的前置作業是準備「精準數據」。而數據精準度的定義，往往和各家企業的AI應用高度相關。所以，在收集數據時，無法只使用免費的開源數據庫，還需要針對該應用收集合適的數據。

不只需要客製化收集和標註，訓練數據的類型還要夠多元，才能有好的AI模型學習成效。例如自動駕駛AI，白天和黑夜、晴天和雨天的數據比例是否平衡？符合這兩大前提，AI模型才不容易學歪。

回到這個案例，從AI數據服務團隊的角度，該如何做出精準無雜訊的數據？

一般情況下，企業會認為拉框標註越多、越細緻，機器就能學得更精準。但有時候，標註物件太細，反而會適得其反。

以智慧零售為例，當人物離鏡頭太遠，身形模糊時，機器其實很難判讀。若水團隊和客戶討論標註原則，明確定義「取捨」的標準線，當人物在畫面中超過一定占比，能清楚地看見身形和五官，才拉框標註(bounding box)。

再來，為了取得無雜訊的標註數據，在拉框時以避開周遭物件，同時不納入其他人的人頭為原則。如此一來，標出來的數據，就會是最精準且符合客戶需求的數據。事後客戶和我們反映，AI模型的成效確實有所改善。

【人體辨識】標註現場的人體結構與透視學

（圖片來源：若水國際）

處理人體辨識AI應用數據的方法，通常會使用關鍵點標註(key point)。乍看之下，只需要移動滑鼠，點幾個點就好，應該是所有標註方式裡面最簡單的一種？

只可惜，案情往往沒有那麼單純。

客戶的AI機器學習應用，從簡單到複雜都有，針對每個目標對象下17、25個關鍵點，甚至是40-50點都有可能。一般人如果沒有研究過人體骨架，很難精準的點出比較刁鑽的關節位置。

如果目標標註對象是2D動漫人物，可能相對好判斷，但人類活在立體空間裡，有各種動作姿態，正面、側面、背面，還有跑步、蹲坐、跳躍，再加上目標對象時不時會被場景中的遮蔽物擋住，需要自行想像出被遮擋的四肢和關節的位置，增加不少數據處理的難度。

針對基本的人體骨架和關節位置，若水內部設計了五門職訓課程，訓練AI 數據標註師學會辨認正確的人體結構。但是，被物體遮擋的部分卻不好處理。若水合作的數據標註師近兩百位，每位標註師的想像和判斷都不一樣，該如何確保標註團隊維持一致的品質？

若水的專管團隊苦思許久，想出用「透視法」來解決這個問題。

人體多數關節會互相對稱（例如肩膀、髖骨、膝蓋），就像兩條平行的火車軌道一樣，只要存在於現實世界的人或物體，無限延伸之後，一定會在遠處相交於一個共同的透視點，只要所有關鍵點的位置，延伸後都能相交於遠處的同一個點，就表示標註成品正確無誤。

即使畫面中關節位置會變來變去，不好判斷，但只要善用「透視法」這個舉世不變的法則，就能確實做到品管，檢查數據標註師們想像出來的關鍵點，是否有誤判。

【跨境追蹤】茫茫人海中，如何跨越秒數找到目標對象？

（圖片來源：Unsplash）

超市百貨、大馬路、道路監視器等應用情境，其跨境標註的需求正在逐漸增加。即使標註方法是基礎的拉框(bounding box)或下標籤(tagging)，在時間與空間變數的加乘下，數據處理的難度也跟著乘上好幾倍。

例如，客戶曾經希望若水短時間內，在影片裡面找出1000名相同的人標上ID，每個人的移動軌跡都要拉至少10個框(bounding box)。這時候，如何有效且省時省力的達成任務，就是一件需要思考和設計的事情。

通常，若水團隊會請客戶提供該場域的攝影機配置圖，事前研究攝影機的角度、位置，和出入口的關係，掌握空間變數。接著，便搭配時間變數一起考量，像刑事辦案一樣，推算如果目標對象經過A處，接下來特定時間範圍內，還有可能出現在何處。

如此一來，不只可以快速預測目標對象的移動路徑，還可以清楚推測，該目標對象下一個五分鐘會出現的區域為何，確認是否有誤判。

克服了時間和空間的變數，還需要解決一件事：人的專注力和記憶力有限，沒辦法長時間記住所有資訊，同時拉框和下10幾種標籤。

面對動輒幾小時的影片數據，要請AI數據標註師從1000人中，辨認出特定人物並且持續追蹤，是一件很困難的事。剛開始或許還能分清楚A人物和B人物的差別，但越到後來記憶力和判斷力會越來越模糊，不小心把A和B認成同一個人。

這種時候，若水團隊會啟動「階段性標註」機制，讓AI數據標註師先專心做拉框的動作，等拉框階段結束之後，再回頭專心幫目標對象下標籤，維持數據精準度。

AI應用逐漸走向落地，企業對數據精準度的要求越來越高，數據處理團隊的專案執行經驗是否豐富，以及是否具備針對各產業的數據處理know how，也變得更加重要。