三種情境的業界案例,帶你看數據標註如何見招拆招

【若水導讀】帶您看見AI數據處理現場:
1. 數據處理的要點,怎麼解決跨領域難題?
2. 實例:人流辨識
3. 實例:跨境追蹤

推開若水AI數據服務團隊的辦公大門,你可能會懷疑,是不是走錯地方了。

眼前一群人正在討論鎖骨的角度,和髖骨的位置。一轉頭,看見另一組團隊對著牆上的人體透視圖陷入苦思,不遠處還有一群人,反覆重播電腦螢幕上的監視錄影器畫面,搜索目標對象的身影。

這不是刑事辦案現場,也不是中醫診所或美術教室,而是若水數據服務團隊的日常。

經過前幾堂課,相信大家都知道精準數據為什麼重要。但精準的AI數據,到底是如何產出的呢?AI數據的第六堂課,透過幾個實際案例,帶大家看見數據處理的挑戰,有哪些「眉角」和相對應的解方。

【人流辨識】AI模型把氣球誤認成人頭,怎麼解決?

(圖片來源:若水國際)

曾經有個客戶,因為AI模型會把圓圓的氣球誤認成人頭,感到困擾。這家客戶找上門來,請若水團隊幫忙標註,目標是取得最精準、無雜訊的校正用數據。

團隊進場了解情況,發現當初客戶的AI模型成效之所以不顯著,是因為大量使用開放數據庫(Open Data Set)。

訓練AI模型之前,很重要的前置作業是準備「精準數據」。而數據精準度的定義,往往和各家企業的AI應用高度相關。所以,在收集數據時,無法只使用免費的開源數據庫,還需要針對該應用收集合適的數據。

不只需要客製化收集和標註,訓練數據的類型還要夠多元,才能有好的AI模型學習成效。例如自動駕駛AI,白天和黑夜、晴天和雨天的數據比例是否平衡?符合這兩大前提,AI模型才不容易學歪。

回到這個案例,從AI數據服務團隊的角度,該如何做出精準無雜訊的數據?

一般情況下,企業會認為拉框標註越多、越細緻,機器就能學得更精準。但有時候,標註物件太細,反而會適得其反。

以智慧零售為例,當人物離鏡頭太遠,身形模糊時,機器其實很難判讀。若水團隊和客戶討論標註原則,明確定義「取捨」的標準線,當人物在畫面中超過一定占比,能清楚地看見身形和五官,才拉框標註(bounding box)。

再來,為了取得無雜訊的標註數據,在拉框時以避開周遭物件,同時不納入其他人的人頭為原則。如此一來,標出來的數據,就會是最精準且符合客戶需求的數據。事後客戶和我們反映,AI模型的成效確實有所改善。

【人體辨識】標註現場的人體結構與透視學

(圖片來源:若水國際)

處理人體辨識AI應用數據的方法,通常會使用關鍵點標註(key point)。乍看之下,只需要移動滑鼠,點幾個點就好,應該是所有標註方式裡面最簡單的一種?

只可惜,案情往往沒有那麼單純。

客戶的AI機器學習應用,從簡單到複雜都有,針對每個目標對象下17、25個關鍵點,甚至是40-50點都有可能。一般人如果沒有研究過人體骨架,很難精準的點出比較刁鑽的關節位置。

如果目標標註對象是2D動漫人物,可能相對好判斷,但人類活在立體空間裡,有各種動作姿態,正面、側面、背面,還有跑步、蹲坐、跳躍,再加上目標對象時不時會被場景中的遮蔽物擋住,需要自行想像出被遮擋的四肢和關節的位置,增加不少數據處理的難度。

針對基本的人體骨架和關節位置,若水內部設計了五門職訓課程,訓練AI 數據標註師學會辨認正確的人體結構。但是,被物體遮擋的部分卻不好處理。若水合作的數據標註師近兩百位,每位標註師的想像和判斷都不一樣,該如何確保標註團隊維持一致的品質?

若水的專管團隊苦思許久,想出用「透視法」來解決這個問題。

人體多數關節會互相對稱(例如肩膀、髖骨、膝蓋),就像兩條平行的火車軌道一樣,只要存在於現實世界的人或物體,無限延伸之後,一定會在遠處相交於一個共同的透視點,只要所有關鍵點的位置,延伸後都能相交於遠處的同一個點,就表示標註成品正確無誤。

即使畫面中關節位置會變來變去,不好判斷,但只要善用「透視法」這個舉世不變的法則,就能確實做到品管,檢查數據標註師們想像出來的關鍵點,是否有誤判。

【跨境追蹤】茫茫人海中,如何跨越秒數找到目標對象?

(圖片來源:Unsplash)

超市百貨、大馬路、道路監視器等應用情境,其跨境標註的需求正在逐漸增加。即使標註方法是基礎的拉框(bounding box)或下標籤(tagging),在時間與空間變數的加乘下,數據處理的難度也跟著乘上好幾倍。

例如,客戶曾經希望若水短時間內,在影片裡面找出1000名相同的人標上ID,每個人的移動軌跡都要拉至少10個框(bounding box)。這時候,如何有效且省時省力的達成任務,就是一件需要思考和設計的事情。

通常,若水團隊會請客戶提供該場域的攝影機配置圖,事前研究攝影機的角度、位置,和出入口的關係,掌握空間變數。接著,便搭配時間變數一起考量,像刑事辦案一樣,推算如果目標對象經過A處,接下來特定時間範圍內,還有可能出現在何處。

如此一來,不只可以快速預測目標對象的移動路徑,還可以清楚推測,該目標對象下一個五分鐘會出現的區域為何,確認是否有誤判。

克服了時間和空間的變數,還需要解決一件事:人的專注力和記憶力有限,沒辦法長時間記住所有資訊,同時拉框和下10幾種標籤。

面對動輒幾小時的影片數據,要請AI數據標註師從1000人中,辨認出特定人物並且持續追蹤,是一件很困難的事。剛開始或許還能分清楚A人物和B人物的差別,但越到後來記憶力和判斷力會越來越模糊,不小心把A和B認成同一個人。

這種時候,若水團隊會啟動「階段性標註」機制,讓AI數據標註師先專心做拉框的動作,等拉框階段結束之後,再回頭專心幫目標對象下標籤,維持數據精準度。

AI應用逐漸走向落地,企業對數據精準度的要求越來越高,數據處理團隊的專案執行經驗是否豐富,以及是否具備針對各產業的數據處理know how,也變得更加重要。

相關延伸閱讀

歡迎分享給你的朋友,或進一步閱讀系列文章。

Back to Top
Close