in

【數據處理的策略思考】 掌握3大數據特色 發展智慧交通更順暢

文/ 簡季婕, 若水AI數據處理事業部負責人

根據聯合國等研究報告1顯示,未來30年,全球近7成人口將會居住在都市裡,每位汽車駕駛每年平均浪費70小時在尖峰時段的車陣中。如何解決都市化所帶來的交通問題,已成為全球重要的經濟轉型方針。

近年,全球各國著手嘗試導入AI,從智慧交通再發展到智慧城市,逐步解決塞車帶來的時間與金流耗損。甚至,未來希望不只是做到車輛監控,能更進一步做到車流狀況的預警、車流即時調度、道路建設的預先規劃、充電車道等,建構完整的運作系統。

在台灣,2019年9月在 國發會 主導下,委託中華電信、緯創等相關業者,從整合國內業者的自駕車數據開始,累積更多道路資訊,做為未來智慧交通的發展數據庫。

就數據處理和應用的觀點來看,智慧交通的範圍很廣。涵蓋駕駛人行為辨識、車牌辨識、橋梁生鏽監測,以及車流監測分析、公車及計程車的排班分析…等,除了成熟的IOT、5G、AI網絡,還需要start from small的命題,採取階段性逐一突破的方式,再進行整合。

處理智慧交通數據是大工程

若水經手近100個AI數據處理專案,「智慧交通」相關的案子可以算是前幾大宗,其所需數據之龐雜,也是名列前茅。

去年10月,前微軟全球執行副總裁沈向洋來台大演講,末了有學生發問,「怎麼看自駕車的未來?」他沒有直接回答,倒是引用了一位MIT教授的見解,「在校園都要違規才能開車,這樣的數據訓不訓練呢?」短短一句話,就點出做好智慧交通有多難。

比方,要考慮推出何種軟硬體整合方案?晶片要用邊緣運算、還是回傳中央運算?解決方案的影像視角為路口攝影機、空拍機還是行車紀錄器等(有機會我們再寫)。

很多企業會卡在不知AI怎麼落地,在我們看來,問題會先出在對於「數據型態」不夠了解。這時,我們都會建議企業,可以多多了解跨產業的案例下手,有助於理解自家的數據優勢。

比方,在智慧交通,我們歸納所需的數據有以下三個特色:

1, 情境多元:比方,分析「定義車流」分析時,要先確認清楚改善路口車流順暢度的關鍵要素有哪些,確認完要素,還需要再往下劃分細項。

2, 數據量大:尤以「路口車流監控」占多數,光在標註部分,有些專案依複雜程度,甚至標框數(Bounding box)在100萬個以上。

3, 兩種類型:在前期的數據蒐集(Data Collection)階段,圖資通常會分為:一,標準的「一般視角」、二,望遠的「高處廣角」。


標註要點:精確、連續、掌握變化

在實際標註時,基於生命安全考量,AI必須能夠辨識、追蹤經過路口的所有交通工具,所以在資料標註上極為細緻,甚至物體的任一邊超過10 pixel以上,即須進行標註,且標註時要注意貼齊物件邊緣,以免納入周圍過多的雜訊。

特別是前述的第二種「廣角圖資」,因為魚眼效果,可能導致車輛等物體的遠近大小、形狀不一,愈接近圖片的邊緣處,輪廓愈容易扭曲失真。因為圖資的差異較大,需要有相對應的解決方式,來提升標註的品質和精確度。

光是為了讓AI認得所有可能在道路上出現的物件,標註的種類常常多達50種以上。以機車為例,就需要再分為機車、騎士、後座乘客三種標籤標註。行駛況狀又會因天候等交通情境而有所變化,也要把這些情境納入標註。

那麼在若水,我們怎麼做好智慧交通類型的數據據理?

解方一:專案教育訓練&車輛百科全書

以標註為例,要標註的物體種類(標籤分類)愈多,需要的背景知識就要愈齊備。像車輛標註需要大量數據,最好啓動多人標註以加快AI專案進度,同時,為了維持標註成品的一致性,一定要在專案前進行教育訓練。

(為什麼標註的一致性很重要?請看:在製造業現場,導入AI,智慧製造升級,要怎麼開始呢?

我們針對路上會出現的各種車輛,做出了一套汽車圖示的百科全書,讓標註師參照學習,例如大貨車與小貨車、大客車等該如何區分。

在專案初期,曾發生過大客車的標註錯誤率比其他車種高的情形,後來才發現,是因為大客車的後照鏡特別突出,很容易被忽略。發現原因後,我們立即與AI數據標註師溝通,並且把經驗累加到百科全書中。


解方二:透過平台UI設計優化流程

假設,有個專案要求畫面中超過「50pixel」的車輛才要進行標註。在一般外部平台進行標註時,因為圖片縮放倍率不同,無法以肉眼直覺判斷車輛的長或寬是否超過50pixel,只能緊盯著框線右下方顯示的pixel數字,造成標註時既勞神又容易誤摽。

若水持續收集標註師的使用經驗,優化自家平台「PIGmax」的UI介面設計。拉框時,只要長寬任一邊超過50pixel,框線就會自動從紅色變成綠色,標註師看到綠色就知道要拉框,不只能夠防呆,還減少了標註師來回細看的時間,提升專案標註效率。


舉例三:影片切圖標註工具,從上圖複製標註

在智慧交通的場景裡,為了讓路口監控的AI知道每輛交通工具的行進路徑,進行動態追蹤,標註時需要以frame by frame的方式,來確認同一輛車在不同標註框中是否帶有同樣的ID標籤,以確保追蹤的正確性。

機器學習車流分析所需圖資,要把一支一支影片切成圖檔來標註。同一支影片中,接連的兩張圖資A-1、A-2所要標註的車輛距離,可能相差甚微。

在一般外部平台進行標註時,儘管A-1與A-2的車輛因為紅燈而停在原地,要標註的位置幾乎相同,但在標完A-1接著要標A-2時,仍需要以土法煉鋼的方式重新拉框,耗時又費力。

在「PIGmax」平台,我們設計「從上圖複製標註框」的功能,讓標註師要標A-2時,能直接從A-1複製畫面中所有的標註框及標籤到A-2,接著,只需要在A-2微調標註框,使其貼邊。這麼一來,大幅降低標註所需時間,也維持標註一致性。


解方四:運用Interactive ML做smart tool,加速高品質標註

由於車輛標註框的數量龐大,若水透過Interactive Machine Learning發展出smart tool系統,平均可加速2倍的標註時間。

過去在沒有pre-label技術前,標註師每標一個框,都需要先去尋找物件邊緣,拉框、微調框的四邊進行貼齊。現在只要先框出大概的範圍,框線就會自動貼齊物體邊界,標註師只需要微調框線之後下分類標籤,即可完成。

發展智慧交通有其難度,但只要能事先掌握數據特色,就有機會領先一步。


【推薦閱讀】

1, AI導入要硬體、要技術,要策略,三者缺一不可。這兩年,愈來愈多台灣企業導入AI,我們看到數據處理的過程,就在形成企業如何運用科技的策略思維。所以過程中我們都會跟客戶一起思考三個問題 ➡️➡️ 開始智慧製造的第一步

2, 神秘的新型冠狀病毒猶如一把野火,跨山過海,快速延燒全球。跑得快的新創企業或研究機構,早已用數據築起防疫的第一線 ➡️➡️ 數據防疫先行者教我們的事

註1:《聯合國2018 年世界城鎮化展望》、《Juniper Research》

圖片來源:若水 AI 數據處理服務團隊、 Photo by Andy WangVincent Chan and Scheier .hr on Unsplash


選對了數據,才能真正預測未來

多少才夠?數據防疫先行者教我們的事