【AI數據處理的策略思考】 掌握 3 大數據特色 發展智慧交通更順暢

根據 UN 聯合國等研究報告顯示,未來 30 年,全球近 7 成人口將會居住在都市裡,每位汽車駕駛每年平均浪費 70 小時在尖峰時段的車陣中。如何解決都市化所帶來的交通問題,已成為全球重要的經濟轉型方針。

近年,全球各國著手嘗試導入 AI 人工智慧,從智慧交通再發展到智慧城市,逐步解決塞車帶來的時間與金流耗損。甚至,未來希望不只是做到車輛監控,能更進一步做到車流狀況的預警、車流即時調度、道路建設的預先規劃、充電車道等,建構完整的運作系統。

在台灣,2019年9月在 國發會主導下,委託中華電信、緯創等相關業者,從整合國內業者的自駕車數據開始,累積更多道路資訊,做為未來智慧交通的發展數據庫。

就數據處理和應用的觀點來看,智慧交通的範圍很廣。涵蓋駕駛人行為辨識、車牌辨識、橋梁生鏽監測,以及車流監測分析、公車及計程車的排班分析…等,除了成熟的 IOT、5G、AI 網絡,還需要 Start from Small 的命題,採取階段性逐一突破的方式,再進行整合。

處理智慧交通數據是大工程

若水經手近 100 個 AI 數據處理專案,「智慧交通」相關的案子可以算是前幾大宗,其所需的電腦視覺數據之龐雜,也是名列前茅。

去年10月,前微軟 (Microsoft) 全球執行副總裁沈向洋來台大演講,末了有學生發問,「怎麼看自駕車的未來?」他沒有直接回答,倒是引用了一位 MIT 麻省理工學院教授的見解

「在校園,都要違規才能開車。那這樣的數據訓不訓練呢?」

短短一句話,就點出做好智慧交通有多難。

比方,要考慮推出何種軟硬體整合方案?晶片要用邊緣運算、還是回傳中央運算?解決方案的影像視角為路口攝影機、空拍機還是行車紀錄器等(有機會我們再寫)。

很多企業會卡在不知 AI 怎麼落地,在我們看來,問題會先出在對於「AI 數據型態」不夠了解。這時,我們都會建議企業,可以多多了解跨產業的案例下手,有助於理解自家的數據優勢。

比方,在智慧交通,我們歸納所需的數據有以下三個特色:

1, 【情境多元】:比方,分析「定義車流」分析時,要先確認清楚改善路口車流順暢度的關鍵要素有哪些,確認完要素,還需要再往下劃分細項。

2, 【數據量大】:尤以「路口車流監控」占多數,光在標註部分,有些專案依複雜程度,甚至標框數(Bounding box)在100萬個以上。

3, 【兩種類型】:在前期的 AI 數據蒐集 (Data Collection) 階段,圖資通常會分為:一,標準的「一般視角」、二,望遠的「高處廣角」。

數據標註有哪些要點?精確、連續、掌握變化

在實際標註時,基於生命安全考量,AI 必須能夠辨識、追蹤經過路口的所有交通工具,所以在資料標註上極為細緻,甚至物體的任一邊超過 10 pixel 以上,即須進行標註,且標註時要注意貼齊物件邊緣,以免納入周圍過多的雜訊。

特別是前述的第二種「廣角圖資」,因為魚眼效果,可能導致車輛等物體的遠近大小、形狀不一,愈接近圖片的邊緣處,輪廓愈容易扭曲失真。因為圖資的差異較大,需要有相對應的解決方式,來提升標註的品質和精確度。

光是為了讓 AI 認得所有可能在道路上出現的物件,數據標註的種類常常多達 50 種以上。以機車為例,就需要再分為機車、騎士、後座乘客三種標籤標註。行駛況狀又會因天候等交通情境而有所變化,也要把這些情境納入數據標註的原則和規範。

那麼在若水,我們怎麼做好智慧交通類型的 AI 數據處理?

解方一】:專案教育訓練 & 車輛百科全書

以標註為例,要標註的物體種類(標籤分類)愈多,需要的背景知識就要愈齊備。像車輛標註需要大量數據,最好啓動多人標註以加快 AI 專案進度,同時,為了維持標註成品的一致性,一定要在專案前進行教育訓練。

(為什麼標註的一致性很重要?請看:在製造業現場,導入AI,智慧製造升級,要怎麼開始呢?

我們針對路上會出現的各種車輛,做出了一套汽車圖示的百科全書,讓標註師參照學習,例如大貨車與小貨車、大客車等該如何區分。

在專案初期,曾發生過大客車的標註錯誤率比其他車種高的情形,後來才發現,是因為大客車的後照鏡特別突出,很容易被忽略。發現原因後,我們立即與 AI 數據標註師溝通,並且把經驗累加到百科全書中。


解方二】:透過平台 UI 介面設計優化流程

假設,有個專案要求畫面中超過「50pixel」的車輛才要進行標註。在一般外部平台進行標註時,因為圖片縮放倍率不同,無法以肉眼直覺判斷車輛的長或寬是否超過 50pixel,只能緊盯著框線右下方顯示的 pixel數字,造成標註時既勞神又容易誤摽。

若水持續收集標註師的使用經驗,優化「若水AI數據匯流處理平台」。拉框時,只要長寬任一邊超過 50pixel,框線就會自動從紅色變成綠色,標註師看到綠色就知道要拉框,不只能夠防呆,還減少了標註師來回細看的時間,提升專案標註效率。

解方三】:影片切圖標註工具,從上圖複製標註

在智慧交通的場景裡,為了讓路口監控的 AI 知道每輛交通工具的行進路徑,進行動態追蹤,標註時需要以frame by frame的方式,來確認同一輛車在不同標註框中是否帶有同樣的ID標籤,以確保追蹤的正確性。

機器學習車流分析所需圖資,要把一支一支影片切成圖檔來標註。同一支影片中,接連的兩張圖資 A-1、A-2 所要標註的車輛距離,可能相差甚微。

在一般外部平台進行標註時,儘管 A-1 與 A-2 的車輛因為紅燈而停在原地,要標註的位置幾乎相同,但在標完 A-1 接著要標 A-2 時,仍需要以土法煉鋼的方式重新拉框,耗時又費力。

在「若水AI數據匯流處理平台」平台,我們設計「從上圖複製標註框」的功能,讓標註師要標 A-2 時,能直接從 A-1 複製畫面中所有的標註框及標籤到 A-2,接著,只需要在 A-2 微調標註框,使其貼邊。這麼一來,大幅降低標註所需時間,也維持標註一致性。


解方四】:運用 Interactive ML 做 Smart Tool,加速高品質標註

由於車輛標註框的數量龐大,若水使用內部自行開發及外部的開源工具組成的多元智慧標註工具箱,來提升標註工作的效率與品質。

過去在沒有 Pre-Label 技術前,AI 數據標註師每標一個框,都需要先去尋找物件邊緣,拉框、微調框的四邊進行貼齊。現在只要先框出大概的範圍,框線就會自動貼齊物體邊界,標註師只需要微調框線之後下分類標籤,即可完成。

發展智慧交通有其難度,但只要能事先掌握數據特色,就有機會領先一步。

 ➡️➡️ 想掌握更多最新 AI 專題報導嗎?歡迎免費訂閱若水 AI 數據專家親手撰寫的 AI 電子報: https://ai-blog.flow.tw/register

【本文作者簡介】

簡季婕 (Jessica)
若水 AI 數據處理服務事業部負責人

簡季婕 (Jessica) 為若水國際 AI 數據服務事業部負責人,同時也是經驗豐富的策略顧問。Jessica 帶領台灣第一家數據處理策略團隊,致力於開發一個針對《電腦視覺》的 Training Data 學習數據優化平台,配建多元標註工具及完善品管系統,並培育身障者成為專業穩定的數據標註團隊,為 AI 演算及應用提供完整 AI 數據處理服務。


【推薦閱讀】

1, AI 導入要硬體、要技術,要策略,三者缺一不可。這兩年,愈來愈多台灣企業導入 AI,我們看到數據處理的過程,就在形成企業如何運用科技的策略思維。所以過程中我們都會跟客戶一起思考三個問題 ➡️➡️ 開始智慧製造的第一步

2, 神秘的新型冠狀病毒猶如一把野火,跨山過海,快速延燒全球。跑得快的新創企業或研究機構,早已用數據築起防疫的第一線 ➡️➡️ 數據防疫先行者教我們的事

註1:《聯合國2018 年世界城鎮化展望》、《Juniper Research》
圖片來源:若水 AI 數據處理服務團隊、 Photo by Andy WangVincent Chan and Scheier .hr on Unsplash


【科技新聞洞察】選對了數據,才能真正預測未來

多少才夠?數據防疫先行者教我們的事