in ,

【AI數據處理的策略思考】 掌握 3 大數據特色 發展智慧交通更順暢

根據 UN 聯合國等研究報告顯示,未來 30 年,全球近 7 成人口將會居住在都市裡,每位汽車駕駛每年平均浪費 70 小時在尖峰時段的車陣中。如何解決都市化所帶來的交通問題,已成為全球重要的經濟轉型方針。

近年,全球各國著手嘗試導入 AI 人工智慧,從智慧交通再發展到智慧城市,逐步解決塞車帶來的時間與金流耗損。甚至,未來希望不只是做到車輛監控,能更進一步做到車流狀況的預警、車流即時調度、道路建設的預先規劃、充電車道等,建構完整的運作系統。

在台灣,2019年9月在 國發會主導下,委託中華電信、緯創等相關業者,從整合國內業者的自駕車數據開始,累積更多道路資訊,做為未來智慧交通的發展數據庫。

就數據處理和應用的觀點來看,智慧交通的範圍很廣。涵蓋駕駛人行為辨識、車牌辨識、橋梁生鏽監測,以及車流監測分析、公車及計程車的排班分析…等,除了成熟的 IOT、5G、AI 網絡,還需要 Start from Small 的命題,採取階段性逐一突破的方式,再進行整合。

處理智慧交通數據是大工程

若水經手近 100 個 AI 數據處理專案,「智慧交通」相關的案子可以算是前幾大宗,其所需的電腦視覺數據之龐雜,也是名列前茅。

去年10月,前微軟 (Microsoft) 全球執行副總裁沈向洋來台大演講,末了有學生發問,「怎麼看自駕車的未來?」他沒有直接回答,倒是引用了一位 MIT 麻省理工學院教授的見解

「在校園,都要違規才能開車。那這樣的數據訓不訓練呢?」

短短一句話,就點出做好智慧交通有多難。

比方,要考慮推出何種軟硬體整合方案?晶片要用邊緣運算、還是回傳中央運算?解決方案的影像視角為路口攝影機、空拍機還是行車紀錄器等(有機會我們再寫)。

很多企業會卡在不知 AI 怎麼落地,在我們看來,問題會先出在對於「AI 數據型態」不夠了解。這時,我們都會建議企業,可以多多了解跨產業的案例下手,有助於理解自家的數據優勢。

比方,在智慧交通,我們歸納所需的數據有以下三個特色:

1, 【情境多元】:比方,分析「定義車流」分析時,要先確認清楚改善路口車流順暢度的關鍵要素有哪些,確認完要素,還需要再往下劃分細項。

2, 【數據量大】:尤以「路口車流監控」占多數,光在標註部分,有些專案依複雜程度,甚至標框數(Bounding box)在100萬個以上。

3, 【兩種類型】:在前期的 AI 數據蒐集 (Data Collection) 階段,圖資通常會分為:一,標準的「一般視角」、二,望遠的「高處廣角」。

數據標註有哪些要點?精確、連續、掌握變化

在實際標註時,基於生命安全考量,AI 必須能夠辨識、追蹤經過路口的所有交通工具,所以在資料標註上極為細緻,甚至物體的任一邊超過 10 pixel 以上,即須進行標註,且標註時要注意貼齊物件邊緣,以免納入周圍過多的雜訊。

特別是前述的第二種「廣角圖資」,因為魚眼效果,可能導致車輛等物體的遠近大小、形狀不一,愈接近圖片的邊緣處,輪廓愈容易扭曲失真。因為圖資的差異較大,需要有相對應的解決方式,來提升標註的品質和精確度。

光是為了讓 AI 認得所有可能在道路上出現的物件,數據標註的種類常常多達 50 種以上。以機車為例,就需要再分為機車、騎士、後座乘客三種標籤標註。行駛況狀又會因天候等交通情境而有所變化,也要把這些情境納入數據標註的原則和規範。

那麼在若水,我們怎麼做好智慧交通類型的 AI 數據處理?

解方一】:專案教育訓練 & 車輛百科全書

以標註為例,要標註的物體種類(標籤分類)愈多,需要的背景知識就要愈齊備。像車輛標註需要大量數據,最好啓動多人標註以加快 AI 專案進度,同時,為了維持標註成品的一致性,一定要在專案前進行教育訓練。

(為什麼標註的一致性很重要?請看:在製造業現場,導入AI,智慧製造升級,要怎麼開始呢?

我們針對路上會出現的各種車輛,做出了一套汽車圖示的百科全書,讓標註師參照學習,例如大貨車與小貨車、大客車等該如何區分。

在專案初期,曾發生過大客車的標註錯誤率比其他車種高的情形,後來才發現,是因為大客車的後照鏡特別突出,很容易被忽略。發現原因後,我們立即與 AI 數據標註師溝通,並且把經驗累加到百科全書中。


解方二】:透過平台 UI 介面設計優化流程

假設,有個專案要求畫面中超過「50pixel」的車輛才要進行標註。在一般外部平台進行標註時,因為圖片縮放倍率不同,無法以肉眼直覺判斷車輛的長或寬是否超過 50pixel,只能緊盯著框線右下方顯示的 pixel數字,造成標註時既勞神又容易誤摽。

若水持續收集標註師的使用經驗,優化自家平台「PIGmax」的UI介面設計。拉框時,只要長寬任一邊超過 50pixel,框線就會自動從紅色變成綠色,標註師看到綠色就知道要拉框,不只能夠防呆,還減少了標註師來回細看的時間,提升專案標註效率。

解方三】:影片切圖標註工具,從上圖複製標註

在智慧交通的場景裡,為了讓路口監控的 AI 知道每輛交通工具的行進路徑,進行動態追蹤,標註時需要以frame by frame的方式,來確認同一輛車在不同標註框中是否帶有同樣的ID標籤,以確保追蹤的正確性。

機器學習車流分析所需圖資,要把一支一支影片切成圖檔來標註。同一支影片中,接連的兩張圖資 A-1、A-2 所要標註的車輛距離,可能相差甚微。

在一般外部平台進行標註時,儘管 A-1 與 A-2 的車輛因為紅燈而停在原地,要標註的位置幾乎相同,但在標完 A-1 接著要標 A-2 時,仍需要以土法煉鋼的方式重新拉框,耗時又費力。

在「PIGmax」平台,我們設計「從上圖複製標註框」的功能,讓標註師要標 A-2 時,能直接從 A-1 複製畫面中所有的標註框及標籤到 A-2,接著,只需要在 A-2 微調標註框,使其貼邊。這麼一來,大幅降低標註所需時間,也維持標註一致性。


解方四】:運用 Interactive ML 做 Smart Tool,加速高品質標註

由於車輛標註框的數量龐大,若水透過 Interactive Machine Learning 發展出智能數據標助工具 (Smart Tool) 系統,平均可加速 2 倍的數據標註時間。

過去在沒有 Pre-Label 技術前,AI 數據標註師每標一個框,都需要先去尋找物件邊緣,拉框、微調框的四邊進行貼齊。現在只要先框出大概的範圍,框線就會自動貼齊物體邊界,標註師只需要微調框線之後下分類標籤,即可完成。

發展智慧交通有其難度,但只要能事先掌握數據特色,就有機會領先一步。

 ➡️➡️ 想掌握更多最新 AI 專題報導嗎?歡迎免費訂閱若水 AI 數據專家親手撰寫的 AI 電子報: https://ai-blog.flow.tw/register

【本文作者簡介】

簡季婕 (Jessica)
若水 AI 數據處理服務事業部負責人

簡季婕 (Jessica) 為若水國際 AI 數據服務事業部負責人,同時也是經驗豐富的策略顧問。Jessica 帶領台灣第一家數據處理策略團隊,致力於開發一個針對《電腦視覺》的 Training Data 學習數據優化平台,配建多元標註工具及完善品管系統,並培育身障者成為專業穩定的數據標註團隊,為 AI 演算及應用提供完整 AI 數據處理服務。


【推薦閱讀】

1, AI 導入要硬體、要技術,要策略,三者缺一不可。這兩年,愈來愈多台灣企業導入 AI,我們看到數據處理的過程,就在形成企業如何運用科技的策略思維。所以過程中我們都會跟客戶一起思考三個問題 ➡️➡️ 開始智慧製造的第一步

2, 神秘的新型冠狀病毒猶如一把野火,跨山過海,快速延燒全球。跑得快的新創企業或研究機構,早已用數據築起防疫的第一線 ➡️➡️ 數據防疫先行者教我們的事

註1:《聯合國2018 年世界城鎮化展望》、《Juniper Research》
圖片來源:若水 AI 數據處理服務團隊、 Photo by Andy WangVincent Chan and Scheier .hr on Unsplash


【科技新聞洞察】選對了數據,才能真正預測未來

多少才夠?數據防疫先行者教我們的事