Annotation AI
圖片來源 : 截自 iMerit Technology Services Pvt. Ltd. Youtube

AI 快速落地的關鍵,誰是最值得託付數據標註的對象?

文/ 簡季婕 若水AI數據處理事業部負責人

前言】
數據標註是許多企業、組織推動 AI 落地之痛,找不到人標,內部又很難控管品質,適時找到經驗豐富、系統穩定外包標註服務團隊,不但能兼顧數據的量與品質,還可以節省 20% 的成本。

若水 AI 數據處理部門成立一年多以來,服務過許多不同類型的客戶,從大型企業、新創、政府機關到傳產,一開始總是聽到 「AI數據處理,好麻煩」。然而到後來,許多客戶都向我們傳遞相同的訊息:「數據標註原來可以這麼省事」。

對這些客戶來說,在還沒有接觸若水之前,數據標註往往是令他們「最頭痛」的事。也許此刻你也正經歷相同的情境:AI專案的落地,在跨部門之間的溝通已經夠花時間了,還要煩惱上哪找人標註。


找工程師標?大材小用

圖片來源 : 卡晨 on Unsplash

AI 專案起跑之初,有些公司一下子找不到人,會讓工程師先幫忙標註,但不到一個月,工程師大概就會想離職,光跑模型都來不及了,怎麼有空標?

而且一身武藝,也不會只想做標註而已。再不久,老闆也會跳腳,因為工程師很貴,用來做標註非常浪費


眾包平台,三思後行

影片來源 : iMerit Technology Services Pvt. Ltd. Youtube

國外有些公司會利用 Amazon Mturk 等眾包平台,這類平台的標註師來自不同國家,多為家庭主婦、學生兼職,標註師彼此認知判斷不同且缺乏品管,品質較容易有落差。

此外,如何確保數據資安會是一大隱憂。若水有客戶曾經用過這類的平台,最後因為熟悉平台介面耗了不少時間,而且還需要自行開發用來描點的標註工具套件而作罷,在台灣的大企業基本上不太會考慮這個選項。

也許你會想開發自己的標註平台,但從投資報酬的觀點來看,不一定划算。除非標註的類型、數量從頭到尾都不會改變,否則從零到一建置平台,持續開發標註工具,以及後續的平台維護及優化,一樣需要投入人力和時間。


找工讀生標?勞心勞力

圖片來源 : Akson on Unsplash

請少數幾位工讀生自行標註,在專案開發初期確實是個好方法。有個新創圈客戶,一開始也是用 in house 工讀生標註了一陣子,但在與若水合作半年後,就不再請工讀生標註。為什麼?

這位新創公司的副總對我大吐苦水 :原來,標註的工作畢竟重覆性高,工讀生常常做了一陣子就嚷嚷著要請假或是不做,公司在核心業務之外,為了管標註工讀生又要加請一個主管,同時 PM 或工程師還要自己花很多時間檢查工讀生做的標註,另外還有辦公室空間的問題,整個算下來人事費用偏高,根本不划算;有時碰上 AI 新產品開發階段,或是突然專案變多,臨時根本找不到好手支援。

或許對你而言,多花點錢請工讀生標註,為了自己掌控進度一切還能忍受。但在若水的經驗觀察中,

這樣長期下來可能會讓你錯過 AI 專案開發中最寶貴的資源:時間


選對 AI 數據外包服務商,優勢在哪 ?

在監督式機器學習的領域,大量且優質的數據是 AI 應用成功的關鍵之一。
圖片來源 : Franck V. on Unsplash

在監督式機器學習的領域,大量且優質的數據是 AI 應用成功的關鍵之一。當餵進模型的資料數據標註的不夠精確,機器學習模型 (Machine Learning Model) 的學習效果就會受到影響,也就是人們常說的「Garbage in, Garbage out」,換言之,在此之前的投資都浪費掉了。

在若水有一套品質檢測回饋制度,來確保客戶交付的數據如期如質完成,進而帶動機器學習模型的品質和成效。

圖片來源 : 若水 Flow

每位標註師都接受過各種標註圖形的訓練、認證,參與專案前再針對該專案的標註特徵考試,以確保標註時有精確的認知和下標動作,還有 QA、QC人員分批進行品質抽測。

對許多客戶來說,他們最重視若水在標註時給的原則回饋, 機器學習模型需要數據訓練,但需要餵什麼樣「特徵」的數據,往往不太好定義。

之前,有位日本客戶本想讓公司內部的工程師和工讀生去標註橋上的鐵鏽,一試才發現太過耗時、且無法全面檢測標註品質,轉而找上若水幫忙。

因為有協助過建築業的經驗,同仁們馬上想到要請教建築專家,才掌握到鐵鏽的物理特色,不會把橋上的光影、污漬或顏色較深的青苔,標註成鐵鏽,讓機器誤學。

圖片來源 : 若水 Flow

再加上鐵鏽形狀太不規則,業界往往都是用「Polygon 多邊形描邊標註」的方式來處理,若水 AI 數據處理顧問審慎評估後,決定以「Pixel-wise 逐像素標註」進行數據標註,因為可以讓機器學習所需的 Training Data 品質更優質、精準,進而達到 AI 應用快速推展。

究竟數據標註該怎麼解?端看企業開發AI的速度和數量。有一個數據可以參考:我們內部算過,比起找工讀生要花的招募、薪酬(含勞健保)、主管薪資、場地、設備建置等條件來估算,找到一個經驗豐富、品質管理系統穩定的外包標註團隊,至少可以節省 20% 的成本。

? 延伸閱讀:數據教我的三件事,這麼做讓 AI 落地更精準!


最後,如果你正在思考外包數據標註服務,不妨參考以下 4 個原則:

1, 是否能協助精準定義標註原則?

2, 是否有品質和品管的內控流程?

3, 是否有及時與客戶回饋的機制?

4, 是否有可靠、穩定的資安系統?

如何處理學習數據,優化機器學習模型並擷取正確的特徵,讓團隊可以快速的產出AI,其實不是單一的執行層面議題,而是一種全面性的策略。以標註數據為例,在思考上光是「有人標就好」還不夠,企業應該思考的是 :

如何在達成省時、省力、省成本下,同時藉由精準標註,推動 AI 落地。

圖片來源:Danial RiCaRoS卡晨AksonFranck V. on Unsplash

履歷 OUT!聯合利華用 AI 找人才優選率增 6 成

達美樂 必勝客

後疫情分勝負!必勝客破產出局,達美樂卻靠 AI 稱霸披薩界,新聘 2 萬員工?