in

自己數據清洗,划算嗎?外包AI 數據標註和資料處理的兩大好處

文/ 若水 Flow AI Blog 編輯團隊

AI 產業裡的工程師每天都在做什麼?大部分的人應該認為:「Coding 演算法吧!」

其實在導入 AI 的公司裡,「取得訓練用的數據(Training Datasets)」才是佔絕大多數,因為只有乾淨、良好的 AI 數據用於機器學習(Machine Learning),AI 工程師或是數據科學家,才能確保自己建造的神經網路模型能夠預測出有價值的東西。

通常 AI 工程師、資料科學家會用高達 80% 的時間,花在清理 AI 數據與準備數據上

AI 市場上需要學習的領域涉及廣泛,如自動駕駛汽車,收據識別,道路缺陷檢測,互動電影推薦等需要許多來自不同領域的大量數據:由簡單到複雜、由普遍至特定專業領域的數據類型,如視覺影像、文字、音檔、感測器數據、醫療數據等。

說到底,工程師遇到的困難,就是人一天只有 24 小時。我們觀察過,愈成功好產品、越成功的 AI 公司,關鍵往往在於:

比起完全花心力建立演算法模型,他們更專注在蒐集數據,而且是快速、大量地蒐集有用的數據!

但如何讓 AI 工程師及數據科學家,能擁有足夠經過訓練的數據,專注於改進模型呢?

「外包數據」(Data Annotation Outsourcing)的概念,為這項棘手的核心問題提供解答。這個作法有兩大好處:

1, 數據可被精準取得與正確標註(Annotation)

2, 取得即時且大量的 AI 數據,讓工程師有效地訓練可預測的模型,最終 AI 變得更聰明


搞定 3 個 W,讓遠距工作不成問題!

當企業考慮「外包數據」時,能及時回應和持續保持高品質管理,進而協助 AI 加速是重要關鍵。

保證數據資料維持高品質的管理策略有很多種。有些團隊會採用激勵理論中的「消除」,直到標註師把批次的數據做到好,公司才會給付薪資。

若水 AI 數據處理團隊在創立初期,不斷嘗試著各種品質管理的方法。到目前為止,依據居家標註師的特質,若水 AI 所發展出來的是方法是:「小批次兩階段式 QC(Quality Control,品質管理)檢核」,隨著數據資料量與日俱增,若水更進一步鑽研這套方法,並可以拆成三個層次來說:


拒絕 Garbage in, Garbage out.

第一層「事前預防」:

「品質不是被檢測出來的,而是被設計出來的,」

若水數據顧問吳南輝說,當標註師按照與客戶定義出來的原則、SOP來操作,就更有機會產出高品質的數據。

在若水,尤其看重標註前的事前準備作業。包括,在客戶端要反覆溝通,確認數據的定義、標註原則;在標註師端則有上線前職業訓練,包括基礎工作態度、標註能力訓練、按實際接案情形做模擬訓練等關卡,都通過審核者才能成為若水 AI 數據標註師。
  

第二層「事中例外管理」:

有時案子在進行過程中,會發生品管原則變動的例外狀況。當有類似的情形時,若水團隊會將因原則改變所影響到的 AI 數據資料,額外拉出來做「例外管理」,以讓未受影響的數據,仍可以不間斷地被標註。
  

第三層「事後檢核」:

由內部認證的品質檢核師,做最後一道的品質監控,防止不乾淨的數據流到客戶手中。這裡即為前面所提到的「小批次兩階段式 QC(Quality Control)檢核」,兩階段式檢核中有2種不同功能角色的品質檢核師,一個是 QA(Quality Assurance),另一個是QC(Quality Control)

兩方彼此分工合作,通常善於溝通的 QA 負責解答 AI 數據標註師的疑惑,必要時進行手把手;QC 則全力負責 AI 數據檢核,在雙邊同時緊密配合之下,得以造就高品質數據。

在專案中表現優異的 AI 數據標註師,有機會進入到品質檢核實習階段,在這個過程中約會再經歷 2~3 個專案,以確認是否適應這個角色。在實習階段都表現良好者,便會成為正式的 AI 數據品質檢核師。

在做好 AI 數據標註這件事上,為了達到持續性的高品質,每個環節中幾乎沒有偷懶的空間,在事前、事中,以及事後各個關鍵時刻,都需要多加思考、施力才行。

未來若水 AI 數據處理團隊希望持續培力出更多這樣的角色,也積極朝向跨越空間與時間限制的工作型態邁進。


【延伸閱讀】

1, 根據 Forrester Research 今年7月的報告指出,SaaS、PaaS、IaaS 三種公眾雲的市場規模,將於 2020 年達到 2994 億美元 ➡️➡️ 來看雲端市場會有什麼重大變化

2、圖像辨識和深度學習將讓醫療篩檢自動化,未來甚至走向麥當勞化,造福弱勢族群! ➡️➡️ 搶救百萬失明人生,印度眼科醫院聯手 Google 打出 AI 篩檢

【iThome】如何提高 AI 模型需要的高品質數據,若水揭露標註師工作的秘訣

台灣最精準AI數據處理平台,如何透過UX用戶回饋持續優化?