圖片來源:Unsplash

工程師自己標註AI數據,划算嗎?數據外包策略的兩大好處

文/ 若水 Flow AI Blog 編輯團隊

AI 產業裡的工程師每天都在做什麼?大部分的人應該認為是:「寫 Coding 演算法吧!」

其實在導入 AI 的公司裡,「取得訓練用的數據(Training Datasets)」才是佔絕大多數,因為只有乾淨、良好的 AI 數據用於機器學習(Machine Learning),AI 工程師或是數據科學家,才能確保自己建造的神經網路模型能夠預測出有價值的東西。

善用數據外包策略,模型開發更能事半功倍

AI 市場上需要機器學習的領域涉及廣泛,如自動駕駛汽車,發票收據識別,道路瑕疵檢測,互動電影推薦等需要許多來自不同領域的大量數據:由簡單到複雜、由普遍至特定專業領域的數據類型,如視覺影像、文字、音檔、感測器數據等。

說到底,工程師遇到的困難,就是人一天只有 24 小時。根據團隊觀察,愈成功好產品、越成功的 AI 公司,關鍵往往在於:比起完全花心力建立演算法模型,他們更專注在前期快速、大量地蒐集有用的數據!

但如何讓 AI 工程師及數據科學家,能擁有足夠經過訓練的數據,專注於改進模型呢?

「數據外包策略」(Data Annotation Outsourcing)的概念,為這項棘手的核心問題提供解答。將數據標註外包給專業團隊,有兩大好處:

  1. 透過專業團隊控管,釐清數據標註原則並確保標註品質
  2. 讓工程師可以專業分工,將時間精力專注在AI模型訓練上

數據外包後,如何確保外包商品質?

人工智慧是發展中的產業,許多 AI 專案的投入都處在研發或概念驗證(POC)階段,因此在讓電腦學習人腦的過程中,餵養數據和訓練演算法,必須仰賴雙向且多循環的驗證,不斷累積小成功才能讓 AI 專案順利進行。

因此,當企業考慮「外包數據」時,能及時回應和持續保持高品質產出,進而協助 AI 模型開發加速是重要關鍵。包括:前期數據標註原則的確定、數據收集、數據清洗,後段的圖資確認、標註成效回饋,都需要外包團隊的 PM 具備高度產業知識,及花費大量的時間與客戶頻繁的溝通以確保專案的成效。

不只與客戶對接需要專業溝通,外包團隊能否讓眾多 AI 數據標註師,在面對不同產業的數據時都能保持專業與品質,也是一大要件。若水 AI 團隊累積過去幾年處理上百個案子的經驗,透過科技與數據力,打造以下四項數據處理機制。

  1. 數據智慧派工:若水針對過往上百例的 AI 專案進行大數據分析,根據專案屬性由系統自動推薦擅長處理該數據類型的 AI 數據標註師並進行標註工作的指派。透過大數據智慧派案實踐「Right people in the right loop」的精神,並提升專案管理的效能及數據標註的品質。

  2. 線上工作平台即時監控:為了同時與全台數百位居家遠距的 AI 數據標註師即時互動,PM 除了線上即時監控標註師的工作狀況,以確保產能符合交付期程外,全數位化的流程設計,當專案出現問題時可以直接找出問題點即時處理,後續也能不斷優化流程。

  3. 多元智慧標註工具:為了解決 AI 數據專案的多元性,整合對身障者友善的 UX/UI 智慧標註工具箱,提升數據標註的品質與速度。

  4. 彈性人力後援制度:除了導入科技工具強化管理效能外,當產線出現問題時,後援機制隨時能夠進場讓產線快速恢復產能。若水以資深 AI 標註師及標註品管人員(QC)組成「機動後援小組」,他們因過去豐富的 AI 數據標註經驗,累積了專業的標註技能及深厚的產業知識,因此能夠在專案出現狀況時,快速的補位進入專案中,協助提升產能並確保專案品質。

當人工智慧產業發展與需求不斷變化,不只開發團隊,合作的數據外包團隊也需要與時俱進,才能夠彼此產生良好且即時的回饋,為 AI 模型落地助攻。

💡 延伸閱讀
1. 根據 Forrester Research 今年 7 月的報告指出,SaaS、PaaS、IaaS 三種公眾雲的市場規模,將於 2020 年達到 2,994 億美元 ➡️➡️ 來看雲端市場會有什麼重大變化
2. 圖像辨識和深度學習將讓醫療篩檢自動化,未來甚至走向麥當勞化,造福弱勢族群! ➡️➡️ 搶救百萬失明人生,印度眼科醫院聯手 Google 打出 AI 篩檢

當 5G 來臨 有數據策略才能讓 AI 更成功

台灣最精準AI數據處理平台,如何透過UX用戶回饋持續優化?