工程師自己標註AI數據，划算嗎？數據外包策略的兩大好處

AI 產業裡的工程師每天都在做什麼？大部分的人應該認為是：「寫 Coding 演算法吧！」

其實在導入 AI 的公司裡，「取得訓練用的數據（Training Datasets）」才是佔絕大多數，因為只有乾淨、良好的 AI 數據用於機器學習（Machine Learning），AI 工程師或是數據科學家，才能確保自己建造的神經網路模型能夠預測出有價值的東西。

善用數據外包策略，模型開發更能事半功倍

AI 市場上需要機器學習的領域涉及廣泛，如自動駕駛汽車，發票收據識別，道路瑕疵檢測，互動電影推薦等需要許多來自不同領域的大量數據：由簡單到複雜、由普遍至特定專業領域的數據類型，如視覺影像、文字、音檔、感測器數據等。

說到底，工程師遇到的困難，就是人一天只有 24 小時。根據團隊觀察，愈成功好產品、越成功的 AI 公司，關鍵往往在於：比起完全花心力建立演算法模型，他們更專注在前期快速、大量地蒐集有用的數據！

但如何讓 AI 工程師及數據科學家，能擁有足夠經過訓練的數據，專注於改進模型呢？

「數據外包策略」（Data Annotation Outsourcing）的概念，為這項棘手的核心問題提供解答。將數據標註外包給專業團隊，有兩大好處：

人工智慧是發展中的產業，許多 AI 專案的投入都處在研發或概念驗證（POC）階段，因此在讓電腦學習人腦的過程中，餵養數據和訓練演算法，必須仰賴雙向且多循環的驗證，不斷累積小成功才能讓 AI 專案順利進行。

因此，當企業考慮「外包數據」時，能及時回應和持續保持高品質產出，進而協助 AI 模型開發加速是重要關鍵。包括：前期數據標註原則的確定、數據收集、數據清洗，後段的圖資確認、標註成效回饋，都需要外包團隊的 PM 具備高度產業知識，及花費大量的時間與客戶頻繁的溝通以確保專案的成效。

不只與客戶對接需要專業溝通，外包團隊能否讓眾多 AI 數據標註師，在面對不同產業的數據時都能保持專業與品質，也是一大要件。若水 AI 團隊累積過去幾年處理上百個案子的經驗，透過科技與數據力，打造以下四項數據處理機制。

數據智慧派工：若水針對過往上百例的 AI 專案進行大數據分析，根據專案屬性由系統自動推薦擅長處理該數據類型的 AI 數據標註師並進行標註工作的指派。透過大數據智慧派案實踐「Right people in the right loop」的精神，並提升專案管理的效能及數據標註的品質。
線上工作平台即時監控：為了同時與全台數百位居家遠距的 AI 數據標註師即時互動，PM 除了線上即時監控標註師的工作狀況，以確保產能符合交付期程外，全數位化的流程設計，當專案出現問題時可以直接找出問題點即時處理，後續也能不斷優化流程。
多元智慧標註工具：為了解決 AI 數據專案的多元性，整合對身障者友善的 UX/UI 智慧標註工具箱，提升數據標註的品質與速度。
彈性人力後援制度：除了導入科技工具強化管理效能外，當產線出現問題時，後援機制隨時能夠進場讓產線快速恢復產能。若水以資深 AI 標註師及標註品管人員（QC）組成「機動後援小組」，他們因過去豐富的 AI 數據標註經驗，累積了專業的標註技能及深厚的產業知識，因此能夠在專案出現狀況時，快速的補位進入專案中，協助提升產能並確保專案品質。

當人工智慧產業發展與需求不斷變化，不只開發團隊，合作的數據外包團隊也需要與時俱進，才能夠彼此產生良好且即時的回饋，為 AI 模型落地助攻。

💡 延伸閱讀
1. 根據 Forrester Research 今年 7 月的報告指出，SaaS、PaaS、IaaS 三種公眾雲的市場規模，將於 2020 年達到 2,994 億美元 ➡️➡️ 來看雲端市場會有什麼重大變化！
2. 圖像辨識和深度學習將讓醫療篩檢自動化，未來甚至走向麥當勞化，造福弱勢族群！ ➡️➡️ 搶救百萬失明人生，印度眼科醫院聯手 Google 打出 AI 篩檢