圖片來源:若水國際

2021年台灣人工智慧年會分享:數據核心AI的時代來臨!AI大神們這麼說

文/ 若水AI產品經理沈柏均、若水 Flow AI Blog 編輯團隊

身為若水的產品經理,我和RD夥伴們每周固定有個小聚,彼此一起交流技術和產業動態。最近大家參加了2021年AIA台灣人工智慧年會的幾場演講,也陸續看了幾場演講、文獻,彼此都注意到,「數據核心AI (Data-centric AI)」的概念,在台灣愈來愈多人提及了。

什麼是數據核心AI ?簡而言之,相較於以演算法為核心的AI (Model-centric AI),數據核心AI更著重於數據處理的正確度,與數據週期的迭代。

站在台灣AI產業的數據處理第一線,我們從不同產業的AI客戶身上了解到:

數據流貫串了AI開發生命週期,而且會直接影響到客戶的AI模型成效。

曾有人體辨識的客戶和我們說,用不同標註數據訓練的前後成效差異,有時甚至會達到20至30%。如今,業界已然發現,從數據為核心思考,可以為AI落地帶來更大的效益。

吳恩達(Andrew Ng)在演講中提到,如何策略性的取得數據,是當代AI公司非常重要的一環。吳恩達底下的AI團隊在數個專案中,分別用數據核心AI、模型核心AI兩種概念做A/B測試,最後發現,改善數據帶來的最終成效,通常遠大於改善模型所帶來的成效。

而在這篇文章裡面,前趨勢科技資深技術經理、現任TOMOFUN CTO的張佳彥也曾提到思考數據的重要性:「在開始 AI 專案之前,首要問題是我們有沒有數據?是否已經準備好建立數據流?如果沒有這樣的能力,談AI人工智慧其實有點好高騖遠。」

數據核心AI越來越重要的3個原因

為什麼數據核心AI的重要性與日俱增?我們綜合觀察,發現有3個主要原因。

首先,企業在規劃AI產品時,其實不缺AI模型,因為市面上多數開發團隊,都習慣用改良模型本身架構的方式,來提升AI成效。但這也造成了另一個問題:企業最缺的可能不是模型,而是實際場域的數據。

數據貫串了收集、標註、管理、變化(Augmentation)等階段,一旦任一階段餵給模型的數據有偏差,或是比例不均,就會造成AI模型表現不佳;如果企業找不到有效率的方式處理AI數據,將影響到核心開發或專案進度,成為拖累AI競爭力的瓶頸。

再者,台灣企業如果要發展AI,數據核心AI的概念似乎更重要。為什麼這麼說?

台灣有98%的公司都是中小企業,能投注在AI的成本有限,不像大型跨國企業,能耗上龐大的研究設備、人力與實驗成本,或是砸海量數據去訓練。因此,用有限的AI工程師,利用既有的AI模組以達到第一步效益,是中小企業的優先選擇。而中小企業擁有的數據,也會與最後產出的AI價值高低,有最直接的影響。

第三,數據根據不同的開發階段和稀缺性,可以順勢創造出策略性布局。

意思是,在醫療、人社等產業領域,因為數據形態特殊,其AI模型仍處於早期研發的階段,所需的AI專業度也更高。

這時,善用早期研發階段來定義數據決策,並清理、標註數據,其實是一個好時機。這些特殊數據是價值的來源,不只可以做為訓練特殊領域AI模型的要素,同時,也可以被套用在其他常見之AI模型中,創造更多價值。

數據核心AI的思維,還有哪些優點?

要確保數據能夠發揮AI模型的價值,「數據標註品質的一致性」就顯得十分重要。然而,數據標註量大且繁複,通常不會由同一位工程師負責,而是交給數個人協力,或者外包給標註團隊。

如果沒有在一開始具備數據核心AI的思維,很容易只關注AI模型開發,而忽略數據標註的流程設計,導致辛苦標出來的數據不到位,要花額外成本回頭修正。而且,在實際場域的數據量通常不大,所以餵進模型的髒數據(Dirty data),造成的誤差會更明顯。

以數據核心出發,可以更準確判斷成效,也可以省下實驗成本。比較常見的作法,是用確認過品質一致的數據(Clean data),先做出第一版基礎模型(Baseline model),再透過訓練結果來回推,找出在標註數據環節是否有問題,例如標註方式不對,不同數據類型的比例太偏頗等等。

若水的專業是數據處理和科技流程創新,我們從AI業界的先驅者以及客戶的身上,學到很多關於AI模型落地的「眉角」,整合成以下2點:

  1. 數據建置階段,如何思考、產出品質一致的數據?
    確定AI命題後,首先要思考命題的情境屬於哪一類:不會變動的、會變動的?以此決定該如何建立數據流,有了數據,再來準備AI模型開發。

    同時,需要思考如何善用數據外包策略,從收集、清理到標註數據做到品質一致。過程中,需要不時確認階段性訓練目標,並善用科技工具和流程設計做輔助。
  2. 模型訓練階段,如何調整數據及模型,讓模型更為貼近實際應用場域?
    數據、特徵和演算法是AI訓練的三要素,當模型訓練成效不佳,需要思考問題出在哪裡,是數據還是模型?

    建立第一版基礎模型(Baseline model)後,根據不同產業需求,可以嘗試回頭優化數據標註與特徵,也可以回頭檢查模型本身是否有Over fitting或Underfitting的問題。
AI訓練的三要素(圖片來源:趨勢科技)

身處產業第一線的RD,可以做些什麼?

對於若水來說,PM負責與客戶精準對接數據標註需求,並確保標註原則和專案流程的安排,能夠產出具備品質一致性的數據。而RD則是AI團隊的效率加速器,幫助團隊優化工作流程與使用界面,做出自動化流程或加速用的智慧標註工具。

最近幾年,我們發現台灣的數據標註在某些特定領域,例如醫療應用,有越來越深化的傾向,難度也更高了。過去可能只是標註人體骨骼或X光片,現在會進一步到連續影像的內臟判斷,或是CT電腦斷層等。對於數據處理的精準度與速度,也有一定的要求。

若水基於「Tech for Good」的創業理念以及AI市場端的實際需求,往年,團隊花了比較多心力在優化自家的AI智慧工具模型和數據標註平台,透過友善的UX/UI介面設計,讓全台的身障AI數據標註師們,能夠減輕自身障礙帶來的手速限制,提升標註效率。

而今年,我們更著力在基於數據核心的思維,進一步優化流程,將數據處理做得更精確更有效率。我們進行了一些自動化項目,例如,當人體辨識專案根據流程分工,將數據標註師分為拉框、標籤判斷和人體關節點的三條產線時,RD會協助進行每條產線和不同標註工具之間的串接,確保串接順利,也省下人工對接的時間。

以及,將具備規律性、可以被用邏輯判斷的標註環節程式化,減少重複動作和判斷的時間。像是車牌辨識專案,RD會將車牌上的英數號碼整理成邏輯樹,利用程式做初期判斷,讓標註師可以專心在模糊、高難度的號碼判斷上。

讓AI數據與模型共舞,發揮最佳綜效

當然,影響AI落地的要素很多,不能說搞定數據,就可以輕忽模型訓練,或者是其他內部或外部因素了。而且AI模型訓練本身是週期的更迭,過程並非數據核心AI與模型核心AI的二選一,而是兩者之間的不斷轉換、互補。

數據一直是AI專案中很容易被忽略的一塊,企業或許會期待餵大數據給模型,可以弱化髒數據的影響,然而在企業AI落地時,並不會馬上有大數據,或是本身就屬於數據量不大的應用類型。若是善用數據核心的概念,搭配正確有效的數據處理策略,將幫助企業更早也更精準得到AI模型成效的結果。

2021年台灣人工智慧年會的參考演講場次:

  • Retrospect and Prospect of Taiwan AI Research Centers
  • The Revolution of AI Using Synthetic Data and How It Powers the Future of Shopping
    鄭影 Ying Zheng / AiFi Inc Cofounder & President
  • The Future of Data-Centric AI
    Alex Ratner / Snorkel AI Co-founder and CEO
  • The Rise of AI+ Healthcare in China
    Henry Chen / Delos Capital Founder & Managing Partner
  • Artificial Intelligence facilitates Precise Treatment for the Critically Ill Patients
    唐高駿 Gau-Jun Tang / NYCU Hospital Superintendent

💡 延伸閱讀:
1. AI數據處理PM的日常:標註專案流程,還可以怎麼玩創新?
2. 3分鐘精華地圖:從數據的角度,看成功AI專案不可缺少的關鍵策略思維
3. 專訪Tomofun技術長張佳彥:如何建立數據回饋,落實獲利導向的DevOps生命週期?

專訪幻景啟動執行長:光場3D浮影和互動技術背後的AI與數據,讓電影《鋼鐵人》場景走進現實

【3分鐘看AI大事:元宇宙對人類發展好嗎?/與外國人輕鬆對話的時代就要來了 】