如果人生的經歷是本小說,那麼,翻開英業達人工智慧中心AI長陳佩君(Trista)的版本,主題應該是關於:如何勇敢選擇。
畢業於以人工智慧聞名的卡內基美隆大學,待過美國 Intel,在 NVIDIA 成為第一位視訊處理器架構師。之後,在矽谷創業的公司也被高價收購。然後呢?
故事到此,陳佩君本來打算就此回花蓮老家種田,沒想到意外加入了英業達,一頭栽進全新的製造業AI領域。問及此刻的心情,她眼裡依舊有光,說:「不覺得很熱血嗎?」。天生內建的 data 魂,讓她連去醫院看診,都忍不住一直觀察、思考如何透過數據,評估就診流程、優化醫囑成效。
若水 AI Blog 編輯團隊此次專訪,好奇這位在電腦視覺領域深蹲超過 20 年、有 AI 商業實務經驗的俠女,怎麼帶領 AI 中心與事業群協作,找對命題,讓 AI 專案成功達到企業的標準?
問:加入英業達的契機是?能不能介紹一下公司內部導入AI的架構現況?
答:我之前在矽谷帶OpenCV的團隊,幫NVIDIA做出第一顆影像處理器,也自己創過業,和電視公司或編劇合作,用每毫秒為單位計算數據,去觀測美國不同地區的人看電視節目的喜好。當時白天忙著解決問題,晚上忙著寫論文投期刊,但幾乎都是聚焦在多媒體影音和圖像領域,比較少有機會接觸製造業企業內部。
台灣製造業其實有很多待挖掘的珍貴數據,也就是把一件事情、一個產品做好的經驗值被記錄下來的數據,像鍋爐的溫度、原料的規格比例。當時就想說,如果我可以站在巨人的肩膀上,把數據金礦挖出來,那不是超帥的嗎?(笑)
接到英業達的邀請,覺得這好好玩,有好多東西可以學。想在沒有嘗試過的領域,或許會有什麼新的東西跑出來,於是就一頭栽進來了。
我們的人工智慧中心在集團中心,和筆電、伺服器、智慧裝置等其他事業群是橫向合作關係。因為一間公司要導入AI,不論專案大小都會牽涉到整體體制的改變,需要思想和行動上的配合,用由上往下的方式在內部設立AI團隊,整合起來比較動態、敏捷。
人工智慧中心的編制大約20人,看起來並不大,但AI專案在和各單位合作的過程,會打破既有的人員編制疆界,例如工廠會協助做產線整合,工程師會協助導入工廠IT系統等。通常一個專案會有10幾個人,其中的2到3位核心成員是中心的工程師。
一般同時會有10幾個AI專案在跑,再加上對外合作專案的人數,基本上相關人員破百人,但還不夠,還會繼續長大。因為我們的命題其實很多,其實還有一些是解不完的。
這些命題大致可分為智慧製造相關,和前瞻性命題兩種。也就是所謂的AI產業化,透過製造業的科技化、AI化來降低成本,以及產業AI化,做出真的能夠落地的AI產品或軟體/硬體服務。
問:怎麼找出這麼多的AI命題,而且判斷出那些是「重要的命題」?
答:企業和研究單位不一樣,有很明確的KPI指標,事業群要幫公司節省成本或創造利潤,所以我們的AI專案會蒐集各事業群的需求,其中有些很緊急必須做,有些比較是nice to have,我們會用這些作為衡量AI專案做與不做的指標;另外前瞻計畫的部分,指標無法衡量,則需要vision往未來看。
舉例來說,光是筆電瑕疵或工廠成品瑕疵的題目,也還有非常多的發展空間,粗估這個題目目前只做了30%,還有70%的延伸領域是待開發的,例如產品系統、核心架構等。
至於前瞻的專案,則要大膽佈局、小心規劃。比較省力的方式是把同樣的技術,延伸到不同的應用領域,長出新的命題。例如把筆電瑕疵的影像換成醫學影像,就變成了腫瘤檢測AI,所花的時間人力成本也相對不那麼大。
問:AI中心怎麼和生產端協作,真正解決商業問題?
答:協作其實是一種動態過程,我們比較像是演算技術團隊,一開始對流程完全不懂,也根本不知道產線端有人負責撕膜、裝箱,是幾次合作之後邊做邊學,才發現這些事。
產線端對AI中心寄予厚望,覺得這個問題AI可不可以幫我們解,可是最重要的是持續溝通。透過溝通,才會發現有些問題可能是自動化的問題,有些可能是流程,有些來自工業工程,也有部分我們的確是可以幫得上忙的。
所以不會為了AI而AI,而是要篩選出AI真的能運用的地方。
這麼說可能有點好笑,但其實每個AI專案都會讓我很興奮(笑)!
例如筆電的瑕疵檢測AI,因為我的背景是軟體和演算法,所以當做出第一代瑕疵檢測機的原形,把演算法擺進去,螢幕上顯示偵測出來的有瑕疵的Bounding Box,我們都快要流淚了,想說It really works!後來才以這個為基底做出了第二代,可以和輸送帶相連、直接上產線的成品。(延伸閱讀,Trista團隊的最新研究力作:Demystifying data and AI for manufacturing: case studies from a major computer maker)
一開始,團隊經常討論標註原則,影像中三個相鄰的物體應該要被標成一大塊,還是兩個或三個目標物件?大家試著用提高數據品質的方式,來解決問題。也嘗試演算法能不能把該物體辨識成一種特徵。
但這種時候,很需要「think outside the box」。與其試圖區分要一個還是三個,糾結於會變動、有模糊地帶的原則,不如把這些目標物件都標註為異常,問題就豁然開朗了。改變標註原則之後,再回來調整演算法。
如果有些問題不適合用AI來解決,反而要從流程或其他地方下手。
舉個實際的例子,筆電出貨前會先貼膜,但做瑕疵檢測時不可能貼著膜檢測,所以需要先撕膜,檢測完再出貨。可是在重複撕貼保護膜的過程中,如果灰塵跑進去了,或是說指紋跑進去,又會變成瑕疵。
所以我們調整流程,讓整批筆電都做好了再檢測,不要重複撕貼保護膜。所以在做AI不是埋頭苦幹,而是想我怎麼從流程上來改進,或是我做好的東西,可以怎麼整併到流程裡面,減少問題。
至於專案的主導,我覺得需要互相看狀況,例如產線端有很嚴格的流程要遵守,AI也並非產線的專業領域,如果突然叫他嘗試一些開放性的作法,像是更換產線的位置或順序,其實比較容易卡住。
而且技術端想出來的解方,有時候也不一定真的適合實際情況,需要雙向溝通。但因為大家要把事情做好,後來我們的默契是,哪邊的人比較忙,另一邊的人就來主導。先做出一個解方做測試,這個解方不一定要能成功運作,但另外一邊的人要配合或給回饋,像跳舞一樣互相領舞。
問:怎麼收集數據和訓練模型,達到企業要求的指標?
答:企業需要做出具體成果,AI技術面基本上大家都懂,難的是要如何把不同的技術兜在一起,達到商業目標。而最重要的是:你的專案達成指標,有沒有訂對?
以AI模型來說,我們看醫生的時候,如果第一位醫生的診斷品質不佳時,你會想要再去找其他一兩位醫生診斷,回來做綜合評估。AI也是一樣,就算一個演算法的正確率高達97%,很可能沒有意義,在它基於某標記者的訓練資料可能有偏差的狀況下,如果由一個標記者評斷,可能正確率就只有65%,就好像是一個醫生與另一個醫生的判斷有出入一樣。
所以,要不是找一個判斷很準的演算法,就是要找「三個臭皮匠」,把兩、三個不同演算法的結果綜合起來,產生出一個比較好的結果去學習,所以要達到精準度的方法有很多種。
而有時候問題的關鍵在於,你訂錯題目了。可能這個問題不適合用Accuracy rate來算,重點可能是Precision recall,譬如說產線不能漏掉任何一個瑕疵,Recall要做到百分之百,所以如果用Accuracy當指標,專案就會歪掉。在想模型表現的時候,要去看實際應用場景是哪個指標重要,當你問錯問題的時候,其實出來的performance是沒有意義的。
工廠的機器,本來就會有存一些數據,或是品牌會儲存一些報告,散在不同系統裡面。所以我們通常第一件做的事情就是盤點出有用的數據,假設真的不夠的話還是要去買,或是請人做數據標註。那如果量不是很多,通常會自己先標一些,知道標註的原則,再來決定要不要請外包廠商標註。
許多人會說大數據比小數據好,但不一定,其實還是要回到數據是用在哪種命題,還有數據的品質來看。
例如開發電腦視覺的APP,在收集數據時,難免遇到照片模糊,或者相機不知道該對焦在哪裡。以一般直覺,可能會想要從現場的相機來解決,拍攝更大量多角度的照片。但其實有更直覺的解法,深度學習的演算法很多時候並不需要對焦的相片就可以做判斷,就像睡眼惺忪的人眼,其實還是能區別咖啡杯跟一朵花的差別!
問:身為AI長,對未來發展有什麼期待?
答:我覺得可以分成兩個方向來講,例如美國和歐洲AI技巧領先的大公司或是新創,他們想做製造業、醫療的應用,但是因為當地個資保護法非常嚴格,很缺這類的數據。當然台灣也很嚴,但我們的嚴格主要來自企業內部。台灣製造業和科技業非常強大,卻有非常多珍貴的數據閒置,這很可惜。所以我想要利用這些數據,替公司做出一些成效。
另一方面跟我在美國經驗有關。美國AI產業以服務或是軟體為主,缺乏硬體方面的專長而多數需要外包。以老人看護的醫療穿戴裝置為例:有場域的醫療照護單位,沒有硬體開發能力;有硬體設備的公司,沒有場域;有軟體演算法開發能力的研發團隊,沒有硬體開發能力。總而言之,即使有再多的硬體裝置做居家監控,如果無法即時取得不同時間帶的使用者數據,軟體和硬體之間就整合不起來。但我現在站在巨人(英業達)的肩膀上,我可以自己做裝置,每毫秒的raw data,要用什麼機電裝置來達到成效,全部都可以自己做,就覺得超帥的。所以我現在主要做的是這兩件事。
問:最後想請問有沒有什麼經驗,想分享給未來的工程師們?
答:我覺得AI世界其實很像金庸武俠小說。武功很好或是很擅長比武的人,像郭靖那樣,其實學習的招式不需要很多,關鍵在於精通。
這樣比喻,是想建議大家不要去追逐表面的光榮,因為現在AI或是電腦視覺的研究論文更迭速度非常快,每三個月就會打敗前三個月的演算法,但如果回到AI的本質去看,其實是數學、統計學和神經網路,這些都是基礎功。
如果你去Linkedin看AI人才的徵才需求,雖然傳統的電腦科學或是電機工程也有,但其實有一半是基礎科學,基礎科學裡面還有一半是神經科學出身,當然物理跟數學更不用講。這就是我剛剛講的,郭靖的基礎功,你要去變出一個演算法,三個月把人家打敗,一定是要對基礎功要非常熟悉,知道這個數學背後的insight是什麼,而不是亂調參數就好。
要對招式的特性有瞭解,你的長矛才可以刺得很遠。
💡 延伸閱讀:
專訪Beseye執行長:AI落地專案的成功與挑戰,來自於人們經常忽略的「小數據」
數據教我的三件事,這麼做讓 AI 落地更精準!
專訪台灣智駕Turing Drive技術長:了解情境需求並掌握「對的數據」,AI技術才能落地商轉