1. 你要什麼樣的AI數據?
根據過往經驗,在實際應用場域裡面,AI之所以表現不好,很高機率是因為演算法沒有看過實際場域的數據,所以快速上線收集實際數據是AI專案成功最重要的步驟。
機器學習,有些人在意的是數據量體,有些人追求數據多樣性,各取所需。但更好的作法,其實是透過「數據取樣」去提升時間及資源運用。
假設眼前有2億筆資料,過去我們會全部送進去訓練;現在改成取其中具有代表性的500萬筆,去訓練AI模型,結果表現差異不到1%,而現在市面上許多工具可以幫忙做數據取樣,會省時省力許多。
2.從商業價值、成本取決停損線
「訓練AI模型,需要多少數據?」篇提到,進行AI專案前,要先根據商業命題,定義AI專案指標。以AI模型為例,常用到的有TP(True Positive)、TN(True Negative)、FP(False Positive)、FN(False Negative)等指標。但是要定義FP、TP等指標,其實不容易。
以Email防毒AI為例,如果同時有勒索和廣告訊息兩種選擇,應該要擋下勒索訊息,還是擋下廣告訊息重要?實務運作上,要讓PM來決定指標,而AI模型指標,必須反應企業要追求的商業價值。
從營運成本來考量,如果AI模型表現做到60或70分,發現有助於下降成本,那就不一定要追求90分的表現。如果要做到90分,但成本太高,就不要硬做。記住,模型成效不用追求技術天花板,而是要達到關鍵效益,且符合成本效益。
3.從初始問題開始驗證
整套AI模型做完了,該怎麼知道有沒有發揮成效?此時應該回到要解的「問題」來看。
一開始不要一下子做到滿分,而是摸著數據過河,透過小型POC專案測試,驗證是否可以達到商業目標門檻?如果可以,再決定要不要投資下去。
過程如果不如預期,就用DevOps快速調整,決定下一季是否要轉換,用動態彈性的方式,回應市場和顧客的需求。
當AI上線,所謂的目標可轉為由市場、顧客滿意度來定義。上述三點都隱含著「DevOps」的開發精神和團隊共事流程。
(延伸閱讀:如何以終為始,做出精準數據標註 ? )