上圖左是美國賓州大學的一篇針對生物相關資料集,比較不同演算法的研究報告,可以看到雖然Gradient Boosting Classifier,可以在最多的51個資料集上得到最好的表現,但是不同的演算法還是能在其他數據集上有更好的表現。
上圖右是2019年Google 數據科學家在推特上發布一項,關於Kaggle舉辦的眾多比賽中,前五名隊伍使用演算法框架的調查結果,可以看出雖然最多隊伍利用深度學習框架Keras得到好成績,但是Tree base的LightGBM和XGBoost,分別有第二和第三多的隊伍使用。
如果你的商業問題,已經被證實可以用特定類型的演算法,達到很好的表現,那就先嘗試那種演算法去做POC。若否,那就使用最基礎的方法,一個一個演算法下去嘗試。
總之,讓你的第一個模型簡單一點,而且建立正確的AI數據處理流程,才是重點。
接觸機器學習以來,每天都有新的演算法出爐,讓人看得眼花繚亂。因此,很建議企業花半年左右的時間,建立自己的「AI工具箱」,幫各種屬性的演算法做分類。建立AI工具箱,不一定要全部試用過才算,但至少分類完畢後,會更了解哪些演算法有哪些特性,當新的演算法問世,才能快速類比兩者之間的異同。
AI工具箱不只對工程師有益,對專案管理者來說,也是必要的知識。即使建構上會花一些時間,有了AI工具箱,在選用演算法時會更有底氣,明確知道該先嘗試哪一類的演算法,整體專案效率也會更高。
介紹完數據特徵和演算法的選擇,接下來要和大家分享,如果AI模型學歪了,該如何校正?下一篇AI數據實戰攻略,期待再見。