in

多少才夠?數據防疫先行者教我們的事

文/ 若水 Flow AI Blog 編輯團隊

神秘的新型冠狀病毒猶如一把野火,跨山過海,快速延燒全球。

跑得快的新創企業或研究機構,早已用數據築起防疫的第一線,像Health Map, Blue Dot全球病毒計劃,最近就成了不少媒體報導亮點。從數據處理的觀點,你我可以向這些數據防疫的先行者學習到什麼?

最近,哈佛商業評論以「資料競爭力」為專題,文章一開場就點出,正當多數高階主管和投資人都假定,可收集到的資料愈多,用機器學習工具分析這些資料之後,就能提出更好的產品和服務,但,「 這種假設通常是錯誤的,在大多數情況下,人們都過份高估了資料帶來的優勢。


當人對數據有感,才能開啓優勢

數據少,構不成學習條件;數據多,又不一定有優勢,如何讓使用者對數據有感,顯然是一大關鍵。Health MAP 就透過數據視覺化,讓人們即時看見全世界的健康。

「這個領域正在劇烈轉變,」波士頓兒童醫院創新長、哈佛大學醫學院教授伯恩森坦(John Brownstein)說。

17年前,SARS奪走774條人命後,其團隊創建了全球疫情監控工具 HealthMap,訴求「Global Health, Local Knowledge」。

「在SARS期間,缺乏來自中國的大量數據,」伯恩斯坦解釋,沒有數據,AI遂無用武之地。同理,一旦過份依賴官方資訊,若因政治因素而無法取得正確數據,更可能垃圾進,垃圾出,造成預測失準。

乘著多元即時的海量線上數據,AI強勢進場,跟病毒拼速度。

WHO的開源流行病情報(Epidemic Intelligence from Open Sources)計畫,以及七大工業國組織(G7)、墨西哥、歐盟與WHO跨國合作的早期預警通報(Early Alerting and Reporting)計畫皆納入了HealthMap的即時監控數據。

伯恩森坦和團隊再利用AI,從新聞報導、官方報告、社交媒體中撈出剛冒出頭的疫情火花,並將散落一地的數據,視覺化為一張張地圖。在新型冠狀病毒的 全球監控地圖 上,爬滿色彩斑斕、張牙舞爪的圓點。

「現在,我們隨時都在挖掘新聞和社交媒體……我們用機器學習採集所有訊息,並加以分類、標註、過濾,再將訊息傳給在WHO的同事,由他們每天檢視和評估這些訊息,」伯恩斯坦說。


讓數據說人話,才能進一步預見未來

然而,有些人並不滿足於追趕疫情現況,他們想要進一步預見未來。

去年12月31日,加拿大新創公司BlueDot針對武漢肺炎發出預警。早了美國疾管局7天,WHO 10天。當天上午10點,包括加拿大衛生署、加拿大疾管局、新加坡衛生部、菲律賓衛生部和東南亞國協等都接到這份「關鍵報告」。

BlueDot是一套傳染病預警平台,運用自然語言處理和機器學習,讓數據和電腦「說人話」。

每天自動監測全球65種語言,閱讀高達10萬篇的地方新聞、政府公告、動植物疾管網絡等資訊。透過掌握語法結構和語義,再利用前後文的統計特性,運算各詞彙的相關性,在字裡行間找尋100多種傳染病的蛛絲馬跡,其中甚至包含無名傳染病。

接著對照航線和全球飛航訂票系統,預測病毒的散播路徑,再結合氣候、地理、人口、病媒蚊數量、牲畜訊息、各國防疫能力等多重因子,預測某個感染病例導致該區爆發傳染病的機率。BlueDot成功預測了新型冠狀病毒何時會在曼谷、首爾、台北和東京落地。

AI加速了疫情偵測的腳步,「該流程每15分鐘進行一次,24小時不間斷,」BlueDot創辦人暨執行長汗(Kamran Khan)說,「若換成手動,大概需要100多人才能完成。」

時間回到2003年,剛入行,回到多倫多執業。「這個從來沒人見過的病毒(SARS)也隨後而至……我在前線親眼看見它如何危害我們的城市,我的一個同事還被感染。謝天謝地她活下來了。」他仍記得當時身心上巨大的疲憊,心想:「希望不要再來一次。」

在「資料競爭力」專題中,提出7個指標,協助思考如何運用數據發揮企業優勢。最後一點:

取得的見解能多快整合到產品裡?

BlueDot就靠著打組織戰,放大從數據找到的insight。

近看BlueDot的組織架構,就是個把醫療專業和AI技術融合的多元創新團隊。裡頭有人懂公衛、藥學、流行病學、數據科學、空間分析和軟體開發,再外掛一個懂醫療健康產業、政府運作的諮詢委員會。

當AI篩完資料、初步分析,即由專家小組接手把關,確定結論是否經得起科學檢視。

本身就是感染科執業醫生與多倫多大學流行病學系教授,小組中還有流行病學家、獸醫師、生態學家等專家。「(AI的)數據分析讓公衛專家能將時間與精力集中在傳染病風險的因應策略上,而非花在收集和整理資料上」。


全球病毒計劃,建立專有數據庫

還有另一群走在更前端的科學家,矢言「摸清地球上大多數未知的病毒威脅」,企圖對野生動物身上的160萬種病毒威脅進行全面分類。

儘管備受爭議,官網也少見更新,這項長達10年,預算高達34億美金(約1034億台幣)的全球病毒計畫(Global Virome Project)一旦完成,將建立起史上最大的病毒數據庫,並用來訓練AI預測哪些病毒最可能傳人。

全球病毒計畫並非單一國家或組織的計畫,其倡議者涵蓋歐亞美非的產、官(美國國際開發署)、學、國際非政府組織(聯合國糧農組織、WHO)等部門的人員。

2018年,GVP在頂級國際學術期刊《科學》(Science)上提到GVP將於同年正式啟動,在中國與泰國鄉間大量採樣。

幾位發起人在WHO隸屬期刊的發表論文中指出,GVP從野生動物(鎖定哺乳類和鳥類)的糞便、血液和喉嚨分泌物取樣, 再用AI去進行病毒基因定序,進行比對、分類、運算和已知人畜共通病毒株的病理相關性、找尋共通的特徵圖譜、致病功能、傳播路徑等。

在生與死之間,這些數據防疫者的切身經驗,值得參考。


圖/ MIC資深產業分析師兼專案經理 施柏榮

從這三個用數據防疫的AI案例,有三點值得思考:

1, AI在各個領域落地的過程,會需要不同的Domain Know-how,這部分將會涉及組織、協作架構的異業整合,也才能調校出一個符合實際需求的AI模型與推論。

2, 當AI進入到人類生活之中,面對的問題也將愈複雜。因此,如何考慮、融合(Fusion)不同的數據類型與來源,並且進一步調整演算法、標註方法,會成為必然碰觸到的問題。

3, 打開AI產業價值鏈,會發現它是一個軟、硬體整合的過程,如BlueDot要用AI同時收集、分析大量的數據,也攸關底層硬體運算能力是否足夠。

圖片來源:NEWSCBCBlueDot官網skeeze from PixabayHalcyon Marine Healthcare Systems from PixabayCDC on Unsplash

【數據處理的策略思考】 掌握3大數據特色 發展智慧交通更順暢

科技與人權之間的拔河,你打算參與什麼樣的未來?