企業如何提前佈局,避免AI人工智慧的歧視和誤判?

作者:王茜穎

本文重點:
1. 全球司法盯上 AI 人工智慧,企業有必要瞭解,並在演算法的設計、開發、維護上提前部署和遵守。
2. 定義公平、力求數據代表性、檢視系統偏見,三大點降低演算法偏見的可能風險。
3.相較於人腦的黑箱,AI 人工智慧的黑箱還比較容易破解。藉由改善 AI 決策過程的公平性,有望翻轉系統性的歧視,成就系統性的公平,創造社會共好。

曾經的神卡 Apple Card 因為性別歧視風波而毀於一旦

去年 8月,Apple ( 蘋果 ) 與高盛銀行 ( Goldman Sachs ) 合作,在美國發行「Apple Card」。

(圖片來源:Apple Card Society

Apple ( 蘋果 ) 與高盛 (Goldman Sachs) 共同推出的 Apple Card 

不到 3 個月,這張號稱「史上最成功的信用卡」跌下神壇,用戶舉發該卡的演算法疑似性別歧視,明明條件相當,女性的信貸額度卻遠低於男性。該醜聞在推特 (Twitter) 上引發熱議,遭批「他媽的性別歧視」、「徹底搞砸」,公關災難不說,紐約金檢局 ( NYDFS ) 亦展開調查,追究法律責任。

「無論是有意或無心,任何演算法只要歧視女性或其他特定族群,皆違反紐約州法。」發言人藍斯沃(Linda Lacewell)表示。

(圖片來源 : Twitter@Linda Lacewell)

Apple ( 蘋果 ) 和高盛 ( Goldman Sachs ) 的回應讓情況更加疑點重重——似乎沒有人能說清該演算法是怎麼運作的,並決定怎麼做出來的,整個決策過程宛若一個大黑箱。最後,高盛銀行指稱該演算法的變項中並未納入性別。

「既然機器不知申請人的性別,談何歧視? 」

「這個論點成立嗎?排除敏感變項就沒有歧視了嗎?」

AI 人工智慧的偏見學習來源於歷史至今的不平等

敏感的人口特徵即便未明目張膽地出現在標籤 ( Tag ) 裡,仍可迂迴地從其他高度相關的變項滲透到數據中。例如在美國,因為過去的種族隔離 ,所以種族和居住地 / 郵遞區號呈現高度相關。

( 圖片來源 :知乎

美國各族裔的人口比例和居住分布地

這些遮遮掩掩的偏見再經由訓練和測試,被「潛移默化」到演算法裡,最後以客觀、科學的姿態,並看似公正地決定誰能拿到貸款、錄取什麼學校、獲得工作機會、評估績效、裁量刑罰等。偏見的影響力被延續和放大,而且在自動化的黑箱 ( Black Box ) 過程中,自動複製。

「輸入的變項本身是否直接涉及歧視並不重要,演算法早有能力且已經自行推導出歧視來。」

接受美國財經雜誌富比士 (Forbes) 採訪,致力於揭開演算法黑箱的科技新創公司 Fiddler Labs 共同創辦人兼財務長帕卡 (Amit Paka) 說。

蘋果不是第一個,當然也不是最後一個出事的公司。

到底是誰教壞它?微軟機器人少女 Tay, 一天內變成種族歧視者

2016年,微軟 ( Microsoft ) 設計了一款青少年聊天機器人 Tay ,它會模仿年約 19 歲美國女生的說話方式,並藉由和推特 (Twitter) 用戶的互動自主機器學習。但沒想到,Tay 不到 24 小時,竟然變成一個滿口種族歧視的新納粹主義者;2018年,電商龍頭亞馬遜 ( Amazon ) 的招聘演算法被發現性別歧視,「女性」一詞遭到演算法懲罰,男性履歷中的常見用詞卻受到偏袒。

( 圖片來源 : TayTweets Facebook )
微軟 ( Microsoft ) 機器人 Tay 在推特 ( Twitter ) 上所發表的種族歧視等不當言論

微軟 ( Microsoft ) 機器人 Tay 會有這樣的學習狀況,可能與多年來,Google上充斥著「回教徒是邪惡的」、「希特勒是我的英雄」等飽含種族歧視和仇恨的自動搜尋建議的原因有所關聯。

AI 人工智慧的數據偏見議題,早已蔓延到全球司法…

不只是企業,連美國政府也出過事。美國獨立媒體 ProPublica 的調查報導指出佛羅里達州布勞沃德郡(Broward Country)用來預測再犯的演算法「司法不公」,在這套演算法之下,黑人被誤判為極可能再犯的比例幾乎是白人的兩倍,並進一步作為法官量刑、犯人能否緩刑、出獄等決定的參考。

司法部門已經盯上 AI。英國國會已經開始討論如何降低 AI 人工智慧所帶來的風險,並在「演算法的決策對個人造成負面影響,AI 和數據可能在犯罪,乃至自動化武器上的濫用,確認其法律責任」。

紐約市政府成立專案小組,企圖對哪些類型的演算法應受管制,市民如何「有意義地取得」演算法決策的解釋,以及當演算法的歧視損及個人權益時,政府應當如何介入等實質議題提出建議,最初紐約市議會甚至提議要求企業公布原始碼,確保決策過程的公開透明,以利監督和釐清責任歸屬。

(圖片來源 : 截自Youtube@Albert Einstein College of Medicine

歐盟《一般資料保護規範》(GDPR)第1322條規定凡涉及自動化決策,必須提供個人有意義的解釋,以及預期後果。今年二月,歐盟 ( EU ) 再度出手,提出《人工智慧白皮書》做出更詳細的規範,從數據訓練、數據與記錄保存、模型的完善與正確性、數據的完備性、到人為監督,要求提出證據說明相關的選擇、方法、流程、技術、乃至結果並不含歧視,不損及人權。

大勢所趨,企業有必要在 AI 數據與演算法的應用上做提前部署

以台灣的 AI 應用場景 (Application Scenario) 來看,現在這些聽起來或許有點遙遠,但若不提前了解或遵守,就有可能爆出去年 Apple Card 的性別岐視醜聞。從眾多文獻中,我們整理出以下建議:

1.  依照具體的公平目標來設計 AI 模型

「促進演算法公平性的重大挑戰之一就是定義公平的真正意義,」英國艾倫·圖靈研究所(Alan Turing Institute)研究員盧梭(Chris Russell)說。如何定義「公平」?以及如何用數學或演算法來定義「公平」?「目前文獻中有超過30種公平的定義,」盧梭說。

幾個常見的定義包括「一視同仁」(Group Unaware)、「人口配額」(Demographic parity)、「機會均等」(Equality of Opportunity)等。

一視同仁顧名思義就是不論你是誰,標準都一樣,例如聯考,此舉看似公平,卻對其中弱勢團體所受的不公待遇視而不見,且有redundant encoding 的問題。

人口配額即依不同群體的人口比例進行分配,簡單說就是配額制,避免 了redundant encoding,但對個人不公平。保障機會均等則是「選人不選黨」,只要是有能力的人,不管隸屬那個團體與否,入選的機率都一樣。這是較接近真正意義上的公平。近來,「反事實公平」(Counterfactual Fairness)也頗受矚目,其作法是追求改變敏感變項後(反事實),決策不變。

保障機會均等、追求反事實公平皆有助於改善AI的公平性,但具體細節有賴多學科的整合。Google建議將社會科學家、人文學者等專家拉入討論,以獲得多元觀點。此外,評估產品的潛在影響時,你該問這些問題:它代表了誰的觀點?代表什麼類型的數據?什麼被遺漏了?這項技術可能產生什麼結果?結果是否會因使用者或社群的差異而不同?可能會出現什麼偏見,負面經驗或歧視性結果?

(延伸閱讀:Alan Turing Institute 所認知的反事實公平 ( Counterfactual Fairness ))

理想很豐滿,現實很骨感,認清你無法滿足所有人,務實地鎖定目標年齡層、族群、語言等,力求公平,持續追蹤,並根據使用者的使用方式,不時更新訓練和測試的數據庫。避免對不同的群體套用不同的模型,無論在分析或公關上,這都是一場災難。

2.採用具有代表性的數據庫來訓練和測試模型

當心抽樣偏差!採用真實數據,並力求訓練數據中多樣性和代表性,避免忽略或扭曲特定性別、宗教、種族等群體的影響力,進而影響預測結果。研究顯示臉部辨識對少數族群女性的誤判率最高,原因可能就出在缺乏該族群的數據。當某個群體的代表性不足,可考慮加權,但加權的幅度越大,越容易放大某些雜訊,導致最後可能出現「叫婉君的特別魯蛇」的結論。

( 圖片來源 : Corsight 官網 )
研究顯示臉部辨識對少數族群女性的誤判率最高,原因可能為數據缺乏

視覺化、集群分析、數據標註皆有助於評估不同特徵、標籤和群體間所隱含的偏見或歧視。Google特別提醒要給予標註團隊清楚明確的任務、獎勵和反饋的機制,以確保標註的穩定、多樣和正確性。

「我永遠忘不了我頓悟 AI 偏見的那一刻」

前IBM Watson視覺辨識產品經理蘿絲威格(Alyssa Simpson Rochwerger)感觸特別深,,在產品推出的前夕,有人發現其中一個訓練模型的標籤居然是「魯蛇」,而且標註了大量的殘障人士!之後當然是人仰馬翻,從工程師到行銷,通通被拉來梳理成千上萬個數據標籤和百萬張圖像,又找出好幾個深水炸彈。

3.  檢查 AI 系統的偏見

組成多元、可信賴的測試小組對系統進行對抗性測試,並在單元測試中納入諸多極端個案。此舉有助於發現系統弱點,評估誰可能受到波及。

為求公平,有些研究者建議對於所有的群體,模型都必須滿足:相同的預測值,或是擁有相同的偽陽性(機器說有病,但真的沒病)和偽陰性率(機器說沒病,但其實有病)。

「然而要打開AI的黑盒子,深度抓蟲,不妨考慮向 Explainable AI 求助。」

以Apple Card的爭議為例,帕卡( Fiddler Labs 共同創辦人兼財務長 Amit Paka ) 向Forbes的記者解釋 :「信用卡的審查決定取決於一些條件(如年收入、信用評分等),在沒有Fiddler的傳統環境下,很難或幾乎不可能解釋每個變項為何又如何影響決策結果,」Explainable AI的技術則讓每個決策背後的原因無所遁形,還附帶因素分析。

「例如,年收入可能在決策上有20%的正面影響,反之信用評分則有15%的負面影響。」

(圖片來源 : Google Cloud

打開天窗說亮話後,開發者方能如手術刀般精準地辨識病灶,修正偏見;遵守監管單位對AI 決策過程須透明、能理解的要求;同時也是對使用者負起告知義務,建立用戶信心,並在追究法律責任或發生類似的公關危機時,有理有據。

【 結語 】

AI 承載了人類世界的偏見和歧視,透過教育、銀行、招聘、司法等體系,病入骨髓般地深入社會肌理,但亦有人相信 AI 是帶來公平的希望,歧視的解藥,法律規範只是手段之一。在法律的驅動下,有越來越多的工具和方法幫助我們找出 AI 裡的潛在偏見,相比之下,人腦才是終極的黑箱。

改善 AI 決策過程的公平性,系統性的歧視有望被翻轉,成就系統性的公平,創造社會共好。

相關延伸閱讀

歡迎分享給你的朋友,或進一步閱讀系列文章。

Back to Top
Close