in

大數據結合深度學習,OrCam用AI電腦視覺助視障「聽」世界

文/王茜穎,若水 Flow AI Blog 編輯團隊

Why read? 若水 AI 數據團隊觀點:

1, 找對問題,AI 能夠幫忙許多事,包括成為視障者的AI伴侶,協助視障者感知環境,強化社會互動和功能。

2, 捨棄雲端運算,僅存臉部參數來訓練資料 (Training Data),保護使用者隱私。

3, 將使用者手勢整合進用戶介面,幫機器從海量數據中快速篩選出重點。

「計算機科學跟視障有什麼關係?」

在TED@NYC台上說話的人是 Amnon Shashua,全球知名的 電腦視覺 (Computer Vision) 專家,共同創辦了全球最大的無人車駕駛輔助系統公司 Mobileye, 2017年被英特爾以153億美元(約新台幣4530億元) 收購,現任英特爾資深副總裁。

圖/ 截自 Youtube TED@NYC

時間拉回到1993年麻省理工學院的博士畢業典禮上。「我太太的阿姨莉莉.紐曼(Lily Newman) 一輩子住在紐約市。她因黃斑部病變導致視網膜破裂。典禮結束後,她告訴我,身為一個科學家,你得想想辦法解決我的問題,」Shashua回憶 。

「我向她解釋我這個doctor(博士) 不是你想的那種救人的doctor(醫生),我寫的是方程式、軟體和代數,但這件事一直在我腦中揮之不去。」

➡️ 延伸閱讀:搶救百萬失明人生,印度眼科醫院聯手 Google 打造 AI 篩檢

就以主要發生在50歲以上的黃斑部病變為例,在台灣家庭家庭醫學會的資料顯示,此病症在已開發國家是造成老年人失明的原因之一。在美國,超過800萬人有老年性黃斑部病變。台灣也有類似情況,而且好發年紀愈來愈輕。

Shashua道:

「或許我們無法讓殘疾消失,但我們能善用電腦科學彌補視力的喪失」


用深度學習解析、朗讀圖像

圖/OrCam官網

2010年,他和 Mobileye 的老戰友Ziv Aviram再創 OrCam,透過AI應用,讓盲人聽見世界。

68歲的 Moshe Fischer 天生失明,卻戴著一副黑框眼鏡。若仔細觀察,會發現他的鏡架上用磁力吸附著一方手指大小的黑盒,內建攝影機、麥克風和骨傳導喇叭,只要用手指輕點一篇報導、一份菜單、一方路牌,黑盒裡的鏡頭掃描、再用深度學習(Deep Learning) 來解析文字,並在他耳邊輕聲朗讀。

這款名為「我的眼睛 (MyEye) 」的AI應用,改變了Fischer的生命

宛如一盞黑暗中的探照燈,鏡頭持續掃描前方的視野,搜尋熟悉的模式,當鏡頭辨識出使用者的手勢,即拍下所指的文字或圖像並比對已知內容。

圖/ OrCam’s Twitter

➡️➡️ 想了解更多 AI 數據應用新知,免費加入訂閱我們每月親自撰寫的電子報:https://ai-blog.flow.tw/register

從早上幫他辨識衣服的顏色,出了門識別紅綠燈號誌,街道名稱,商家店名,公車號碼,錢幣找零,閱讀書報,100張熟人臉孔,上百萬種商品,並能個人化儲存150件事物。

貼心的「MyEye」,會在書報拿反時,提醒他轉正;閱讀外語時,自動幫他翻譯;無法辨識來者時,給予提示,例如「有位年輕女士正站在你的面前」。

它為我開啟了新的可能性

「 像是使用過去無法使用的智能手機……逛街欣賞商店櫥窗,這是我一生中從未做過的事!我能體驗和感受周遭發生了什麼事,這是我過去求而不得的。我走過卻從未看見」滿頭銀髮的Fischer說。

失明了一輩子,他嚐到前所未有的自由和獨立。


自然語言處理加持,做視障者的最佳AI伴侶

去年,OrCam 的第二代「我的眼睛 (MyEye2) 」被選為美國《時代雜誌》2019年百大最佳發明。在獲獎感言裡,繼人類將AI變成我們的眼睛、耳朵和大腦後,Shashua提出其開發初衷是作為視障者的「AI伴侶 (AI as a companion) 」。

圖/ 自然語言處理的加持,圖像辨識更清晰

靠著自然語言處理的加持,OrCam在今年初的全球消費性電子展上推出個人助理的新功能,進一步推進其理想。與其從頭到尾地讀稿,視障者可聲控鎖定只讀報紙上的標題,搜尋特定單詞,帳單末的應繳金額,或菜單上的前菜選項。

OrCam花了5年開發MyEye,除了聲音之外,所有的技術都是由內部開發。其中核心演算法花了1年,並以數百萬個文本和產品圖像訓練機器。

這和孩子學習新事物的過程十分相似,」Aviram說「讓它接觸海量數據和複雜的演算法,就能教機器辨識不同的產品、臉孔和語言。」

➡️ 延伸閱讀:面對數據海洋,勇敢理解、勇敢參與,才能找到新大陸

接著,硬體整合又花去2年,但決定開發藍圖的卻是開發之初針對數百位視障者的需求訪談。出乎意料的,高達90%的人希望能閱讀,原以為的辨識障礙物反而不是關鍵。

百思不得其解的Aviram決定做個小實驗:暫停閱讀一天。結果,不到一小時他就喊停,「才過5分鐘,你就了解我們的世界是由多少文字組成的。」

此外,有視障者希望能識別顏色,解決穿衣搭配的困擾;還有人「無法認得一米外的妻子」,為此加入了自動辨識人臉的功能。

所有的即時運算都發生在這個22.5克的小黑盒裡,不會上傳資料,亦不做雲端運算。臉部辨識則是存取臉部特徵的數據,像是兩眼距離等臉部參數,而非直接儲存人臉影像。

「我們將每張面孔轉換成一串數字,這樣每個人的面孔都會有不同的數字,當機器看到人臉時,會計算數字並與既存的數字進行比較。」 OrCam的執行研發副總Yonatan Wexler,同時也是Shashua的學生說。

種種措施都是為了避開Google Glass當初引發的隱私疑慮。

➡️➡️ 想了解更多 AI 數據應用新知,免費加入訂閱我們每月親自撰寫的電子報:https://ai-blog.flow.tw/register


挑出、標註使用者所需的數據,才是關鍵挑戰

圖/ OrCam’s Blog

任何視覺系統最大的挑戰都是龐大的數據量 。

Wexler受訪時說,每張圖像都有上百萬個數據點,為了從海量數據中快速篩選出最有用的部分,他們開發出一套名為ShareBoost的人工智能演算法,並應用在早期的原型上,但他們很快意識到其不足,並向機器學習社群 (Machine Learning Communities) 取經。

Wexler告訴美國《數位雜誌》(Digital Magazine) :

「挑出使用者所需的數據是關鍵挑戰,不然,機器將不停地描述所見的細節,無論那是不是使用者所關心的」

為此,他們決定開發一個同時感知使用者和環境的用戶介面,讓使用者用「手勢」來告訴機器重點在哪裡。因此,機器知道要聚焦在公車站牌上,而非後方的路牌或廣告看板。

➡️ 延伸閱讀:100個AI專案肯定!若水如何開發出台灣最精準數據處理平台?

沒有繁複的按鈕或指令,無需上下左右滑動點擊,操作簡單直覺:一指啟動辨識;伸手張開五指,做出阻擋手勢,即停止;低頭看錶,即自動報時。

圖/ OrCam’s Blog

Shashua解釋:「我們相信指著東西是人類最自然的行為……看看孩子們,他們會指著某個東西問:『這是什麼?』」Wexler則表示使用者往往不用一分鐘就能學會如何操作。

你問,AI應用可以如何改變世界?

OrCam會說,讓全球3億的視障人口,以及更多患有嚴重閱讀障礙和閱讀疲勞的人口擁有新生活

儘管AI無法讓他們重拾光明,卻能直接地幫助他們在這個並非為他們設計的世界裡找到方向,安身立命,體驗逛逛街、刷手機、上超市的日常生活。然而,台幣15萬的高額售價是目前最大的推廣障礙,OrCam希望透過政府補助、保險公司給付,讓更多人能受惠。

This image has an empty alt attribute; its file name is 王茜穎-1-1024x709.jpeg

【一周AI大事】Amazon 砸 12 億買無人車公司/AI 人像應用把歐巴馬變白人?/用 AI 建立川普語言模型?

【一周AI大事】OpenAI第三代NLP模型問世/IBM與MIT利用AI造福樂器麻瓜/AI竟能預判時尚潮流,日本做到了