電影《鋼鐵人》裡面,小勞勃道尼飾演的主角憑空叫出互動面板,直接用手和立體影像互動。現實生活中,3D影像科技除了VR/AR以外,還有辦法再更貼近人們的生活嗎?
台灣新創團隊幻景啟動(Lixel),是全球第一個研發「互動式光場立體漂浮影像」技術的團隊,結合AI應用技術eye tracking 和hand tracking互動技術,獲得高通台灣新創競賽肯定、科技部未來科技展 3項獎,以及天使投資人的數百萬美金的資金挹注。
若水AI Blog編輯團隊專訪幻景啟動的共同創辦人兼執行長楊鈞翔,和我們分享創業與背後的技術實踐,以及找上若水的契機。為什麼選擇走上3D影像這條路?
問 : 創業故事通常有個起點,像若水成立AI事業部是基於「Tech for good」的理念,看準AI市場的數據處理需求,能為不出門的身障者創造就業機會。幻景啟動呢?
其實創業一開始沒想那麼多,純粹是靠著一股衝動(笑)。
2013年,我看見大學同學研發出全像式立體浮空觀音像,覺得很新奇,人居然可以從各種角度,環視一個站在平板上的立體影像!這不是和漫威電影一樣嗎?
感受到這項技術的發展潛力,我投資了同學的創業,想做出不同以往的視覺技術體驗。後來雖然市場和技術不到位,燒光了資金以失敗告終,但是對於浮空影像,我始終沒有放棄,反而覺得越挫越勇。
2015年,我和在台灣鑽研光場和3D影像、交通大學光電所的黃乙白老師和他的學生,以產學合作的方式開始研發3D浮空影像技術。2017年這項技術獲得科技部3項獎項肯定,我們決定正式創業。
初期資源有限,我們努力研發的3D浮空影像以及eye tracking、hand tracking等互動技術,雖有進展但仍遠遠不足,而且新創真的很燒錢,不久後就面臨了資金的挑戰。夥伴們一邊研發技術,探索商業和曝光機會,一邊努力募資,是一段艱辛的過程。
2019年,我們贏得高通台灣新創競賽,技術實力和應用潛力被看見,也幸運獲得群輝科技的共同創辦人廖群先生的認同。廖先生很關注台灣科技新創公司的發展,在協助台灣AI新創公司的發展上出力甚深;同時國發會也參予了投資,讓我們得以持續前進,才有後來的故事。
問:市面上的3D立體影像技術,和幻景有什麼不同?
提到3D立體影像,大家的想像可能是鄧麗君演唱會那樣,在舞台上掛一層薄紗,透過投影機反射出鄧麗君影像,但實際上它只是2D影像,並非真正的3D影像。它的技術侷限在於無法互動,而且如果觀眾坐的位置很靠兩側,看到的就會是扁的2D影像。
我們研發的「裸眼光場立體漂浮影像和互動」技術,結合了光場立體影像和互動兩種特性,很貼近日常三維世界的真實體驗。
就像電影《鋼鐵人》的情境一樣,除了可以從平放的平面顯示器上,直接用裸眼看到浮出來的立體像,不用依靠任何反射介質或屏幕之外,使用者也可以站在顯示器周圍,直接用手和影像互動。
想像一下:如果你在打遊戲的時候,可以用上帝視角看見整張3D遊戲地圖,看見新手村莊裡面的石頭、樹木有不同的層次,甚至看見城牆後面躲藏著幾隻怪物、用手和他們互動,是不是很有趣呢?
光場的技術可以運用在商業、遊戲、虛擬助理、零售、電子裝置等領域,三星和美國一些新創團隊也有在做,但多半採直立式螢幕型態,螢幕立在觀看者的面前,立體影像凹進螢幕或稍微凸出螢幕。把顯示器平放在桌面上、站立的漂浮影像、與影像直覺互動的形式,我們大概是全球第一家。
我們想做的不只是典型的硬體零組件供應商或單純軟體公司,而是能提供人們一個嶄新的視覺和互動的完整體驗的公司。
問:能否分享幻景的關鍵核心技術,以及你們把AI應用在哪個部分?
「互動式光場立體漂浮影像」包含我們研發的3D浮影平面顯示器、軟體,以及結合AI的eye tracking和hand tracking,提供更直覺的互動體驗,裡面運用到光場光學、離軸光學、影像處理、電腦圖學、機器學習、3維偵測和顯示器觸控面板的原理和工程技術。
光場是什麼呢?簡單來說如下圖,假如你眼前有一個立體浮空的圓柱體影像,它其實是由眾多小鏡頭投射出來的粒子所組合而成的。這個圓柱體裡面,某一個小區域的呈像,其實是綜合多顆小鏡頭投射出來的「碎片式」影像,所組合而成的。
因為影像會在3維空間中動來動去,影像演算法需要即時計算每一顆鏡頭,在一瞬間要投射出哪一個區塊的哪一個碎片式影像。為了快速、精準的成像,我們用AI來提升運算速度。
而且,人也會在不同角度和影像互動,所以我們研發了eye tracking的技術,來追蹤使用者的眼睛,並藉由hand tracking技術,偵測手部在三維空間的座標位置和即時影像計算,創造更直覺的互動體驗,用AI來提升精準度和速度。
問:和若水合作的契機是什麼?過程中,有哪些印象深刻的地方嗎?
當時會找若水幫忙標註數據的契機,是為了提升「eye tracking」AI模型判斷的精準度和速度。
我們一開始使用open source數據,由內部工程師自行標註,但是發現光是處理幾千筆的數據,就花了至少一個禮拜的時間,無法專心在核心技術開發上。
要訓練AI模型的表現,從基礎60分提升到90分其實相對容易,但如果要進一步提升到九十幾分,需要花費的時間就會多很多。技術團隊在忙著開發的時候,其實沒有這個時間來處理大量數據。
我們也想過找工讀生,但在這之前需要先建立管理機制和品質檢驗機制,還要找正職員工來檢核工讀生的標註品質,這麼一來也不見得比較輕鬆。後來透過網路搜尋,找到了若水國際。
若水團隊真的幫我們解決掉一些不少痛點,除了幫忙處理這幾十萬筆的大量數據,加快標註速度品開發時間,標註後的品質也很好。
在開始標註以前,若水團隊有仔細確認標註原則,甚至會站在我們的角度,給予一些標註原則的優化建議。例如一張圖片裡面有很多個人頭,其中有些人站在兩旁,頭像比較小也不是很清楚,若水就建議我們可以不用全部標註,選擇畫面中間範圍的人來標註就好,避免模型因為學到不對的特徵而失焦。
後來我們用這批數據回去訓練eye tracking的AI模型,測試後發現模型精準度和運算速度顯著上升。
因為有了和若水在提升eye tracking AI模型的成功經驗,今後在hand tracking技術研發上,我們也會嘗試藉由與若水的合作,提升精準度和運算速度。
問:市面上已有許多高畫質和3D影像技術,為什麼特意選擇「互動式光場立體漂浮影像」作為題目?
我們想跳脫2D框架的視覺型態,讓人們在顯示裝置上看到的立體影像,就像是人們在日常生活中所看的世界是一樣。
人類視覺體驗的演進歷程有脈絡可循。6萬多年前,尼安德塔人在岩壁上畫下動物和抽象符號,數千年前,人類開始在石板、動物皮上畫畫。而後隨著相機的發明,人們用相片保存瞬間的永恆,緊接著電影的發明,讓影像動了起來,後來更出現了映像管、平面顯示器。
這樣的歷程形成了穩定的視覺型態,人們習慣在2D框架內,運用大小、透視、陰影等技巧描繪出真實的3維世界,也習慣立在眼前的2D 框架內,觀看被描繪或拍攝出來的世界。但是,在2D 框架內產生深度、立體的感知,是因上述技巧的心理暗示所產生的,與人類在感知真實3維世界的機制不同。
像是電影《阿凡達》就曾經嘗試跳脫2D框架,但因為3D眼鏡的雙眼視差,最終以失敗收場,十分可惜。如今廠商不斷追求2D影像的極致,例如更大的螢幕尺寸,更高的解析度和飽和度,但人類的生理構造其實有其限制,例如人類可辨認的最小解析度,會受限於視網膜感光細胞的大小。
因此,我們才想另闢蹊徑,創造出一種全新的影像體驗形式。不只顯示技術,很重要的是還要做到「人和影像自然的互動」,因為人在觀看影像時,其實涵蓋了大量的個人經驗和感官體驗。
光波進到大腦時,其實不會直接形成客觀影像,而是先和個人當下的觸覺、嗅覺等經驗做比對,才會形成感知;而且聲音進入大腦的速度比影像快,所以我們做互動影像的,要真正做到符合human nature,給予良好的使用者體驗,就需要結合人和影音的互動。
在三維空間裡面,人的直覺一定是直接伸手和立體影像互動的。想像一下這個畫面:如果鋼鐵人眼前明明有個立體選單,他還要先從口袋裡面拿出滑鼠來才能點選,那不就太遜了嗎(笑)
問:最後,想請問幻景和光場技術未來的發展?
技術一定要能夠轉化成產品,並在市場上面為人們所接受和使用,這樣才能產生真正的意義和影響力。
因此,在持續進行技術研發的同時,我們也期許自己努力開拓市場,特別是像我們這種全新的技術,更需要用心去突破在應用開發和與市場對話的挑戰。
目前我們已經在商業展示、遊戲、零售、交通等領域跟不同市場接軌,例如2021年Digital Taipei展覽上,我們的顯示和互動技術用來展示以Minecraft所建構的台大校園和建築物,獲得了不錯的回響。
最近很熱門的元宇宙風潮,啟發我們對未來虛擬與實體世界交融的無限想像。幻景啟動的技術,將會是一個很棒的進入元宇宙的方式。因為人們不用戴眼鏡或頭盔,就可以自然地看到元宇宙裡面的立體影像人、事、物、景色,當看到影像時,可直接用手或聲音來跟影像直覺地互動。我們也正嘗試與學校、博物館、創新教育專長的老師合作,透過3D虛擬空間,把原本不易理解的抽象概念具象化,解決教育的痛點。
而這樣的互動體驗,就像是人們生活在真實世界中與周遭的人、事、物、景色互動的體驗一樣,達到虛擬與實體世界自然的交融的境界,毫無懸念地,AI也將在這樣的情境中扮演很重要的角色。
延伸閱讀:
工程師自己標註AI數據,划算嗎?數據外包策略的兩大好處
專訪Beseye執行長:AI落地專案的成功與挑戰,來自於人們經常忽略的「小數據」
矽谷鋼鐵人 Tesla 的逆襲:Autopilot 對上兆元汽車產業