📻國立教育廣播電臺【新聞真假掰】AI機器人做長照服務的時代即將到來?人工智慧的3D影像技術如何改變人類生活?專訪孫民(清大電機系教授)

📻國立教育廣播電臺【新聞真假掰】AI機器人做長照服務的時代即將到來?人工智慧的3D影像技術如何改變人類生活?專訪孫民(清大電機系教授)

📻國立教育廣播電臺【新聞真假掰】節目資訊

播出時間:每周日 17:05-18:00
收聽方式:
國立教育廣播電臺 官網 60 天隨選收聽

📌邀訪來賓

孫民(清大電機系教授)

📌完整訪談內容Podcast

 

 

📌節目介紹

AI科技不斷進步,除了近期爆紅的生成式AI,幫助我們翻譯、產出文章外,AI其實也可以跟3D科技結合,為我們帶來更大的便利。

電影「阿凡達」中,透過未來科技幫主角創造一個「化身」,而這樣的技術也正是AI3D技術的開發核心。從駕駛測試、長照機器人到購物管家,在3D技術的幫助之下,AI除了在平面世界發揮功用,即使日常生活也處處提昇我們的便利度。

但是,AI的快速發展也可能有巨大的隱憂。Deepfake技術讓個人隱私受到侵害、AI與軍事的結合讓核彈威脅再次籠罩在我們的生活中。唯有透過檢核機制與Kill Button防止濫用,才能避免危害。

本集節目邀請清大電機系教授孫民,從。請收聽「新聞真假掰 」,假訊息Bye Bye。

孫民 (清大電機系教授,以下簡稱「孫」)

黃兆徽(台灣事實查核教育基金會董事/台大新聞所兼任助理教授,以下簡稱「黃」)

📅節目預告
2023/11/05 周日 17:05-18:00
全台皆可收聽(查閱各地收聽頻率)

來一帖媒體轉骨湯!老媒體如何靠「數位轉型」開創新商機?

🌐最新精彩內容

AI機器人做長照服務的時代即將到來?人工智慧的3D影像技術如何改變人類生活?

-----------------------------------------------------------

黃:哈囉大家好!我是兆徽,歡迎來到新聞真假掰,今天來到現場要陪伴我們一起提升科技資訊與媒體素養的好朋友是清大電機系的孫民教授,孫老師好!

孫:兆徽好!大家好!

黃:孫老師在3D 視覺影像方面的AI 是專家,今天就要來跟孫民老師來聊聊AI 在3D 視覺影像方面的一些科技,目前進展到什麼程度?在研究上面我們正朝哪些有趣的方向來發展?然後視覺的不管是VR、AR、機器人的環境感知啦,甚至是這個3D 裸視浮空投影啊,其實都很有趣,但是它的技術難度其實相當高,但是隨著這個生成式AI 的科技突破,是不是在這些方面也都有了很明顯的技術突破?那未來有什麼有趣的應用?所以孫老師您聊跟我們聊聊現在3D 視覺影像大概在哪方面都可以應用得到?

孫:是,3D 視覺影像首先跟傳統2D的影像辨識最大的差別就是,2D的影像辨識可以在網路上直接使用,因為我們有很多就是網路上的照片是2D,網路上的影片也是2D的,但很可惜如果只apply AI在網路上的影音世界的話,我們很難在真實世界中去使用,那最早3D 視覺其實最夯的大概10年前是所謂的自動駕駛,因為我要讓一個AI在3D空間中真的開車。

黃:對。

孫:我要知道什麼時候,我要碰到subside要停下來,然後我也不能太早停,因為太早停別人會覺得很奇怪,太晚停也不太好,所以我必須要有空間的感知能力,那不過我個人的研究的話,則是在近年來比較漸漸起飛的是室內的空間的感知,我要知道一個室內的格局,我才知道說這個建築物有幾個房間?格局大小怎麼樣?然後我要知道裡面傢俱擺設,我才知道說原來這邊有個沙發,沙發是坐北朝南?還是朝什麼方向?這裡有個冰箱,有幾個門把等等的。

黃:還有空間深度?如果是一張照片2D是沒有深度的問題。

孫:是是是。

黃:包括一個沙發放在一個空間裡面,它會不會有燈光的影子,這些都要考量在裡面。

孫:對,3D 都會影響到你的那個感光,然後影子,然後還有人與3D物體的互動,所以如果我們要把所謂的這個AR ,讓它的影響力在我們生活中出現,舉例來講我想如果是工廠或者是warehouse,我要能夠讓一個人帶著AR Goggle,我看到一個機具,我就可以知道說它有什麼功能?它多久需要維修?然後它可能檢查點在哪?這個螺絲這個按鈕什麼意思?

孫:我就必須要把這個資訊augment在我們在這個物體相對應的3D位置,然後我換一個視角,我從不同的地方再看它一次,都有同樣的augment資訊,所以我一定要對它有一個3D 的瞭解。

黃:augment的資訊可不可以跟聽眾朋友解釋一下?

孫:augment的資訊比較像是,我再繼續沿用剛剛工廠的範例好了,這邊有一個工具機,那我到底按這個鈕它會產生什麼反應?然後我今天要完成一個任務,我可能要先做A再做B再做C,這樣子的augment資訊,如果可以在3D裡出現的話,那我才能夠follow那個3D 的指標,然後去完成這件事情。

黃:是,所以AR、VR其實就是一個3D 視覺影像很好的應用,那但是我們先跟聽眾朋友解釋一下AR 跟VR 的不同,很多聽眾其實搞不太清楚,AR是擴增實境對不對?VR是虛擬實境,這二個的不同在哪裡?

孫:如果是VR 的話,其實現在很多應用就是純粹在虛擬實境中玩遊戲。

黃:在虛擬實境目前的方式我們就要帶一個很蠻厚重的VR 眼鏡,可以讓我們跟外界隔絕了對不對?把你的眼睛框住。

孫:對,所以它並,它通常不是所謂的可以看透它的,它是讓你沉浸在一個虛擬的環境,那它還是需要感知你的頭的動作,還有手的動作,但它不需要感知你空間的其他環境,因為基本上你可能就是在一個椅子上,或者是一個,有時候玩VR 遊戲是一個。

黃:一個房間?

孫:一個小房間,你不斷地走,但是你其實不會移動的一個裝置,對,所以它只需要感應你的頭跟手,但是環境不需要感應,因為你是沉浸在一個新的這個虛擬世界中,那AR就開始不一樣,AR是想要。

黃:擴增實境。

孫:擴增實境。

黃:什麼叫擴增實境?

孫:擴增實境最早的時候,舉例來Google Glass,它的目的只是例如說你在生活中。

黃:最常用的應該就是寶可夢對不對?

孫:對對對。

黃:你可以到一個公園裡面一棵樹旁邊就跳出一個怪物來。

孫:對對對,所以它可能只是在你的Google 眼鏡中,把你今天的會議資訊,或者給你一些Message 的提醒,它只是主要是augment 一個資訊,但它不一定要跟真實世界中混在一起,那AR再往下推一個,我們通常有時候也可以叫它AR,但是更精確可以叫他MR mixed reality,它是希望它augment的資訊真的是跟現實世界中混在一起,對,那就會例如說寶可夢,我除了要augment你說前面有一個可以挑戰的地方,我還要augment你,你要向前走左轉,到了這個公園的哪個地方才有一個可以挑戰的地方,所以它是希望。

黃:是一種虛實整合了?

孫:對對對。

黃:就是你是真正的到公園裡面,然後看到從你的手機或者你的這個眼鏡,看到在公園的一棵樹旁邊出現一個虛擬的怪物,一隻虛擬的寵物。

孫:對對對對,就會跟真實世界中mixed 在一起,而不是只是augment 資訊,告訴你說去公園找一個怪獸打的文字而已。

黃:是是,我們知道像VR 技術,我大概在7年前我在公共電服務的時候,就跟我們現在的這個唐鳳政委,唐鳳部長當時是第一任的這個數位政委,我們在公視的時候就有策劃一個節目來專訪他,透過VR然後讓這個小朋友跟唐鳳,當時的政委可以在VR 空間裡面好像共處一室,但是我覺得有一個問題從7年前到現在都沒有解決,就是戴上那個VR 眼鏡其實蠻重的,而且它大概10幾分鐘就會眩暈,那這個問題現在因為生成式AI,或者是AI 科技的演進,有辦法改善嗎?

孫:我覺得其實有一些技術再讓它improve改善當中,但是它未必是直接跟生成式技術有關,對,因為據我的瞭解,我們戴這個VR Goggle會有些暈眩的關係,是因為我們還沒有辦法很精準的去追蹤我們眼睛的這個,除了不是你眼睛的位置跟頭的位置以外,還有你實際上焦距到底定在空間中哪一個點,對,那有一些科技像是臺灣其實有一間蠻有名的新創公司叫見臻科技嗎?我不太確定我有沒有講錯,是臺大的那個簡韶逸老師他們開發的,那他們就有設計一個多個這個小的相機去追蹤人的眼睛的這個瞳孔,然後二個瞳孔去對焦在哪裡,去改變它的成像這樣的技術,對,那所以必須要先能夠感知你的對焦在哪,才能改善這件事情,那後續的這個生成式AI如果也可以考慮到,你因為不同的焦距,然後造成它生成一個畫面應該要有不同的景深的變化,那就會讓人覺得更如我們在真實世界中,就是我們一定會有attention一定會有聚焦,會有景深,那現在都沒有的話,長期以來你就會覺得暈眩,或者甚至不舒服的感覺這樣子。

黃:對,那現在生成式AI對AR、 MR 這種虛實整合擴增實境,是不是就可以讓它更有趣了?

孫:對,所以他主要生成式AI的幫助在這邊,是它在內容的生成,那它可以完全生成一個新內容,那就可以用在這個VR 裡面,但它也可以說把你既有的環境的牆壁的風格改掉,把你的傢俱的風格改掉,那這個就是它不是天馬行空的生成,它只是做修改那就很適合跟MR整合在一起,那當然它也可以直接就生成一個新的avatar然後在空間去跟你互動。

黃:一個虛擬的人物?

孫:對對對,那所以其實有蠻多想像空間的。

黃:但這個技術其實非常困難對不對?我們看到現在坊間有非常多的工具想要試著生成avatar,可是真的畫得好看好像不多,它的困難度在什麼地方?

孫:其實電影 Avatar它用的技術是這種電影級的技術,所以如果大家看到。

黃:它是用動態捕捉了是不是?

孫:對,它就是在一個那個非常貴的環境中,有非常多相機然後都set up 好,然後如果大家去看那個幕後 avatar的話,他們大家都穿特殊的衣服,有特殊的量球,然後讓這些這個multiple的攝影機可以追蹤好它的臉部的可能二、三十個點,然後身體可能四、五十個點,都追蹤的很好,然後再去做後續的rendering,那現在的AI 的技術進步就是,其實已經有辦法就是所謂的你身上不用穿任何裝備,然後我用一個鏡頭或二個鏡頭,二個鏡頭就會有深度資訊,我就可以real time 的把你這個3D 的姿態全部都捕捉下來,所以現在動態捕捉已經不需要這麼昂貴的設備,到攝影棚區其實只要有相對的軟體,我們甚至在這邊都可以做到動態捕捉,這是一個進步,然後再來就是這個avatar的動態捕捉完之後,有很多的動畫師要真的畫出所謂的3D 的這個結構,然後overlay 或加在我原本動態捕捉的這些姿態上面,那這個原本都需要很多的就是專業的動畫師,那在生成式AI最大的突破就是,我們從早期2D 的影像生成,現在在過去1年研究領域有非常多3D 的所謂的這個voxel或者是mesh 的生成,所以它幾乎媲美我請一個這個動畫工程師去畫的這個3D 動畫的效果,所以把。

黃:所以這個技術是怎麼樣?怎麼樣可以很快速讓AI產生動畫?

孫:其實基本上它有二個方向,一個是它從原本我們2D 的所謂,大家不知道有沒有聽過像素pixel的概念,然後可能有長多少pixel、寬多少pixel,那到3D 中一個最簡單的延伸就是你已經有三維,所以你變成一個所謂的voxel,從pixel變成voxel那。

黃:所以它可以從一張照片變成一個360的場景?

孫:對,所以它會知道說這個XYZ我要生成什麼Rgb,所以它的技術是可以衍生多一個維度的,但它過去的困難點是沒有這麼多3D 的資料做訓練,因為我們知道生成式AI它大部分都是用一種自訓練的方法,那你就要非常多原本的2D content,那之所以現在會不斷地進步,是因為我們人類收集越來越多的3D的content,然後也有人發明了一些技術是,我不一定用3D content來訓練,我是用多個不同角度的2D content去訓練,然後也可以再訓練出一個3D 的生成模型。

黃:所以想像中就是,假設我們要恢復一條老街好了,假設是一個100年前的淡水老街,所以我們只要有足夠多的2D 照片,我們就可以讓AI 透過這些2D照片來生成一個3D 的100年前的淡水老街?

孫:對。

黃:那大概那個需要多少量的2D 的淡水老街照片才可以生成?

孫:淡水老街大概有幾平方米我不知道,但是如果以我們現在這個錄音室的話,大概幾十張照片,二、三十張照片,然後它拍攝的視角比較,就是不要太多重複。

黃:多元角度。

孫:多元角度應該就可以有滿好的3D 重建,而且現在這個3D的重建技術,最好的是一個叫Neural radiance fields的方法,重建出來之後quality很好,幾乎不太需要後面再有其他的動畫師再去修改,那這樣子我們就可以大幅加速這個蒐集3D 資料的這個進程,加速之後,我們就有資料可以來訓練生成式網路這樣子。

黃:是,我們想像中的假設是一條淡水老街,假設它的門牌是1到100號,我們只要中間有,當然是有越多1到100號的照片都有,它可以還原的最真實,那如果是只有一號,就是它如果是跳著,缺的部分AI是怎麼辦?就靠腦補是不是?或是它去看那個照片大致長什麼樣子,來想像沒有照片的地方?

孫:所以你剛剛提這個問題也非常好,所以我可以想像就是,我們現在舉個例子,我們可能只有人力可以蒐集1到50號的淡水老街,然後我們就1到50號,每一號都蒐集個幾十張照片,所以我可以作出很好的3D重建,然後接下來我用這個3D重建的model,去訓練一個3D 的生成式網路,我們找最先進的Diffusion model 去訓練,那接下來可以做的一件事情是,好,那剩下的51號到100號,我可能沒有人力去每一號都蒐集幾十張照片,但是我每一號可能蒐集個少於十張照片,那剩下的部分就像你說的一樣,我可以拿這個前面已經訓練好的生成式網路去腦補,但它就不是完全腦補,因為它已經會看那幾十張照片,但是它沒有看到的部分,它就要有點像是拼貼一樣把它腦補到,左邊看到跟右邊看到還是符合,但中間是它腦補出來的,那而且它腦部的不只2D,它用那個生成式的Diffusion model 它可以腦補3D,以及2D,所以最後它還是會產生51號到100號的3D重建,而且看起來栩栩如生,只是不一定完全如就是現場的,因為它畢竟是腦補出來的。

黃:所以我在想象一個畫面,有沒有可能當我們收集比如說我們要還原50,50年有點短,100年前的淡水老街,我們的照片夠多的時候,我們是不是還可以看到小時候的阿公阿嬤站在他家門,現在可能很多家族都有流傳這種照片喔,站在他家門前再透過avatar,那個是5、6歲的阿公阿嬤出現在他當時的老家門前,是不是有這樣的可能性?

孫:是是,我覺得完全有這樣的可能,不過技術方面可能會把這些靜態的場景用一個模型,然後動態的人可能是另外一個模型,結合在一起會更好這樣。

黃:是,不過這個想像中就覺得有點困難的是說,這個場景中我們把淡水老街建置了之後,然後再加上您剛剛說的3D avatar的技術,我們要讓一個人真的在這個場景裡走動的時候,它有空間深度的問題,還有這個這個場景要跟著它的走動而改變視角,這個現在已經也可以做得到嗎?

孫:對,所以關鍵就在於你的重建必須在3D 中,所以它本身就是跨視角來看,你的這個結構是所謂的consistent 的,你的生成式模型也必須是3D 的生成式模型,這樣子你腦補出來的東西,從正面看、側面看也都是consistent 的,那就是大概在最近這1年來越來越多這種3D 的生成式模型的出現。

黃:所以有沒有一種可能就是以前我們要花很大的錢,比如說公共電視要花幾千萬去搭一個已經被拆掉的中華商場,那可是拍完戲可能就要就拆除了,那是不是有可能我們用3D 的方式,用AI 的方式來重建一個中華商場,但這個重建技術您剛剛提起來,我們有足夠多的照片就可以嘛,可是假設它要在裡翻拍一部電視劇或電影,它就必須要讓攝影機可以想像中的攝影機可以有各種角度,才可以讓人在這個場景裡面自由走動,它才可以在這個虛擬的空間裡面說故事、演戲,也就是說我們以後不再需要什麼電影文化城的實體,我們只需要靠3D、AI來建這個電影城,而且它可以虛實整合各種想像空間,但困難就是說人在裡面,然後運鏡的角度,這些都有辦法靠AI來協助嗎,目前的技術上?

孫:對,如果是模型是3D 、生成網路也是3D 的話,那其實我只要導演告訴我說相機今天要進到哪一個XYZ 位置,對應的角度,其實應該是都沒有問題,但我想像中比較困難的是,演員那時候在演的時候,要能夠想像他在那個場景裡,我們可以看到那個avatar他們在拍的時候,其實旁邊都是綠幕,所以他必須要能夠想像,對,那也許在某一段戲,像avatar裡面還可以想像,但是如果它從頭到尾,全部都是在綠幕中拍,然後後面都是生成式的在後製的話,那對演員的挑戰是,他要真的很能想像,因為現在技術還沒有辦法讓演員就是。

黃:看到?

孫:就是完全沒有任何裝備就看得到,除非他戴一個Goggle,他可能要剛好有眼鏡,然後可能Apple 下半年出了這個AR Goggle也要特別厲害才能夠完成,所以我覺得現在困難是演員要能夠想像。

黃:怎麼融入那個場景裡。

孫:對,他在拍的時候,他看不到這個東西。

黃:是,他腳走幾步,其實有點像電視臺現在就已經在用這個氣象主播,我覺得很多電視臺我們其實都是綠幕嘛,然後會有新聞畫面,那個主播們要想像說這個氣象圖在這裡,雲從這邊到那邊,其實都是要用想像的。

孫:沒錯沒錯,對對,未來演員可能要有這樣的功力才行。

黃:是。

黃:所以AR、VR 的這個想像中的影城,您剛剛有提到,它最大困難是演員,怎麼用想像的方式來演戲,想像那個場景,可另外還有一個技術也是3D的,就是360的投影,比如說在臺灣有施振榮先生的雙融域在101裡面,還有我們知道國際間很有名的這個梵谷,它是一個360個場景,讓你可以走進梵谷的畫裡,這樣的技術是不是也是因為AI 的發展而有一些突破?

孫:應該說最早的突破是因為360的相機越來越這個low cost,所以我們可以用360的相機去拍。

黃:對,很便宜,1萬塊可能就有一臺相機。

孫:對,拍影片,然後去拍這個拍照片跟影片,對,那那接下來當然也有一些生成式的這個網路,它設計就是專門在生成360的影像,然後呢這個影像又跟整個場景是所謂的consistent 的,所以你可以想像,我給它一個360的這個影像為input,它就可以產生一連續的360,可能模擬你往前走的這個步驟,所以有一些研究在做這件事情。

黃:所以我只要拍一個360場景,它就可以想像出整個有空間感的?

孫:對對。

黃:360,因為360相機也仍然有角度的問題嗎?

孫:是是是。

黃:所以您說這個技術就可以讓它突破角度的限制?

孫:對對對,如果沒有生成式網路,360的相機比較像是你可以旋轉,然後聚焦,但是它沒有辦法,傳統上沒有辦法模擬你往前走了5公尺之後會看到什麼現象。

黃:看到什麼,或者是你爬高爬到樹上會看到什麼。

孫:對對,但是重建的方式還有生成式的網路,就可以模擬你這個場景的這個深度範圍,然後去生成說你到下一個5公尺以外的視角長什麼樣子。

黃:是,所以在這個沉浸式的360的體驗裡面,也因為AI 的進步,所以會有一些突破性的呈現的方式。

孫:是。

黃:再來另外一種是機器人,它也是一種3D 的感知對不對?這個您可不可以跟我們說明一下。

孫:對,那機器人的話跟AR、VR 其實它也需要類似的3D感知,因為它首先最基本的它不要撞到東西,再來就是它要知道,那個東西在它面前除了是一個障礙物之外,它可能是一個冰箱,所以使用者會把很多生鮮食品放在裡面去,或者是說它知道它前面是一個沙發,但是它要能夠知道說,一般使用者坐下來的時候,是面朝那個方向?因為使用者會跟機器人互動,例如說他會說機器人請拿一杯水給我,到沙發這邊,但是你如果走到沙發的背後,那就表示不太合常理。

黃:是。

孫:對,所以它要知道除了空間中有一個物體,除了那是什麼物體,它還要知道那個物體的狀態是什麼?有沒有人坐然後朝哪個方向?所以它最終的目的是,為了在場景中做一些事情,幫你打掃啊,或者是跟場景中的人互動。

黃:對,我們現在都很期待機器人可以做長照服務,對不對?因為長照的人力非常缺乏,所以目前在這個機器人做長照服務,這邊已經越來越趨近這個可能應用的方向了嗎?

孫:目前實際上有產品的話,大概主要還是所謂的陪伴式的機器人,那它。

黃:就是聊天嗎?

孫:它是聊天,然後看起來很可愛,所以它目前功用不太多,但是我相信就是我剛剛講的這個3D perception 的技術越來越好之後呢,就開始會有一些實際的應用,那當然除了它所謂的這個navigation 以外,3D 技術最終如果機器人要能夠做長照,它就一定要有某種手臂,然後這個手臂它要能夠。

黃:它可以把老人扶起來。

孫:對,把老人扶起來。

黃:然後翻身。

孫:翻身或者是換床單、收衣服、收碗、收盤子,它一定要有手臂,那手臂要做到的也,假設我今天要拿個碗,我不是只知道那邊有碗,而且在餐廳哪裡,我還要知道我要摸這個碗的邊緣,然後要施多少力它才不會被我弄破,所以它還需要一些特殊的sensor才會知道我這個施力對不對?那這個sensor要很敏感,不然它可能會把碗弄破。

黃:對,是。

孫:對,所以更細節的瞭解這個物體的狀態,這個物體能夠被怎麼互動,然後以及一些力量的回饋,現在其實研究領域也都很多人在做,那舉個例子,前陣子我記得那個馬斯克他們有released他們的那個Tesla Bot ,裡面就有描述在工廠中去所謂的抓取很多不同的料件,對,那我完全可以想像這個技術再往前進步後,其實在長照領域中也是一樣可以使用。

黃:對,在工廠它至少跟人是有一點距離,所以如果出錯還好,頂多就是零件不小心掉了,或者是那個鐵大概也不怕太重,但長照領域就比較複雜,它萬一把老人弄受傷了,那也蠻可怕的,不過這個技術真的我們也非常期待,就是可以有一個機器人的看護、機器人的保母,來幫我們照顧老人、照顧小baby,下一段我們再跟孫民老師繼續來聊,我們先幫我們聽眾朋友點播一首歌曲休息一下。

孫:孫燕姿的遇見。

黃:孫燕姿的遇見,為什麼點遇見這首歌?

孫:首先是我的年代,然後再來就是遇見是等於是你要看見嘛,我是做電腦視覺的研究,所以我想這首歌也許蠻適合的。

黃:我們先來聽聽孫燕姿的遇見。

黃:這裡是新聞真假掰,我是兆徽,今天為您訪問到的來賓是清大電機系的教授孫民老師,孫民老師剛剛跟我們分享了他專精的研究領域,就是AI在3D 視覺方面的一些高科技的技術,那我們也談到VR、AR、MR, 從擴增實境、虛擬實境到虛實整合的這些新科技的發展的方向,然後360沉浸式場景,還有非常有趣的機器人相關的研究,我們從機器人開始談起,不過在談之前,想要先跟您聊聊您剛剛點播的這個孫燕姿的遇見,最近網路上很多這個中國大陸的AI孫燕姿在演唱王菲的歌曲,您怎麼看這個事件?這個就是網路上有一些軟體,它可以去隨便抓一個人的聲音,然後就做了有一點點像那個人的聲音來唱歌,對不對?那這樣子的其實有點盜版的行為,您怎麼看這樣子AI 孫燕姿的現象?

孫:其實大概2年前這個voice cloning的技術就做得蠻好的,所以,不過它主要那時候是用在這個控你的聲音,那時候還沒有所謂的你要唱歌或者是配樂,所以當這個AI孫燕姿出來之後,它肯定是除了voice 要cloning 的好之外,它的整個音樂的pitch,因為畢竟例如說孫燕姿如果要唱周杰倫的歌,那個pitch會不一樣,然後有一些其他取曲風的一些小調整,所以整體而言我覺得是相當驚艷,從技術方面它就超過了以前的voice cloning ,變成是音樂還有曲風的,還有voice的整體的cloning,那這當然是好的一面,那比較爭議的一面就是,舉例來說那誰能夠保障未來一個歌手,你的聲音不會被拿來clone,然後變成有開營利。

黃:對,有盜版的。

孫:對,這個到底算盜版嗎?然後如果我。

黃:它會說那不是你的聲音,對不對?這是AI 的。

孫:是是是,而且很多模型的訓練,現在如果沒有任何法規強制去要求這些公司去揭露你用什麼資料訓練的,那我也很難去說我的聲音被你盜版了,今天是因為孫燕姿是一個家喻戶曉的歌手,而且她的聲音辨識度很高,但是未來如果我今天隨便clone了一個網紅的聲音,那聲音辨識度不一定這麼高,就是唱歌好聽,那我如何證明這個模型clone了我的聲音?

黃:是。

孫:對,所以有很多accountability 的問題,還有我們如何未來面對可能的營利模式從所謂的music跟聲音clone出現這樣。

黃:其實中間有非常多法規的問題,需要趕快來討論然後制定,同樣假設這個AI 孫燕姿現在只是模仿她的聲音,那我們可以預見的,很快就會有影像了,avatar 出來了對不對?那avatar比如說以現有的技術要模仿一個AI 的孫燕姿的avatar,一個虛擬的影像,它的難度?

孫:對,其實現在,我們可以給一個text prompt然後叫它產生孫燕姿的影像,我個人沒有做過,但我覺得應該是沒有問題,畢竟孫燕姿是公眾人物,所以她有很多網路上的影像可以來訓練,對,那再進一步的話,你可能想要不是產生一個孫燕姿影像而已,你希望你能夠控制它的面部表情,你希望你可以控制它是什麼眼神?朝哪個方向?穿什麼衣服的話,那現在也有一些技術是你可以input一個人的影像,然後有這樣子的表情,只是他不是孫燕姿。

黃:嗯哼。

孫:那它經過生成式網路再把它變成孫燕姿在這個表情,用這樣的這個身體姿態。

黃:您是說2D 還是3D?

孫:我現在講的是2D,所以你必須要有一個人有點像是,先拍那個2D的畫面,只是他不是孫燕姿,你事後把它加工成孫燕姿,那現在這個技術也是可以的,那更酷的,現在有一些方式可以做到的事,你可以產生一張孫燕姿的面對你的表情,然後你可以再下一個prompt給它說,請讓孫燕姿。

黃:微笑。

孫:或者請讓孫燕姿往左邊轉三十度,向上看,就會變成你不需要一個人去一直演那個動作。

黃:已經不需要動態捕捉了。

孫:對,你需要的是給它一些微調的prompt,去讓它調整它的姿態、朝向跟面部表情,現在也有一些研究可以出來,那當然它沒有做在孫燕姿上面,我只是延續我們的話題也舉個例子這樣子。

黃:所以技術上我們可以預見不久的未來,其實就會出現各種虛擬的avatar,這個3D影像的人物。

孫:而且更可操控性這樣。

黃:是是是,所以其實這就是Deepfake 的一種對不對?

孫:是是是。

黃:那我們來談談Deepfake 技術,它其實很多年前就已經有了對不對?我們其實就已經有看到這個好萊塢電影在用了,甚至有看到一些假訊息、假影片已經有了,只是以前可能還有一些辨識的方法,包括說它的眼睛可能不會眨,可是現在隨著這個生成式科技越來越進步,現在的這個Deepfake的技術,是不是已經到肉眼比較不容易辨識的程度了?

孫:早期的Deepfake 技術其實專注在換臉。

黃:

孫:對,所以它的技術有二個步驟,一個希望能夠追蹤你的人臉,然後再把其他資料庫的人臉給貼上去,那這樣子的話容易出現的,除了剛剛說眨眼睛的問題之外,就是他如果人臉沒有追蹤的很好,你會看到一些瑕疵。

黃:比如說?怎麼樣的瑕疵?

孫:例如說它換臉的週邊就會出現一些不太合理的地方,或者是比較霧,比較模糊,這是早期的技術,那後來有些方法就是,它不是只是偵測你的臉把你臉換掉,它是直接用一個生成式的模型,把你整個影像給重新生成,那你就不一定會看得到臉跟其他地方。

黃:就是不會看到那個不協調的這個銜接處。

孫:對,因為它全部都換掉了,所以它讓人看起來更,更不會找到。

黃:有整體感。

孫:對對對對,那當然它也有一些挑戰就是,如果你把整個人都換掉,然後要叫它去生成的時候,它有時候會出現一些奇怪的東西,例如說會出現六個手指頭。

黃:對對對。

孫:那當然如果你給它一開始的constrain更多,它應該是可以避免這件事情,所以我覺得結論就是人眼真的會越來越難看出來。

黃:就眼見為憑的年代已經不再有了。

孫:對,眼見為憑不再有了,而且你聽它說的話,也不是,也可能是假的。

黃:是,那這個時候怎麼辦呢?就是看到的、聽到的可能都不是真的。

孫:對,但是好消息是,其實它生成出來的資料,在呃就是一些很細微的維度,電腦還是可以分辨出來是生成的,還是真實拍攝的,所以人類肉眼看不出來,但是電腦經過分析還是可以看得出來。

黃:所以目前所有的,不管是Deepfake或者是各種生成式科技產生出來的作品或產品,電腦都是偵測得出來的嗎?

孫:對,所以,應該是說自從Deepfake開始,被很多人使用之後,在學術領域還有公司都有辦一些所謂的偵測Deepfake 的一些challenge,據我所知這些challenge 的偵測Deepfake 的準確度其實都是8、9成蠻高的。

黃:所以有8、9成的這個深偽的科技是可以被偵測出來的。

孫:對對。

黃:可是啊,因為我們知道在你訓練這個AI model 的時候,如果它把你這個偵測的工具加入它的下一批訓練,是不是它就可以躲過這些偵測。

孫:沒錯,這個道高一尺、魔高一丈,其實一個可能會發生的狀況就是,因為現在開發出的這些Deepfake的模型,並沒有想要欺騙電腦,而是只要欺騙人類,所以它很容易被電腦抓到,但是下一波如果有一些人專門在想要連電腦都被欺騙,那它可能就會故意往這個方向去發展,那但後續會怎樣就看這邊的互相較勁。

黃:就是永遠在軍備競賽,所以我們其實也可以想像接下來的總統大選,明年1月臺灣總統大選,接下來這半年其實是很有可能出現Deepfake,可能是我們的總統候選人講了一些,因為聲音跟影像都已經可以用AI生成了,很逼真了嘛,所以聲音跟影像可能都不是這個人,所以我們肉眼其實已經沒有辦法辨識了,對不對?

孫:沒錯。

黃:所以您說目前至少用科技、用電腦還可以偵測得出來這個聲音可能是AI做的,這個影像可能是AI做的,但是接下來可能技術跟這個要偵破的技術難度會越來越高,那就更挑戰人類的智力,怎麼區別真假?

孫:是是是是。

黃:繼續來談談好玩的部分,就我們剛剛談到這個機器人,我們期待它可以往這個長照啊,或者小baby 的保母啊,尤其是長照是很多人家裡的困擾,有一個需要被長照的人,可能家中就必須要有1、2個人請辭、辭職來專門照顧,這個需要被長照的長輩啦,或者是遭遇一些身心障礙的家人,所以機器人的發展,您剛剛有提到現在其實已經可以做一些這個體感偵測,然後包括它的它拿到的碗的重量,然後還有一些回饋機制,還有哪些有趣的研發方向?

孫:剛剛舉的例子可能比較像是,如果你要手臂跟它互動,那未來其實也有一些研發方向是,可能不一定是for長照,但是我們會知道,因為我們,其實現在大家在家裡都買很多東西,所以很多時候你根本就不記得你買的東西放在哪裡。

黃:沒錯。

孫:那機器人現在有一個很特殊的功用是,它可以辨識的物品種類越來越多,你可以想像如果有一天,機器人可以辨識例如說PChome或momo上面賣的上百萬種商品,那以後你不在家的時候,它就在你家幫你巡邏,隨時去。

黃:它可能還可以告訴你說什麼東西快過期了。

孫:沒錯沒錯,什麼東西放在這邊,然後很久沒有動了,它可能是你什麼時候買的。

黃:所以它就很有可能可以幫我們整理家務,對不對?它會把衣服放到它該放的位子,把書放回書架上。

孫:沒錯沒錯,所以它變成可以辨識幾千、幾萬種物品之後,它甚至可以去判斷說,這個物品該放在哪裡比較好,那它如何做到這二件事情的話,主要是二個技術,第一個是所謂的影像跟文字的跨模態的模型,現在因為我們知道這個所謂的大型語言模型,現在非常厲害,我們知道ChatGPT。

黃:ChatGPT已經有了第四版。

孫:那它的第四版作了一件事情就是它的語言模型把文字轉換成一個語意的這個數學表達方式,那同樣的影像其實也可以經過學習轉換成同一種語意的表達方式,所以以後,你只要你的語言模型可以辨識的所有的文字,它都可以回過來看說那哪一個影像在這個語意中,跟這個文字是最接近的,所以等於說ChatGPT能夠瞭解的所有含義,以後影像它也能夠辨識這些所有的含義。

黃:所以現在ChatGPT4其實已經可以你輸入文字,它就有圖片生成給你,也是這個技術的一環嗎?

孫:對,或者是你給它圖片,它產生文字描述,所以它知道它看到什麼東西,它知道它看到什麼東西,而且它的知識範圍很大,它就可以把你家中有的所有東西都紀錄下來。

黃:所以您剛剛提到,這個機器人要來幫忙整理家務,其中一項就是它要能夠辨識這個跨模態的辨識,文字變成影像,影像然後用文字來理解。

孫:對對,那下一個就是它除了辨識之後,它要如何知道,我看到例如說有一個衣服在地上是不合理的,或者我今天在家裡看到一個地上一灘水,也是不合理的,那這件事要做到的方法其實就也是可以跟這個語言模型結合,舉例來說我先看,我先透過剛剛的辨識,我知道這是一灘水,那接下來我可以產生一個prompt 去問這個。

黃:語言模型。

孫:說我在地上看到一灘水這樣正常嗎?所以你可以想像就是如果從影像變成一個語意,語意跟文字又可以去不斷地產生這個交互,然後去。

黃:去對話。

孫:query它,然後問它一些問題。

黃:這樣正常嗎?如果不正常那我要怎麼處理?

孫:對。

黃:所以它就會做相對應的處理。

孫:對對對,所以你可以想像就是,我會對機器人一個很大,因為機器人未來會對你的周遭非常理解,機器人還可以去query一個語言模型,像是一個知識庫一樣說,欸那我看到水該怎麼辦?我看到衣服是不是應該拿到桌上來?或者拿到這個太太的房間還是什麼的。

黃:拿到衣櫃掛起來,這個還蠻期待的,這樣家裡就可以比較整潔一點,不過換一個角度想也有點可怕,這個機器人是不是就有這個電影裡面,它可能就有毀滅人類的能力了,現在ChatGPT再厲害它還畢竟只是文字而已,它沒有手腳,可是當有一天這ChatGPT結合了機器人,它可以感應周遭的時候,它可以變成機器人大軍,它可能變成一個兵團了,以後的戰爭其實就機器人跟機器人對打就好了。

孫:呃,也許之後的未來會變成這樣,不過我覺得當然AI會有其風險,那機器人這邊,其實我倒是沒有這麼擔心。

黃:爲什麼?

孫:因為我們在一般家裡不太會買到這種軍事的機器人,對,然後而且機器人也要花一些時間去成長,我覺得我個人對AI 比較擔心的是,反而是不一定在機器人上面,而是說它已經可以被整合到一些軍事決策上面。

黃:怎麼樣的軍事決策?

孫:舉例來講,其實這個目前人類社會最恐怖的東西不是機器人,最恐怖的東西是核彈。

黃:核子彈,對。

孫:對,那如果有一個軍事決策的流程中,有一個AI,然後它有權限自動化的去讓核彈發射。

黃:那就太可怕了。

孫:對,那這個時候就很恐怖,因為有可能它看到了一個狀態,它覺得現在。

黃:它誤判了。

孫:對,它誤判了,或者它認為它正確,所以現在的AI還是會出現,一定比例的很誇張的錯誤,因為它是從我們既有的資料學習,多少會有些偏見,而且有一些所謂的common sense,是沒有get到的,所以非常critical 的decision making,最好一定要有一個人in the loop,不然你不知道錯誤發生的consequence可能很大。

黃:是,對,所以不要讓這個AI可以做非常重要,足以毀滅人類的這樣的決策,這過程中都最好不要有AI的參與,或者參與之後,最後要決定還是得是人,AI只能提供一些判斷。

孫:是。

黃:包括我知道像各國的法院,臺灣也有,美國也有,他們可能會想要用AI去研究從前的判決,然後來幫助法官做判斷,因為以前法官自由心證的範圍太廣了,到底他面對一個罪犯要判他1年到5年的幾年?那有用AI收集過往的判決,然後看說不同的這個罪犯,他的犯罪的情節、各種程度、法規,然後來建議法官說那他的刑度應該是多少比較合理,但是那個最後決定的人還是得是法官,而不是由AI就決定說這個人要判死刑。

孫:對對對,就是會影響到個人的權利的,不管是剛剛講的法官判決,或者是醫療方面,或者甚至是HR 人員的招聘,過去很多研究都發現說,雖然說AI 的正確率很高,但是就算錯誤只有1%,那個1% 錯誤的risk是很大的,那一定還是得有人去做把關,因為AI不能負這個責任。

黃:對對,而且AI它,就像您之前有提到,它會產生偏見,它可能是擴大人的偏見,對不對?它學習人類的行為模式以後,它可能就以為人類喜歡這樣,或它真的發現人類喜歡這樣子的,比如說以求職的履歷來說,它可能就會讀了一個公司的資料以後,就發現怎麼好像人類喜歡用白人的男性,所以它可能第一關篩選的時候就把所有非白人男性刪除掉了,對不對?

孫:是是是。

黃:但是像這樣子,只要我們有意識到這個問題,是不是就可以去調整這個AI 的各種條件?

孫:對對對,就是首先必須還是要知道那個偏見的我們要能夠,存在在哪個維度,例如說性別呢、還是種族呢,只要我們知道它是在哪一個維度上有偏見,然後我去測量這個模型,真的有偏見,我都可以再重新訓練的時候去屏除這個偏見,對,那不過困難的地方是,有時候這個偏見存在的地方,甚至我們是人都沒有察覺,因為像種族跟性別這個還很容易理解,但是也許是白人中。

黃:某一種類型。

孫:其實也是說很弱勢的,不是我們一般人會提的,對,所以怎麼樣發現可能存在的偏見,然後再去想辦法修正模型,也是一個研究的方向。

黃:是,我們回到您剛剛說機器人,您說因為家用機器人它不會用,比較不會用在軍事用途,所以您不擔心,但是如果是有心人拿來訓練這個軍事用途的機器人呢?

孫:對,如果真的有心人士這樣做的話,應該說我相信有市場就會有研究,所以我覺得這是不可避免的,對,只能說給臺灣政府的建議是必須be aware這種發展,因為一定會有人這樣做。

黃:要提高警覺。

孫:提高警覺。

黃:怎麼提高警覺?

孫:對,然後。

黃:所以我們要有AI 的研發能量是第一步,對不對?

孫:是是,有AI研發能量,而且瞭解國際各個單位在往哪個方向走,然後如果真的要做這樣研究的話,我要提醒研究人一定記得在機器人上面放一個所謂的kill skill,kill button。

黃:kill button,我們人類可以把機器人殺死?

孫:對對對,其實就是一個很明顯的按下去它會停止的,就像我們這個前陣子很不幸的,那個臺中的那個捷運,其實就很明顯你要停止它需要很多程序,你沒有一個很簡單就是。

黃:一個按鍵就可以。

孫:按下去立刻就停了,所以任何機器人一定要有一個關,最後一關是人,我就算沒有受過訓練,我一看我也知道按下去這個東西會停。

黃:就讓它停電,沒有電力,它沒有辦法運作這樣子,這是很好的提醒,即使是家用機器人也是對不對?因為有時候機器人,它萬一這個機器有一些當機,它可能力道太強會傷害到家裡的老人家,所以這個我們剛剛提回來提到您提到這個政府要有awareness,要意識到這個AI 的重要性跟它的發展,所以這方面您覺得以目前臺灣的AI科技跟國際間比較起來,我們的專長在哪些方向?那比較弱的又是哪些方向?

孫:其實臺灣在深度學習起來前的這個一些技術,我們其實都發展得蠻好的,那當然現在深度學習的進展是非常非常快的,那包括我是2014年回臺灣的,那時候回來就已經全部都是深度學習,所以現在也蠻多的研究人員在做這塊。

黃:深度學習大概現在運用在哪些領域?因為我們知道最有名的就是deep learning它打敗了世界棋王,圍棋非常厲害,那目前它跟生成式科技,生成式AI 的差別又在哪裡?

孫:是,深度學習講的意思就是Neural networks神經網路,它有很多層,然後它的層數越多、資料越多,它的效果越好,那這是一個很通用的一個技術,所以它在一些這個語意分析,像language model也是一個深度學習的網路,只是它用了一個網路叫transformer,那傳統影像的話也是一個深度學習,影像分析跟生成也是一個深度學習的網路,那傳統它用的是Convolutional Neural Networks,那其實聲音也有深度學習的網路,傳統都是用不同的模型,但是大概在2年開始或3年前開始,逐漸地被transformer這個深度學習的架構一統江山,不管影像、文字、聲音都可以用一樣的這個架構,對,所以不管你是辨識,或者你是生成,或者你跨模態其實現在幾乎都是不同種類的transformer。

孫:人才的部分的話,因為深度學習的爆發性成長,所以各個國家都投入很多啦,臺灣政府過去其實也在第一期的AI 計畫跟第二期的AI計畫,有在這個大學這邊有很多的投入,那我現在覺得裡面可能臺灣,對臺灣而言最辛苦的是比較難招收到博士生。

黃:真的要做研究,他必須要有一定的時間,對不對?碩士生可能2年、1年就畢業了,博士生他才有一個5、6年的研究時間,那為什麼這個在AI 領域不容易招到博士生?

孫:是,對,我覺得有二件事情,那其中一個是因為AI 是全世界都很夯,所以想要繼續鑽研的同學。

黃:他可能就出國了。

孫:蠻多都出國,那當然我也是很樂見其成,那當然更好的是,裡面有一些人未來會回流臺灣這樣子,那第二個可能就是,如果留在臺灣的同學不一定很清楚說他在臺灣唸完AI畢業之後能去哪些公司?

黃:所以還是整個臺灣AI產業發展的問題,對不對?它夠不夠蓬勃?

孫:是,產業的,就是因為臺灣最強的大概是半導體產業,所以你在臺灣唸半導體產業。

黃:很容易找工作。

孫:對,你知道你畢業之後很容易找工作,AI 的方面其實也比2014年好不少了,我們有包含這個Taiwan AI Labs,還有我以前服務的那個Appier 沛星科技,然後最近政府也提供了很多incentive 讓外商進來,所以有越來越好,那我是希望這件事能夠持續更好,不然的確是會很難convince大家來唸博士班這樣子。

黃:是,AI 科技為什麼這麼重要?

孫:主要是它的泛用度,因為剛剛講的現在文字、語言、聲音、影像全部都是深度學習主導,然後可以做到辨識跟生成,所以它的下游有很多很多的應用,不管是網路的應用、智慧製造的應用、醫療的應用、教育的應用,未來很多事情的優化跟自動化,甚至我們以前做不到的事情,都會需要這些AI應用,所以它是它理論上應該是無所不在的,它可以繼續幫我們的半導體產業,包含據我所知臺積電,裡面的一些工廠自動化、瑕疵檢測,去調它的recipe 也開始用很多AI,它未來還有很多新興的產業,因為我們知道有一些工作,的確未來不太需要人類做,但是新興的產業就需要有研發的技術出現,如果研發技術留在臺灣,那以後這個產業,最主要的核心人才跟公司可能也會來跟臺灣做生意,所以這也是對未來也滿重要的。

黃:是,所以因為AI現在已經應用在各個層面,包括您說的科技產業,甚至連文學界、藝術創作界、影視音的產業,其實也都有大量AI 的應用在裡面,對不對?所以我們當然也期待臺灣的AI的發展可以越來越厲害,謝謝孫民老師!