📻國立教育廣播電臺【新聞真假掰】AI世界的正體中文資料如何豐富?建立台灣專屬AI搜尋引擎?深偽技術下的資安風暴?專訪李育杰(中研院資通安全專題中心執行長)
📻國立教育廣播電臺【新聞真假掰】AI世界的正體中文資料如何豐富?建立台灣專屬AI搜尋引擎?深偽技術下的資安風暴?專訪李育杰(中研院資通安全專題中心執行長)
📻國立教育廣播電臺【新聞真假掰】節目資訊
播出時間:每周日 17:05-18:00
收聽方式:國立教育廣播電臺 官網 60 天隨選收聽
📌邀訪來賓
李育杰(中研院資通安全專題中心執行長)
📌完整訪談內容Podcast
📌節目介紹
隨著AI、deepfake技術的發達,詐騙手段不斷更新,層出不窮。面對越來越多元、防不勝防的資安危機,中研院也成立資通安全專題中心,反過來利用人工智慧的技術來防治假訊息。
銀行通知你變更密碼?定存金額太大要修正?小心,這些都可能是詐騙的一種手法,當你按照指令輸入資料之後,個人資訊可能就無所遁形,陷入資安危機中!
桃園機場的電腦系統被駭客入侵,播放色情影片的事件,多數民眾應還有印象,隨著深偽技術發達,未來不只盜播,還可能造假傳播不實資訊,無論是蔡英文還是歐巴馬,都能輕易假借他們的容貌、聲音,說出不合常理的話語。
ChatGPT已是生成式AI的指標工具,但在華文世界,相關資料庫仍然是以簡體中文為最大宗。台灣身為較少數的繁體中文使用地區,國科會也已經嘗試成立專屬的搜尋引擎,希望透過資料庫的建置,創造出適合台灣人使用的AI環境。
本集節目邀請中研院資通安全專題中心執行長李育杰,從資安假訊息,談到人工智慧對於假訊息的防治。請收聽「新聞真假掰 」,假訊息Bye Bye。
李育杰 (中研院資通安全專題中心執行長,以下簡稱「李」)
黃兆徽(台灣事實查核教育基金會董事/台大新聞所兼任助理教授,以下簡稱「黃」)
🌐最新精彩內容
為什麼要對抖音提高警覺 ?中國社群平台都是黨的宣傳工具?台灣如何因應中共認知戰?
------------------------------------------------------------------------------------------------------------------------
黃:Hello,大家好,我是兆輝,歡迎來到新聞真假掰,今天來到現場,要陪伴我們一起提升科技資訊與媒體素養的好朋友是中研院的資通安全專題中心的執行長李育杰老師,育杰老師好。
李:主持人好,大家好。
黃:育杰老師之前在國立陽明交通大學的應用數學系教書喔,然後現在到中研院資通安全專題中心擔任執行長,我們先來談談中研院的資通安全專題中心,為什麼要成立這樣的一個單位?
李:好,這這個單位其實應該是 2004、05 年的時候,那個中央研究院院士李德財李院士,他開始注意到資訊安全的重要性,那當初我們只想到的是說,至少可以做到所謂的, public awareness,讓群眾知道資安這些事情,但慢慢的資訊安全其實他早期的研究領域比較窄,可能是偏重密碼,那慢慢的網路非常流行,大家離不開網路,那就網路害侵事件就開始有,就開始有不同的那個防治技術,那所以我要講的是資安這個領域,其實發展了這二三十年下來,他已經是一個非常跨領域,不管你在這一個 Computer Science 的資料庫也好,系統也好,網路也好,各個層都有資安的議題,而一些新興的應用,包括現在流行的衛星通訊,他也有資安議題,那我們看到的一些,像一些關鍵基礎設施,包括你的提款機,或者是中油的系統很多,你的點餐系統你的購物平台,這些都會有一些資安的議題,所以他其實是一個非常複雜的一個學門了。
黃:是,您剛剛提到的這些平台,他有什麼樣的資安問題?
李:我們,我想民眾大家最直接感受到的,就是所謂的個資外洩,這有可能是平台業者,他的資安做得不好,所以他的,你的個資,因為在那邊,他被竊取,也有可能這個平台業者,他的內部控管不好,你的個資被偷走,那另外也有可能是你自己不小心中了所謂的釣魚網站,我常常舉個例子,就是說所謂的釣魚網站就是,你今天假設你是某個,你不要講銀行某個銀行,他就發個訊息給你,他說為了資訊安全,為了保護你的資料,建議你定期要變更你的密碼,那你下面有一個連結,你點下去就可以操作,你點下去,你看到的頁面跟你過去的。
黃:是假的。
李:不是,看到你,跟你過去看到的頁面都是一樣,但是他是假的,然後他就開始的時候請你輸入密碼、帳號,然後要再確認、更新,然後summit 出去的時候,你以為你是做變更密碼的動作,其實是你把你的帳號、密碼個資告訴他,那這時候你的帳號就被你套走了。
黃:他要問你說原先的舊帳號是什麼,然後更新新的,那我們怎麼用肉眼來分辨呢?
李:肉眼分辨,第一個喔,這一個網址你要特別注意啦齁,那其實我常常舉個例子,現在大家做很多事情,操作都是在手機上,那這個例子其實是,現在是桃園市長張善政跟我講的,他說 China Airline, Airline 這個Air「I」的地方,換成阿拉伯數字的 1 ,其他都一樣,其實在小小的手機螢幕,你看不到,所以我們最好的建議就是說如果有這類的,你不要隨便點選人家給你的網址,你應該到原來的網站去看。
李:通常你沒有發現才會被騙,你能發現就不會被騙,所以我們一直在講說,你要回答他的original 原本的,不要被這些信件做引導。
黃:就是說今天我們如果收到一個簡訊,告訴你說,某某銀行的你要變更密碼,你應該不要點這個連結,而是直接回到你的那一個銀行的官網去看是不是有這件事情。
李:其實我們在做最基本的資安防護我們都是建議,不要亂點,連結不要點、 email 的附加檔不要點,那這個大概擋掉百分之七八十了。
黃:是,如果你收到這樣的訊息,你都回去他原本的官網去。我們繼續回到剛剛,您剛說資通安全的領域,有哪些需要注意的,一個是欺騙個資,還有呢?
李:剛開始是 2004、05 年,那時候李院士他認為這是一個重要議題,所以那時候就有一個 TWISC,Taiwan information security center 這樣的一個計畫出現,那應該是我覺得國內第一個資訊安全的大型計畫,那在那個計畫下,那個中研院就成立了這資通安全專題研究中心,那希望說,這資安這一個議題事實上,是讓大家都一直注意,而且這背後所衍伸的一些 research issue 就是在這個中心裡面做,那 TWISC 其實在做的時候,就一開始就有台科大、交通大學,那時候是交通大學,還有成功大學,那那時候我們把它叫做 TWISC 1.0 那接續還有 TWISC 2.0,那這個過程裡面還有一些跨國合作的計畫,那都透過這種資通安全專題研究中心來來support 這些,當然我講 support 是預算是政府給的,但是要做這些資安議題的研究,人才的培育,就透過這些計畫來進行。
黃:是是是是,所以資通安全專題中心大概的focus 的領域所謂的資通安全大概是針對哪些?
李:我們大概有所謂的網路安全,然後有密碼安全,然後有所謂的行動安全、雲端的資料庫,那這個都是比較基礎性,那有一些特定應用,比方說對於那些公共的安全,還有關鍵基礎設施,這些都是有一些cybersecurity 的 issue 在裡面,那些都是我們可以去著墨的,那當然這不可能在中研院的資通安全研究中心做,那其實台灣做資安的研究,事實上,在各大學都有,那整個不管是國科會、教育部,其實都有一些對應的計畫,在 support 這不同領域的資安。
黃:是
李:其實資安對一般民眾來講,很多人都覺得我是 nobody,我也沒有什麼可以偷的,但是其實這些駭客也好、這些壞人也好,真的是很聰明喔,你覺得你是 nobody 你不重要,但是你就是有 account 。
黃:你有各種帳戶對不對?各種網路上的。
李:有一種攻擊叫denial-of-service,可能我們的聽眾都太年輕了,其實大家都不知道,以前有一位叫柯賜海。
黃:我以前是採訪司法新聞的所以聽過。
李:柯賜海曾經發動一件事情要大家打電話到總統府,那你想像一下,如果全國一兩百萬人,同時打到總統府這支電話會發生什麼,那個全部會佔線,那所謂的 denial-of-service,當你開一個網站,你本來就流量就只有一個 upper limit,可是如果很多同時到這個網站你就會當機嘛,那你說我們哪來那麼多人要同時到你的網站,當你的 account 被人家 hack 他可以操作的時候,所以你就會變成可以,他叫你去連哪一個網站,你的電腦就去連那個網站,所以它可以同時擁有很多,他可以掌控的,那我們一般把這叫做殭屍網路,就是說你平常你覺得都沒有沒什麼問題,做你該做的,可是我如果下一個指令叫你去連結總統府的網站,我同時讓一兩百萬人去連結總統府網站,就會有能力 shutdown 這種,所以這個常常有人就是說你的電腦被植入後門,那你說我的電腦怎麼被植入後門,那你可能有時候就去,就是有一些網站就可以看免費的電影啊。看他可能在那個過程,就在你電腦植入一些後門,或者是我剛剛提到說有些 email 的附加檔去點是植入後門,所以這一個是對民眾來講,你可能覺得自己不重要,但是你你可能被人家利用,這是一個,那另外一個,你剛剛提到說,在業界常常會出現一些資安的事件,那前一陣子最有名的或是一直在發生的,就是勒索軟體,我第一次看到勒索軟體,我會覺得說,哇!這真的是很聰明很有意思喔,我以前在美國讀書的時候,在芝加哥,我我不芝加哥讀書,但是我去芝加哥看,他們有一招,台灣違規停車是有拖吊車的,然後芝加哥那邊違規停車,他就說給他上 boots,就是說把它輪胎是鎖住的,那你要開這個boots,就是要去警察局,就是繳罰單,他幫你開,就收罰款,那勒索軟體大概是這個概念,他不見得可以破解你這帳號密碼,可是他在外面再幫你加個鎖,讓你不能用你自己的帳號密碼,芝加哥警察局,他有公權力可以收罰款,那勒索軟體會出來是因為我們開始有比特幣,我們可以透過這種比特幣,透過區塊鏈這些交易可以繳這一個收贖金,而不用暴露身分,所以這些很多新型態的攻擊都是伴隨著新科技,當這一個歹徒知道要怎麼樣拿錢的時候,而不被發現的時候,那這種勒索軟體就可以出來。
黃:是,我知道台灣的企業,其實被勒索的狀況好像還蠻多的,這是他用各種威脅到你資安的方式,然後就是說你的帳號、密碼,或者是你的資料,我可以有辦法竊取,你要付我多少贖金。
李:是,通常這個贖金都算過,就是說他,你如果帳號密碼被鎖住,你的系統不能 function 甚至你產線受影響,你每天會損失多少錢,然後他大概就算一個數字,你願意付,對你來講最簡單,他大概就會變成企業的損失,可能,付這一個罰款,還付這個贖金還比較容易一些。
黃:是是是,所以這也是要提醒企業端跟個人端都有分別要注意的資安問題,我們來回到您一直以來的研究,就是 AI 跟假訊息喔,應用數學系,所以 AI 一直是您研究了多久的時間?
李:我可能要稍微解釋一下,我,我其實大學讀應用數學,然後到美國拿了 Computer Science 的 PhD(哲學博士),回台灣我其實有十幾年都在資工系,那我大概是 2016 年 2 月到交大,那當初為什麼到應用數學是我的指導教,我以前研究所的老師跟我講說他想要做大數據 Big Data裡面的的矩陣運算,那剛好我過去以來一直做 AI machine learning,那他講這個,我覺得好像蠻有意思的,我就過去啦,那我們一直在做的 AI machine learning,我其實跟人家開玩笑,我剛回台灣的時候,那個機器學習其實是不 popular 的,大概知道的人也不太多,那我說我比那個王寶釧運氣好,我沒有要苦守寒窯十八年。
黃:苦守寒窯十八年。
李:我 2001 年回來,我 1995 年開始做這個相關的研究,到 2012 年,其實 AI 就被大家是很注意了,那時候就開始有什麼 deep learning 開始出來,然後 2016,Alpha Go。
黃:2016 Alpha Go 贏了世界圍棋的這個金頭腦棋王。
李:然後 AI 就一波,然後最近生成式又有另外一波,所以 AI 其實這幾年,我相信在未來這幾年都還是一個主流,那不管這一個machine learning 或 AI 其實裡面有大量的數學,那有一些基本的,一些數學可以幫上忙的,那當然在 computers science 也好,在應用數學也好,都是做這種人工智慧做機器學習很好的系所,坦白講,所以我就是在這個環境下做這樣的研究。
李:所以你有興趣問說,AI 跟假訊息這個事情嘛。
黃:對,您為什麼會開始研究假訊息這樣的議題?
李:好,我想今天做一個知識分子,我我這個講知識分子,這聽起來就很老的人才會講的話,我們,你說你二十幾年在台大讀書,所以你們,我們都會講知識份子對社會的責任,當我發現這一個假訊息對這個社會的影響很大,那甚至造成社會的對立、分裂等等,我覺得這個是我們必須要認真去思考,他到底是怎麼回事,所以那時候我就對假訊息其實是有意識到,那有人問我說假訊息跟資安有什麼關係,那我其實在2018年就開始關注這個議題,那我第一個,看到的事情是我不覺得AI可以真的那麼有,對偵測假訊息真的是那麼有用,我沒有覺得真的那麼有用,但是,我其實看到的一件事情是,有些舊的新聞重新發,舊文重發這件事情,對社會有傷害,但是有沒有法律責任,你如果問我,我覺得說沒有,因為我覺得台灣畢竟是一個言論自由的國家,那,你把以前的新聞拿出來再貼,這有什麼問題,一點問題都沒有,但是這對社會會不會有影響,那我舉個例子,假設現在這個鳳梨很多。
李:那辛苦的農民就開始要賺錢了,但是有人貼一張五六年前鳳梨驗出什麼毒素什麼的,就把這樣的新聞在社群媒體上一直散播,那對這個農民會不會有影響?
黃:對對,其實我們在社群平台上也會收到比如說二十年前的電視台報導說醬油都怎麼樣怎麼樣,但是其實這中間早就已經修改過很多法規來避免這些狀況出現。
李:那這個是舊文重發,那過去我剛剛舉一個例子,那個陳水扁海角七億也看過很多遍,然後法國、巴黎反同大流行,這些東西其實都是舊的新聞,那甚至有些可能舊帶點假,但是他就會因為有些人有他的目的,他就適時的就丟出來,所以我第一個想法是,我們的 search engine 搜尋引擎的技術其實是非常進步的,如果我看到一則新聞,我可以去溯源,我知道最早出現的時間點是哪時候,那把這個訊息給讀者,也許會降低他對這一個新聞的信賴,他甚至會去懷疑。
黃:他就會知道說這是舊文,不是新聞,這是二十年前、十年前、五年前發生的狀況跟現在已經不一樣。
李:因為就我們在做研究當教授,我今天如果看到一些科學新知是二十年前,我絕對不會好像發現新大陸到處去跟別人講,這個好像是我的知識是落後的,但是這些舊聞我拿出來發,他一定是有某種程度的目的,這是第一個發想,接下來就開始發現說這種所謂的假新聞 disinformation 其實國外是有在研究,首先呢?有所謂的標題、聳動標題,那那個叫做 click bait ,那用正面來看,如果你要做廣告,你要吸引人家去點閱,那創造流量,這個是正面,可是假訊息常常也希望可以擴散,所以它的標題相對是聳動的,再來說,這個文章裡面是不是多帶一些情緒字眼,所以開始就在想說,其實一篇文章你去看從標題用詞、情緒字眼、來源,是不是從內容農場,然後這一個發布人他的透明度、他的他的credibility 是怎麼樣,這些東西合在一起看,我好像有能力替這一篇文章打一個分數,所以那時候我就開始想說,也許這是一個可以用AI來幫忙做的事情。
黃:這就是一種媒體素養的。
李:對,那我們一直在講說,對抗假新聞,最好就是提升民眾對媒體的素養,但是有沒有工具提供民眾這種素養或者是識讀工具?
李:所以我在想說如果我有一個打分數的這樣的機制,那也許給民眾一些參考值,那當這一個東西是非常可疑的,suspicious score 是高的,那你就降低你轉發的意願,那那是一開始做,後來發現說也許我可以再往前做,就是說,從這一篇文章,我可以去做推薦閱讀,就是這這篇文章,他可能是,有可能是假,那也許他在事實查核中心在哪邊曾經有人更正,或者是相似的文章有哪些,那我們就推薦閱讀,那我是一直相信你多聽多看,你的判斷力會增加,所以在這一個假訊息的的研究,就我們覺得說,從一開始要溯源到那個聳動字眼,到這個推薦閱讀,這其實都跟 AI 有關,那跟資安有沒有關?假新聞之所以變成很嚴重的問題是因為我們的社群媒體太發達了,每個人,你可能有臉書,可能有IG、有Dcard、有批踢踢,一大堆,那當我有 LINE,你看到一則覺得說怎麼,怎麼我覺得說很不爽,就馬上群組就散開,就貼貼你臉書,所以我們會開始在想說,這些傳播在臉書上貼,是不是可以被操作,那我剛剛剛好有提到那個denial-of-service,如果今天臉書,我們一般叫所謂的幽靈帳號 ghosts account 有一些假帳號,或者是有一些帳號其實是,是真的是有這個人,但是他被 hack 或者說這個帳號長期不用,他都被收了,那我今天想要發布一個假訊息,在臉書上貼,這些就是可以來幫我按讚、幫我轉貼的帳號,那其實在資安,這個就是所謂的殭屍網路。
黃:是,之前在這個台灣的批踢踢網站上,就有很多人去檢舉,對不對?然後或者是自己去報案,說他的帳號很久沒有用,然後被駭客入侵用來做認知操作。
李:所以認知操作,你就可以想說,他一個是所謂的帳號被 heck,然後就是變成殭屍網帳號這樣,那這個其實是在假新聞的傳播非常大的一個工具,所以我們怎麼樣進一步去看說到底這個傳播的路徑是什麼,那哪些是所謂的 ghost account 有沒有辦法技術上可不可以 detect,那所以其實我知道臉書也好、 批踢踢也好他也會把一些帳號把它下架,如果他發現這一個事實上是有人去報案。
黃:有人去報案,說我的帳號被盜用了。
李:或者是根本他就是一個假帳號,因為這些,這個就是生態的問題啦,其實從臉書的角度,他也希望他下面的 account 很多,流量很多。
黃:然後就算是假帳號,按讚也是有人按讚,他比較開心這樣子。
李:對,那從電信業者,這些使用越蓬勃,反正你,你本來我兒子 一 個月給他 2G 不夠,他要 5G 他要 9G ,因為因為他也要看這些啊,所以電信業者也很喜歡有這些東西,所以整個生態讓這一個假訊息是,是有他的溫床,那,AI呢?其實裡面幫很多忙,那個抖音或是 Tik Tok , Tik Tok 開始在歐美,一些國家都在都在限制嘛齁,那當然他有幾個理由啦。因為有些是 content 對青少年不好,那有些是會竊取你的個資,那有些認為說這個是對於做認知作戰很好的工具,那我可以跟你們講說 Tik Tok 或抖音,它是一個很厲害的公司,那他們在做所謂的,個人推薦recommendation。
黃:是。
李:這個,也是AI的技術。
黃:最後都是 AI 。它才會去記錄你的每一個行為,然後去分析你喜歡什麼。
李:他們做得非常好,同時他知道什麼樣的假訊息,對你是有幫助,所以現在的這些Deepfake 、Disinformation 、Fake news 他都可以做到高度客製化,我們每個人,我們每個人都是被分類的,你可能是哪一類的,那你對什麼是喜歡的,什麼樣的假訊息對你是有用的。
黃:他會投你所好,然後投放你最容易被騙的假訊息跟你講。
李:所以這整個AI扮演很大的角色。
黃:2015 年的時候,桃園機場曾經發生一個還滿讓大家震撼的事件,就是他的螢幕竟然放A片,這個事情到底是怎麼發生的,然後這背後帶來哪些也比較嚴重的國安的隱憂喔?
李:好,這個2015年那時候,大家其實開始有所謂物聯網這樣的技術,那當初大家會覺得說,怎麼可能發生這種事情,不過你現在回頭想想,你今天的手機如果你在看Youtube,你覺得手機螢幕太小你可以傳到你家的電視,但是你傳上電視之前他會問你一組密碼,那只要你知道,這一個電視的密碼,你就可以把你連控上去,那其實通常我們在設密碼,像這種物聯網的Internet of things( IoT),他常常遇到一個叫弱密碼的現象,就是大家出場可能是四個0啊、1234啊,那那時候其實這個事情很單純,就是旅客惡作劇,他就去試一下這一個投影幕電視的密碼,1234被他試過,他就把他手機上的影片就傳上去了,那這跟國安有什麼問題,第一個,物聯網這種東西,未來生活,在我們生活都有,包括你家的冷氣都是都是可以上網的,那今天如果放的是A片,你覺得是惡作劇,我想沒有人會懷疑,可是如果放的是習近平告台灣同胞書這怎麼辦,那所以當時2016年我在對外講的時候就是,沒有資安,眼見不能為憑。
黃:是,而且他如果是爆假訊息齁,您剛剛說習近平的告台灣同胞書大家可能還會知道說,喔,那是對岸的,今天如果是報蔡總統講了一個他沒有講講過的話,或者是報了一個假訊息出來。
李:你你,這個就破我的梗,我,我其實當時在講的是2016年,那時候我在講說,沒有資安,眼見不能為憑,那到後來有深度造假,Deepfake的技術出來的時候,已經不需要習近平告台灣同胞書,他可以習近平,可以讓蔡英文講,他想要她講的話,這個影片是可以造假。
黃:是的,已經提到的這個Deepfake深偽技術,可以讓任何一個人,用任何一個,用任何一個人的臉,任何一個人的聲音,講出他沒有講過的話了,對不對?這是一個什麼樣的技術Deepfake深偽,他最早是用在好萊塢電影對不對?後來有人用在A片上面,把自己喜歡的女明星換臉,那前一陣子有這個小玉事件,這個到底是一個什麼樣的技術?
李:這一個AI其實是可以生成他要的任何的影像,那最近那個,其實去年、去年有人用Midjourney寫了一個,畫了一個太空劇院,參加比賽也得獎,那也就是說,現在透過這種生成式AI的技術,他可以透過他從過去他截取蔡英文或是任何一個演員他的臉部資料,然後他就可以把這個特徵拿出來,他可以讓它重現。
黃:對,只要一張照片,對不對?現在技術越來越。
李:然後包括我們現在在講話錄下來,他就知道你聲音的特質,那其實我很早以前就跟哈佛大學孔院士跟他講過這件事情,因為他在介紹一技術叫GAN,他其實基本上就是可以生成你要的資料,這樣的技術,它是一連串的過程,隨便生成,然後去detect做得不好,再修上,最後就可以做到這種新的影像,所以這個東西事實上確實是一個國安的威脅,那剛剛講的那個放A片這件事情,去年裴洛西來台灣,在車站在便利商店也被置換,那,那個都是屬於惡作劇型的的資安問題啦。
李:那當然壞人想了這些方法,那好人怎麼辦?
黃:對,比如說AI生成的Deepfake假裝讓歐巴馬說出川普是一個蠢豬,像這樣子的深度偽造的影片,我們現在有辦法用AI科技來偵防AI科技造假的問題?
黃:面對這樣的深偽的影片、聲音,我們用AI有辦法來偵測嗎?肉眼已經沒辦法看出來?
李:用AI是有辦法偵測,我們可以對每一個影片的,每一個影片事實上是有很多很多那個圖片這樣接續下來,那你可以知道說,哪些事實上是被變造過,比方說他聲音跟聲音的那一個frequency跟影像,這個不是很smooth對接,那或者是有些歐巴馬講話的時候,可能有一些他常常做的特徵,有一些深偽的那個影片是沒有辦法完全做進去的,事實上是可以做測試,但是從我剛剛在講說,用AI防止假訊息到這個深偽造假,其實有一個很重要的就是,我們自己是不是那麼容易被騙,那我得要講說,當我要問說有沒有AI工具可以做偵測,一定是使用者,一定是民眾自己說,這一個影片我懷疑,可不可以?
黃:先提出我要先懷疑嘛,對不對?才會進到下一步。
李:即使技術可以幫忙,但是你自己,自己相信,這個就用不到技術。
黃:對,就是我們看到不太合邏輯或者比較奇怪的影片的時候,要先懷疑,這個是不是AI造假的。
李:所以,所以有人會問說,難道我們就這麼束手無策嗎?那我其實有一個解釋啦齁,就是過去在疫情期間,我們很多人都在看陳時中部長的記者會,如果你有注意喔,那個記者會一定是多台電視在,那個記者會開始前,那個電視台就先預告多久,那我認為一些重大訊息,我們一定要多管道求證,當你只有單一來源,你就先保持懷疑。
黃:是,還是就是有重大的議題的時候,國內不會沒有媒體區。
李:而且會有很多家媒體,所以我覺得那個是,就是對自我的訓練。
黃:這是一個媒體素養。
黃:是是是,這是很重要的提醒,然後我們來,回來談AI科技喔,因為您剛剛提到,您覺得說這個深偽的影音是可以被辨識的,但是我們也有另外一種說法是,這樣的辨識出來的model,它只要加入下一代的Deepfake深偽的訓練裡面,你這個辨識就被破解了,所以他又有辦法逃出你的辨識。
李:所以你知道做資安,我們一度就是說這個是在跳探戈。
黃:一進一退。
李:一進一退,你有,有一個技術,壞人就很努力地幫你破,當你知道他怎麼來的時候你就會有一些攻防,那剛剛講這個Deepfake是影像,其實從去年十一月三十號開始,一樣。
黃:ChatGPT,更麻煩了。
李:ChatGPT其實他背後用的,去年出來的時候是GPT3.5,就是第三點五代,其實2019年,OpenAI就有ChatGPT2,那時候叫GPT 2,那當時OpenAI很可愛,他就自己講說,我們有這個技術,我們可以生成任何的文字,但是我們擔心被不當使用,所以我們決定不公佈,那,但是很快的就有人去做測試,就是MIT Technology Review就做一個測試,他用人寫說俄羅斯對美國宣戰,原因是川普不小心,按了飛彈按鈕,這一句話顯然是很不合邏輯。
黃:先製造一個假訊息,然後來測試。
李:然後接下來新聞報導就有描述嘛齁,然後他就說俄羅斯根據這個飛彈的軌跡來自美國等等,然後他會有引述一些從2014年俄羅斯入侵烏克蘭、克里米亞等等,就把它完成一段,一篇報導,那這個民眾看起來,2014確實是入侵克里米亞,那這樣就很容易製造出非常多的假新聞,這個是2019年GPT2,那我們可以預期的是這一個ChatGPT用的GPT3.5,現在4應該更厲害。
黃:更容易製造假訊息,對,因為為什麼生成式AI很容易製造假訊息?您可不可以簡單的跟聽眾朋友分享一下。
李:因為生程式AI它在製造這些文字的速度很快,那我剛剛在講GPT2,製造假訊息,是那一個惡意的假,是人先寫進去,可是他可以幫你完成剩下的故事,那剩下的故事。
黃:惡意造假的人其實很容易利用ChatGPT這樣的工具,他只要有一個簡單的造假的基本的概念就可以發展成一整篇看起來很有道理的文章,這是一個,是惡意的;那另外一個是跟ChatGPT的原理也有關係,對不對?他不是故意要造假,可是他的這個ChatGPT的設計,它的生成式AI就有很多出錯的可能,對不對?
李:對,這個,我想也呼應一下,就是說它本身的演算法的機制,它是基本上是像文字接龍,這個字出現下一個字應該是什麼,所以他都會生成你要的長度的文字都沒有,沒有什麼問題,但是他本身不知道這些語意,OK,所以他常常拿就是說一本正經的胡說八道,所以這個是他最大的問題,那他之所以有辦法做這樣的生成這些機制,其實他靠的是大量他從網路上到處截取、搜尋回來的那些文字資料,那他就可以把這些做一些機率統計,做一些machine learning的東西就可以製造出這些東西來,那本身並沒有一些對錯的判斷,所以他很可能講的東西,如果你覺得有道理,一定是很多類似的東西存在這網路上,所以他讓你看到,但是也有可能很多地方是錯的,所以還是要自己判斷。
黃:因為他每個字的,哪一個字接在哪一個字後面,他是在猜測人類的偏好。
李:對,他是根據後面常發生,他會產生一個機率分布,然後他從最可能的接上去,然後再Conditional probability再往下接,我一開始用,我覺得非常開心,太好用了。
黃:他可以用來翻譯、用來寫文章。
李:寫文章、寫個推薦信都很好用,可是我開始就覺得有點擔心了,第一個,當然大家提到說他可能做假訊息,就像我剛剛講的那個例子。
黃 :就是有心人可以利用他,大量的製造很多假訊息。
李 :第二個,很可能是來自於所謂的Data Bias,偏見,那資料本身就不是那麼具代表性也好,或者是說因為這個資料可能偏向某一方,然後造成一些不公平,這個是有可能,然後另外。
黃 :可不可以舉一個例子。
李:那我另外再提一個事情,其實我們現在有在進行一個,我覺得偉大的計劃,當這一個生程式AI出來的時候,我們都知道ChatGPT很powerful、很好用,可是我們也知道後面可能的危險,那我事實上覺得可怕的是語言,其實他涵蓋很多東西喔,人類因為有這些文字、語言的發明,所以我們的知識可以累積、知識可以傳播,然後慢慢有所謂的文化,但是文化裡面有價值,OK,所以今天如果,OpenAI的資料,大部分是來自於美國。
黃:或者來自英語世界。
李:沒有,但是它裡面還是有華文嘛,但是華文裡面很多,可能,如果很uniformed去搜,那我想我們不用懷疑在中國的網站絕對多於台灣的網站,中國在網站上可以搜到的資料一定多於台灣,所以我也會擔心說,這裡面的價值也好、用語也好,會不會就比較傾向於中國,簡體中文,那其實在使用上你,你事實上是可以感覺到,你用繁體中文問,他講一講講一講,就是簡體中文出來的,那ChatGPT本身對於繁體中文跟簡體中文的鑑別能力其實並不是那麼好,所以除了文字上的就是簡體跟繁體之間不一樣,那個用語可能會有點問題,比方我舉個例子,馬鈴薯,你現在要馬鈴薯,中國叫土豆,我們是認為是peanut是花生,對不對?所以這個用語上就不一樣,那你今天ChatGPT如果跟你講土豆,你到底要把它想成是花生還是馬鈴薯,這個是第一個。
黃 :是,後面還有更深的您談到的,文化、價值觀啦,的這些問題。
李:那但是另外,還有一個剛剛的是翻譯,那另外還有一個,也跟翻譯有關,但是專業數語,大家兩邊的用法也不一樣,那比較混淆的,我倒是很樂意在這邊分享我很喜歡講的一個例子,因為我有教線性代數,應用數學系裡面,在台灣喔那個一個矩陣有行跟列,我們的行,再中國叫列;我們的列,在中國叫行,所以這兩個。
黃:正好搞混。
李:我如果上課有中國來的學生在下面,我一定要先把這些澄清。
黃:定義一下。
李:否則一定是雞同鴨講,大家是正交,他互相垂直的,所以這個名詞上、使用上也不一樣,所以,我事實上我們國科會就開始在做屬於台灣的、可信任的AI對話引擎。
黃 :是要建立台灣版的,ChatGPT。
李:我們不願意講台灣版的ChatGPT,因為,因為OpenAI燒的錢、投資的資源遠遠不要我們幾千倍,但是我們希望是拿現有的一些large language model,然後再把台灣的語料庫把它加進去。
黃:建立台灣專屬自己的大型語言模型,可信任的AI對話生成引擎,打算怎麼做?
李:事實上這已經開始了,那我們也引用最近Meta,事實上是Facebook母公司,那他有有釋出一些所謂的公版,就是他叫 Llama tool,那這個東西你就把它想像它是一個具備基本知識,只是對於中文的知識比較少。
黃:尤其是繁體中文的。
李 :你就把它帶過來,把我們一些台灣的語料庫一些Open Data加進去。
黃:加進去。
李:讓他更了解中文,台灣的中文,那當然裡面我們找一些人去做一些finetune啊,然後我們也知道慢慢學習資料怎麼樣去準備,讓這一個系統可以可以去做。
黃:我們大致是會怎麼做,因為很多聽眾朋友可能對AI不熟悉,包括您剛剛說到的finetune,資料的收集,所以我們怎麼樣再利用現有的大型語言模型加入台灣的資料,然後是哪些資料怎麼來微調他?
李:這個東西其實是蠻複雜的。
黃 :對,我們可不可以用比較淺顯的方式讓聽眾朋友了解?
李:就是說從。
黃:我們會從哪些資料?
李:資料,我們在看的是當然是越多越好了,那我們目前現在開始有哪些資料呢?比方說我們的課綱、我們的題庫,然後我們政府有一些Open Data,舉例來講說像觀光局他有一些旅遊指南,然後他甚至他有中英對照版本,這些東西所以你把它放進去,他就知道說太魯閣英文是什麼,然後要介紹重要的景點,他就會跑出來,那這些資料其實搜尋整理起來還是蠻複雜的,比方說我們也跟中央社license它過去十幾、二十年的資料,那這些資料的文本其實是比較比較中規中矩的,那相對於網路上拿回來的資料,有些。
黃:他會是真實度,新聞媒體,像中央社這樣的媒體報導,畢竟可信度、真實度會比較高。
李:可信度比較高,對,那我如果直接從網路搜,可能有一些色情廣告、借貸廣告、詐騙廣告,這些都會跑進來,所以我們暫時就不用這些資料,所以我們從源頭上就是相對。
黃:篩選過好的資料。
李:然後當然要有很多的算力,那大概需要有一些像GPU,那這些就是由國家高速網路中心來協助,那我說這個計畫要做,就是要有人才、要有資料、要有算力,那我們蠻不容易的把這些湊起來了,所以真的希望說,在因為這個計畫應該是明年三月、四月會結束,但是我們在這個過程我們會逐步釋出。
黃:太好了,所以我們就會未來可以在現有的基礎上,有台灣自己的、可信任的AI對話生成的引擎,我們可以找到更可靠的、台灣相關的,或是中文相關的資訊。
李:而且是我們習慣的用法。
黃:是是是,行政院最近也推出了,這個行政院及屬機關使用生成式AI的參考指引喔,這個指引的最重要的原則是什麼?
李:這個ChatGPT實在是太powerful了,大家都喜歡用,那當然,我想很多人都會想要用,比方說,你可以叫他幫你寫一個致詞稿,他可以寫得非常、非常的致詞稿。那當時國科會主委,他就是說,這個用會不會有問題,因為事實上曾經這個 Samsung他們使用的這個ChatGPT就造成他們的機密外洩,所以它本身就有一些,除了他的生成的內容有真有假,可能不見得百分之百正確,那也有可能因為你很多事情去問他,然後你的,你的心事、你的營業機密就會外洩,就是這個風險是存在的,所以行政院就是國科會主委就開始想說,我們是不是需要有一個這樣的指引,那我有參與討論,我想簡單來看,這指引至少有三個重要的精神:第一個,責任在人,你用這些AI的工具,用生成式AI的工具,負責任就是用的這個人,你不能把這個責任推給這生成式AI,所以第一個責任在人;第二個,它,因為它整個生成的機制它產生的內容不是百分之百正確,你要自己去判斷,你要去了解說這個是對或錯,有沒有根據。
黃:要有辨識能力。
李:對,第三個,你在使用的時候,你要知道說,他很可能洩露你的機密。
黃:是,尤其是政府使用的話,特別危險的。
李:所以他這裡有特別想要那種是機密性的業務是不能使用。
黃:所以生成式AI,比如說ChatGPT,我們在使用他的時候,其實也在回饋,讓他辨識資料庫更多,然後變得更強大,對不對?所以我們輸進去的資料就會變成AI學習的資料。
李:是,你講的完全正確,那當然這個就影響到,不管是OpenAI或是微軟,或者是為了Google他們做這一塊的生意,所以他們都會推出企業版,會跟你保證你的資料不會送到後台,他們有一大堆保證的機制,但是這就是保證,那我常常跟人家,最近常常舉個例子,那當然這個生成式AI很好用,你可以問ChatGPT台灣最好玩的地方是什麼?我如果要報稅要注意什麼東西?但是你如果想一想,你不見得很多事情,都願意這麼直接去問人家,你要知道說,當你問他的時候。
黃:他都知道你的秘密了。
李:我們常常日常對話,都是說我跟你講一件事,我問你一件事情,不是我,是我朋友。
黃:對,我有一個朋友是怎麼樣,可是當你問ChatGPT的時候,他知道你,他就掌握你所有你問他的東西。
李:你用越久。
黃:他越知道你的秘密,是不是?
李:是的。
黃:對,所以他現在很好用,我們把他當一個好朋友,可是要小心,他其實是一個陌生人,因為他我們完全不知道他會怎麼運用我們的資料。
李:所以我其實有我這十幾年演講,都有最後有兩頁投影片,一個是你使用什麼Gmail、使用FB,一堆那個social media,其實這些背後後台的大家才都知道,然後我剛剛講物聯網,你家的電器都上網,其實都被監控了。
黃:你的一舉一動都被監控了。
李:那那我,我不是反對這些科技,只是說我們在使用的時候,我們自己要有那種意識,就是說這個東西我可能犧牲掉我哪些資料,你做這個,我可能有哪些要注意,所以那個還是回頭來講說,大家要有基本的資安意識,那你今天如果有一個電話跟你講說你家人怎麼這樣子講的都對,不代表他,不代表他講後面的事情是真的,你自己還是要有一個驗證機制,包括我,我可能跟我兒子就會有一個通關密語。
黃:就是說以免被Deepfake的時候,你要確定那個真的是你的兒子在跟你講電話。
李:即使這個聲音,是我兒子的聲音,但是我也要確定是他。
黃:就是影片,你說你要跟他用影片,他都不一定是真的那個人對不對?所以要有你們彼此之間才知道的通關密語。
李:當然我也不希望這樣子講以後,大家生活變得很累很緊張,其實可能沒那麼糟糕,但是你自己要知道說科技已經進到你的生活了嘛,但是你要知道說,當你做這個決定的時候,後面的影響會有多大,比方說你要轉帳小額支付,五十塊、一百塊I don’t care了,那今天要轉個二十萬,這個是要確認一下。
黃:真的是你兒子,你要打個電話給他,對不對?
李:對,所以有些就是,你剛剛就提到一個重點,就是要有不同的channel去做查證,這是現在在講這個資安常常有人在說的,就是零信任架構。
黃:零信任架構。
李:就是你要隨時懷疑這可能是假的,然後對於身分驗證是第一步,所以身分驗證可能要有two factor或是three factor。
黃:就是有兩三種以上的方式來驗證,這個人真的是你以為的那個人。
李:然後我要強調,如果這件事情真的很重要,這些驗證其實就要存在,如果小額支付五十塊、一百塊。
黃:就不用把自己搞得那麼緊張。
李:日子還是要過正常一點。
黃:是,好,還有什麼您覺得很重要的提醒,在AI跟假訊息上。
李:我覺得假訊息是會一直有,那你聽到的所有的事情,我認為說你要去猜想背後的intension,你聽到這個東西,你會做什麼反應,沒有人喜歡被騙,那至於說,我覺得現代人就是降低自己膝蓋的反應,就是不要看到什麼訊息你就分享,分享這個動作其實是要想過,你只要看到一則訊息,對你有影響,是對你的個人,當你去社群裡面、群組裡面的分享,其實只要大家記得,這也代表你,你一分享,你分享的代表你,你不願意你是一個散播假訊息的人,所以如果你這個放在心裡,在分享前,你就會想一下,我覺得這個就可以抑制很大假訊息的散布,那第二個就是AI這個系統,未來AI進入我們的生活,那AI本身也有它先天存在的弱點,甚至未來的AI系統也會成為駭客攻擊的對象,所以有些事情也不能完全仰賴AI這樣。
黃:雖然它很好用,但是我們還是要是有一些防禦的機制,不管是從硬體的設計上,包括像李老師這樣的專家在研究怎麼來破解深偽、怎麼破解生成式AI、怎麼辨識,到一般人是不是有主動的媒體素養,我們要覺得這是一個零信任,就是要對於現在我們眼睛看到的、耳朵聽到的都要保持一個懷疑的態度,然後要做求證。
李:是,我講的真的勉強是,我不希望大家日子過得非常緊張,你還是要稍微去做一些分級啦,因為我剛剛那個例子,小額支付也許OK。
黃:但是就是要注意好自己的荷包,還有自己的腦袋,不要被認知戰影響。
黃:好,非常謝謝李老師,今天的分享。
李:非常感謝你。(校對:林新茹|更新:2023/11/29)