📻國立教育廣播電臺【新聞真假掰】「網軍」是限縮網路言論自由的元兇?迷因圖暗藏仇恨言論?AI做事實查核有辦法比人更客觀嗎?專訪王銘宏(中正資工系助理教授)
📻國立教育廣播電臺【新聞真假掰】「網軍」是限縮網路言論自由的元兇?迷因圖暗藏仇恨言論?AI做事實查核有辦法比人更客觀嗎?專訪王銘宏(中正資工系助理教授)
📻國立教育廣播電臺【新聞真假掰】節目資訊
播出時間:每周日 17:05-18:00 全台皆可收聽(查閱各地收聽頻率)
收聽方式:國立教育廣播電臺 官網 60 天隨選收聽
📌邀訪來賓
王銘宏(中正大學資工系助理教授)
📌完整訪談內容Podcast
📌節目介紹
我們每天都在使用的社群媒體安全嗎?人人都在說的「網軍」又是怎麼影響我們在網路上的人權問題?為何網紅聲稱當代的網路言論自由正在限縮中?
中正大學資工系助理教授、中華民國資訊安全協會監事王銘宏老師長年研究、關心資訊科學造成的安全問題,近年也針對臉書的「按讚行為」、通訊軟體的假訊息流竄,有深入的研究。從資工專業作為基礎、加入社會科學的研究方法,試圖在網路、AI發達的當代,找出面對網軍、仇恨言論等問題的解方。
除了正視這些問題外、作為閱聽眾的我們,還能夠有什麼積極作為?本集節目邀請王銘宏,從各式專業研究,看當代數位環境的困境與可能的解方。請收聽「新聞真假掰 」,假訊息Bye Bye。
王銘宏 (中正大學資工系助理教授,以下簡稱「王」)
黃兆徽(台灣事實查核教育基金會董事/台大新聞所兼任助理教授,以下簡稱「黃」)
🌐最新精彩內容
從228到性教育,如何用動畫「臺灣史」引發興趣、激發思考
------------------------------------------------------------------------------------------------------------------------
黃:Hello大家好,我是兆徽,歡迎來到新聞真假掰,今天來到現場,要陪伴我們一起提升科技資訊與媒體素養的好朋友是中正大學資工系的助理教授,同時也是中華民國資訊安全協會的監事,王銘宏老師,銘宏老師好。
王:兆徽老師好,各位聽眾大家好。
黃:銘宏老師是資訊科學的專家喔。今天要從資料科學的角度來跟我們談談社群媒體的安全,然後使用的方面我們要注意什麼,然後從人權的角度,在資訊的來源、資訊的接收、資訊的表達上,我們有什麼要注意的以及您的一些研究發現,包括您這幾年一直在觀察網路上的分身帳號,其實有時候很多人說的網軍啊,到底網軍在網路上是怎麼做一些操作喔?那面對假訊息,透過電腦科學,有沒有可能找到一些解方?那你們怎麼做?包括銘宏老師有在研究說臉書的按讚行為,到底不同的媒體可以接觸到什麼樣的受眾,怎麼樣的受眾會喜歡什麼樣的不同類型的媒體,以及封閉的網路系統裡面,比如說 LINE 這種很有私密性、點對點加密的,上面的假訊息到底有哪些特徵這些都是銘宏老師這幾年學有專精的研究,所以今天要特別來請教銘宏老師,那我們今天的節目也加入了一位助理主持人是台灣事實查核中心的教育研究員張育騰。
張:老師好,大家好。
黃:有各種的問題跟討論,我們就會一起來跟您請教,我們希望有更多的交流,好,銘宏老師先跟我們談一談,從資訊科學、社群媒體、安全、人權的角度,您有哪些重要的發現?
王:在談這個社群媒體的安全,我們還是從聯合國這些人權公約最基本的,我們人在現實社會中,我們會有公平的接收資訊,或者是透明的接收資訊,那自在的表達我們的意見這樣的一個自由,那其實我們推到這個線上,社會上面也是一樣,就是我們在線上其實是我們也應該要有可以透明接收資訊,而且自在表達我們意見的這個這個權利,當這個權力在網路上面可能因為分身帳號,或者是老師提到的假訊息,或者是有其他各式各樣的威脅存在之後,可能讓人在網路上面,變得不自由或者是權利受到侵害,比如說網路霸凌或者是他接收到的假訊息,甚至他遭遇到認知上面的一些威脅的話,那其實都是我們在乎的這個社群媒體安全的議題。
黃:所以您這幾年在研究分身帳號,就是我們俗稱的網軍喔有哪些重要的發現?
王:其實分身帳號他其實不是一個新的題目,自從有網路、有論壇,其實從很早以前,大家應該也可以看,我們最早的時候,可能兩千年到兩千一零年,這個期間,其實有時候大家應該會聽到網路投票這樣的一個機制,就是常常會有民調公司透過網路投票或者是新聞媒體辦網路。
黃:或者是抽獎,對不對,就是一個人會申請好多個帳號來投票、來抽獎。
王:其實這個透過這樣的方式來申請很多帳號,但是隨著社群媒體的拓展以及他廣泛化,那很多人就會不管是手動或是自動化,去申請很多很大量的帳號來去表達他的意見,好的狀況是,他可能只是想要發揮他的聲量,但如果他後面帶有的,可能是他想要去推播特定的訊息,甚至特定立場的訊息,或甚至是淹沒某些人的訊息,其實這就是我們認為在網路上面的另外一個黑暗面。
黃:就是他可能背後是商業利益或政治利益的時候,我們就比較討厭了,對不對?就是某一種認知操作了齁,是,所以您的觀察呢?您怎麼去發現這些分身帳號,然後對他們做了哪些研究?分身帳號的意思就是一個人有非常多的網路化身是不是?
王:像我自己在做研究我們就會定義比較明確齁,可能就是特定的一個人或者是一個組織去控制一系列的這些帳號,那既然我們要去做 detect 我們大概有幾種做法,然後傳統的話,我們會去看 IP,但其實現在大家可以知道有很多種方式可以越過 IP 的這個detection 比如說。
黃:可以跳板,明明人在台灣卻可以改成在美國。
王:或者在非洲。
黃:這個竟然在技術上還沒有辦法偵測?
王:其實理論上,你透過跳板都會留下紀錄,在網路上面,其實並沒有任何一個完全匿名的一個機制,那只是就是說我們有需要花費這麼大的經歷去插這件事情,那我的角度,我是希望透過資料科學的方式來去做比較長期的觀察,例如我們曾經觀察過一整年或甚至超過一年的 PTT 的這個社群平台,那我們就會發現有一些帳號他可能有,比如說他可以在比如說週末,他就完全不活動,周間,他完全就是活動非常的劇烈,而且我們發現不只一個帳號,可能是多個帳號,都有這樣相同的行為,那如果你今天說的是,可能是一兩個月,或者是一兩週,有這樣的行為,也許是巧合,但是他可能是長達六個月、長達一年,那其實從我們的角度是人的行為是很難去做長時間的去改變,所以我們如果透過長時間的觀察,不管是觀察或是行為上面的分析,然後希望可以找出可能的這些分身帳號或是集團的帳號,那他們可能還有一些其他的行為,例如說他們可能會互相去 promote ,比如說其中一個帳號發表了,那另外,可能一群固定幾個帳號,就是會來協助這個眾星拱月這樣一個機制,這些其實都可以透過電腦科學來做一個比較具象化然後我們相關的分析。
黃:是,就是一群一群的所謂大家俗稱的網軍,那你們怎麼來發現這些網軍?您剛剛有提到嘛,就是這群人在同樣的時間進進出出網路,還有呢?
王:我們在做研究,當然我們講求還是科學性,所以其實像我們會希望就是說,我們可能透過 human verified 的一些機制,比如說我們可能有一些專家,PTT 上面有一些分身帳號的這個檢舉的版面,所以他可能是透過專家來判斷之後,他們就是分身帳號的集團,那我們依照這樣的一個標準答案我們來訓練一個模型,來開發一個這樣子的分身帳號的這個判斷器或者是分類器來協助去做自動化的偵測,那當然這一件事情其實相對是比較敏感的,因為我沒有一個任何一個人願意,被指控是這樣的角色。
黃:所以它的標準要很嚴格,對不對?
王:所以我們盡可能希望是避免掉所謂的false positive就是偽陽性,也許可以漏抓。
黃:可以把敏感度降低。
王:我們可以漏抓,但是我們絕對絕對不能冤枉,大概是在做這樣的題目,我們的原本的準則。
黃:這是分身帳號的偵測器,這個已經研發出來了?
王:對對對,這就是我們會有一些 AI 的模型來去做這樣的東西。
黃:那未來這個偵測器要放在哪裡,那怎麼樣可以使用到?
王:其實這個偵測器他可能是一個魔戒吧,我認為就是說,因為其實每個帳號他有他習性可能會去做改變,其實我們如果是單一的特徵的帳號就是這種分類器,我們其實可能沒有辦法長時間使用或是在每個場合都做使用,所以我們大概只能提出提供做參考,比如說一個具體的例子,就是說,我們並不會把這樣的東西交給行政單位來去做,那我們可能會是提供,可能不管是平台方,或者是一般使用者來去做觀察,或者是來去提示他,比如說這個帳號可能過去的歷史是怎麼樣,來去做一個預警。
黃:所以它會是一個公開的一個檢測器,大概是一個外掛掛在 PTT上,或者是什麼樣的模式?
王:這個是我們未來的目標。
黃:就是目前還在研發中。
黃:那除了 PTT 還有哪些平台有這樣的偵測?
王:當然我們理論上,會希望推到比較社群平台,但是社群平台當然也有他們的concern 比如說,臉書,或者是其他的,這些 Twitter 這些社群平台,他們可能有各類型,的 concern 是是不是會願意來讓你們去取得這些資料來去做分析,那我覺得這個可能都需要,也許更有默契,或者是更有互信基礎底下。
黃:因為 PTT 是一個開源的方式,所以大家可以上去做研究,然後貢獻各種資料。
張:那老師你剛剛說的那個分身帳號的部分啦,雖然說我們說要不要冤枉大家,可是比方說像現代人其實都會有很多個帳號,比如說以我自己來說好了,可能就有一個工作用的帳號、私人的帳號,那有些年輕人還有家長專用的。
黃:有一些帳號專門給家長看的,然後有另外一個帳號可以做自己愛做的事這樣子。
張:所以一個人有三個、五個帳號,好像是蠻合理的,可是像之前那個林北好油的事件,那個人、當事人有一千多個臉書帳號,這個看起來就比較有問題,那在數量上的判別,老師有沒有辦法,給我們一些參考或是說,多少。
黃:分身帳號,到底要到幾個分身以上我們才會覺得他有問題。
王:這個當然是各個人心中有一個有一個自己的定見啦,齁,那當然我個人我會覺得一百個一千個這種數量級都不是一個正常。
黃:不是合理的。
王: 對,但是你說三五個,我覺得這個都是蠻常見的,對,所以也許我們可以把這個threshold 拉到,可能是一百,或者是五百或是一千,就是讓你覺得。
黃:就是不合理,就是他背後一定有特殊目的,對,這個就是剛剛銘宏老師提到的,這個敏感性要降低喔不要錯殺了。
黃:對,所以這個分身帳號,您覺得他的目的可以提醒大家什麼?為什麼我們要做這件事情?
王:我們在現實社會談民主,會談每個人在現實社會上面,我們一個人的公民權是平等的,那為什麼在網路上面,我們沒有辦法去談這件事情,比如說每個人在網路上面,如果有帳號,其實他應該有發聲的權利,那為什麼有這些技術或者是有這些資源的人,他可以透過數千數萬個帳號來去做相關的這些推播?那其實在同一個平台上面假設閱聽觀眾,他沒有這樣的認知的話,他可能會覺得這個這個平台大家都充斥著同樣的一個言論,這些同樣的言論,他背後其實是只有一個人,那其實這就是讓我們討論變得非常的不自由或不透明。
黃:就是說聲量平權,每個人就是代表一個聲量,可是如果像您說的有一些人,他特別有錢,他可以去分身成五百個、五千個、五萬個分身,然後他好像就代表了五萬個人,對,所以所以這個是違反我們的這個民主的原則,一人一票、票票等值是這樣的理念,所以我們要揭露這樣分身帳號的操作行為。
王:是,背後當然還有更深一層的意義,就是說因為這些這些分身帳號他如果是用來做 marketing 商業上面大家也許,比如說有些廠商。
黃:你說這個化妝品好好用顏色好棒。
王:但是如果是用到可能跟商業以外的,不管是政治上面或者是國對國。
黃:就是成為境外勢力的干預。
王: 是,對,那我覺得這個可能就對於不管是人民自己的認知,或者是國家的安全,可能就會造成威脅。
黃:對這其實就是言論自由的犯範籌了,對不對?我們說言論自由市場,然後每個人都可以表達自己的聲音真理越辯越明,可是當有一個聲音是排山倒海而來的時候,可能會有寒蟬效應對不對?會有人覺得如果我講一句話被五百個人、五千個人、五萬個人霸凌,我可能就不敢講了,那可能一個人,他就可以扮演五萬個人來霸凌你這樣的角色,對不對?
張:像最近在網路上就是有一位 YouTuber 他叫 Cheap 那他本來是專門做歷史頻道相關的,那他最近在那個一個受訪當中,他說到他認為台灣的那個網路上的言論自由被縮限了,現在只要批評政府,就很容易會被抄家,那其實蠻嚴重的指控,那隨即就有很多正反方的這個意見跟討論,那他當然就會遭受到,就是反對方的所謂的出征,那老師,你覺得我們在台灣好了,單純以台灣來說,我們網路上言論真的被限縮了嗎?還是其實不是?
黃:好,剛剛育騰提到的這個現象,其實他很有可能是網紅要炒作一些話題喔,不管支持他,反對他的人,其實都會跳出來,對不對?就您的研究上也有看到這樣的現象嗎?還是說從演算法的角度來看,是不是真的有這樣的狀況?
王:其實從演算法的角度,比較常見的狀況是我們會喜歡看到我們想看的。
黃:所以為了,平台要讓你黏著在上面。
王:對,黏著在上面,那網紅比較特別,因為網紅他會更關注誰來他的版面上面去做討論。
黃:對,不管是按讚或者是噓他都好的,對不對?
王:所以他面對這個言論自由的觀察的角度,可能跟我們一般使用者不太一樣,因為我們一般使用者並不會有網友來我們版面上面,對,那所以他可能會比一般使用者更在乎誰在他的版面上面去做去做評論,那如果他已經習慣了,原本我們的社群媒體演算法比如說我都是看到跟我同樣志趣的同溫層底下,那他又關注了他的版面突然有了一些反對的聲音,那他中間的落差可能感覺就會特別大,那也許就是因為這樣的一個落差,來讓他覺得在網路上面的討論這個言論自由,上面可能有一些限縮,但我覺得相對來講,這樣,的當然這樣的指控我們當然不能說是是空穴來風。
黃:因為我們有做過很大規模的研究。
王:但是至於網路上面有沒有被限縮,我覺得可能還是要有一個有憑有據的說法,可能會是比較好的一個。
黃:是是是,因為剛剛育騰提到的,其實是實大家對社群平台在討論的,社群平台的言論自由,可是跟他的假訊息充斥,這中間到底要怎麼平衡對就是如果你都完全不管,那上面可能就是會有假訊息、會有認知操作,可是你一旦介入來管理的時候,到底誰來認定誰是假訊息,誰來認定誰是認知操作,這個可能就要有更多科學化的工具,那事實查中心可以根據社會科學的事實來做查證,那銘宏老師這樣的專家或者是台灣 AI Labs也在做這樣的用 AI 來偵測哪些是共進共出,我們剛剛說的分身帳號或者是協同團體,他其實是違反了這個民主的原則、一人一票票票等值這樣的原則在操作言論,那這個如果我們有具體的證據,那確實其實它就是違反了言論自由的基本原則,所以這個真的是一個全世界都在找解方的問題。
王:所以我雖然在資工系,那很多人覺得我做的領域好像跟原本認知的這個資訊工程可能有一些落差。
黃:但是會讓資訊工程更貼近我們的生活,對不對?跟社會學有了很多的社會科學有很多的結合,交集。
王:是,其實我自己定位自己的角色就是我,我希望做一個 bridging ,就是我們可以把我們自動化的這些技術來去進入到社會科學領域,來去協助過往社會科學可能有些因為人力或是相關的資源受限,沒有辦法去做大規模調查,我們希望可以 off load 但是我想最後的判定,如同剛才兆徽老師講的,最後判定還是需要專家或者是有公信力的這些單位,來去做最後裁決。
黃:因為銘宏老師其實也是 AI 專家喔,所以您現在在做的這些網路社群的觀察也是運用 AI 對不對?所以你怎麼看 AI 的發展?今年尤其是今年生程式 AI 大爆發,他其實也讓假訊息有更多操作的空間,你只要下幾關鍵字,一部假影片就出來了。
王: 是,我想生成式 AI 大家其實在過去我參加幾個研討會,大家都非常焦慮這件事情,那我個人是比較樂觀,就是我覺得好像不管有沒有生成式 AI ,我們都在做增進大眾媒體識讀,這最 fundamental,他可能不是一個治標的方法,但是他絕對是一個治本的方法,那既然我們增進了大眾的媒體識讀,生成式 AI 只是比較快速可以生成而已,但是並不並不代表它可能比較難判斷,或者是他判斷的難度暴增啊,所以我覺得從比較樂觀的角度還是從大眾的這一些媒體識讀的素養可以提升,然後讓他們可以有效果,而且願意去判別哪些資訊是可信的哪些資訊是不可信的。
黃:是,所以您剛剛提到的這個分身帳號的檢測器,這是一個幫助大眾來做科技媒體識讀、社群平台識讀的,對不對?
王:對,一個小工具。
黃:所以面對生成式 AI 的威脅,其實您沒有那麼悲觀?
王:是,我覺得生成式 AI 當然它是加速了自動化去產生,也許假訊息或是假影片這樣的速度,但是如果我們從我們原本要推動的任務,就是增加民眾的媒體識讀的素養的話,其實我們做的事情還是一樣的,所以生程式 AI 他其實並不會增加我們做這件事情的難度,他可能只是增加大家要判斷的訊息的數量而已。
黃:所以如果大家都具備媒體素養,然後也有一些 AI 工具的輔助,就是 AI 也可以做好事嘛,這像您說的這個分身帳號的檢測器,我們有了這些工具的輔助,這些假訊息假影片,我們?就變成我們的生活裡面的笑料了,是不是?
王:也許,對對對,也許我們偵測出來就變成是。
黃:最樂觀的觀點,所以您透過 AI 然後這個電腦科學甚至跟社會科學結合之後,叫做計算科學,來做假訊息認知操作、媒體素養方面的一些研究,您有在研究臉書的按讚行為那邊,同樣也很精彩,跟我們聽眾朋友分享一下。
王: 其實另外一個層面就是剛剛老師提到的其實我我現在主要希望可以推廣的叫計算社會科學,那計算社會科學他的名字有計算也有社會科學,那其實就是我們希望可以把我們計算的能量或是計算的技術能夠融入到社會科學的研究上面,那過往我們做過幾個關於臉書的使用者行為的研究,那其中,幾個比較特別的,比如說,我們曾經調查過台灣的,三十大的網路的這個媒體。
黃:三十大是用,它的流量?
王:三三十大,我們是用列舉的,就是比如說我們四大報相對應的粉專,那當然還有一些是網路 based 的媒體,比如說報導者或是上報,這種是基於網路的,那我們把這些以流量為主的這個三十大的這些粉專都是大眾媒體的這些粉專的,上面的使用者行為蒐集起來,那我們其實經過分析,經過電腦分析,其實我們可以把使用者閱讀分成三大類,就是說他們的閱聽眾可能是三大類,第一大類其實是財經媒體,像我們分出來的結果包含商業週刊、包含今週刊、包含天下雜誌、包含遠見雜誌以及最有趣的是經濟日報這幾個媒體,其實他們的讀者是相對應是蠻接近的,接近就是可能我看遠見,我也會去按天下讚,我也會去看商週,所以他的讀者可能是。
黃:同一群人,一群人就是蒐集各種財經訊息,對。
王:那另外一群當然就是,一般的大眾媒體,比如說四大報、比如說 TVBS ,比如說這種重要的這些電視台,就是它是 general issue 那這些其實比較有趣的就是說使用者在網路上面,它的閱聽的行為跟這個媒體的型態是無關的,我說的型態是,不管它是電視,或者是他是週刊或者是他是報紙,其實他們還是以主題為主,所以我們可以看到其實透過我們的研究,我們發現壹周刊,跟鏡週刊是分在這一群,就是大眾傳媒,他並不是分在週刊群。
黃:就是說其實讀者或是閱聽大眾,他不會管你原本你是電視台,我就比較愛,或者是你是雜誌,我就比較愛,他是混合的在蒐集資訊,因為大家都是放在網路上。
王:是是,那另外一群,更特別的就是深度報導,深度報導,這一群的讀者也是蠻獨特的,那我們觀察在這一群裡面,可能有報導者,可能有 The News Lens 可能有各大外國傳媒的,比如說紐約時報中文版、BBC 中文版、德國之聲中文版都放在這一群,所以其實會去讀外文媒體報導、會去讀深度報導。
黃:也是同一群人。
王:也是同一群人。
黃:就是讀者可以,閱聽眾可以分成這三大群,然後都是在這個群內,蒐集類似的資訊。
王:他們有 common interest ,那其實這個也是我們能夠透過電腦科學來協助的,因為如果傳統,大概我們還是必須要借重調查的技巧,或是做大規模的調查,來得到這樣的訊息,那我們如果能夠透過社群媒體,透過電腦科學的技術,也許可以接受另外一個層面使用者的閱聽行為。
黃:那這三大族群的閱聽眾啊,他的哪一群最大,然後它的大小比例大概是怎麼樣?
王: 當然最大群的就是這個一般的大眾傳媒,比如說四大報,然後這個四台這些大眾傳媒,那他們的比例大概是非常大,分出來三群並不代表每一群的大小是一樣的,就是我們的觀察最大群的,當然是大眾傳媒。
黃:就是接收一般資訊的那種。
王:那第二大群的就是財經,第三大群的,才是深度報導,對,所以。
黃:那他的落差有多大?就是喜歡看深度報導的民眾到底佔,比如說喜歡看財經的群眾根據你們的觀察,它的比例。
王:我覺得可能是一個指數的上升,可能是十倍、十倍、十倍,所以有可能是,一般大眾傳媒他的互動數可能是,最深度報導的,可能是一百倍,那可能中間是這樣十倍的這樣的一個 scale 就是從相對小眾的這個深度報導到財經雜誌,再到一般大眾傳媒。
黃:那在一般大眾傳媒的報導裡面,最受歡迎的又是哪些議題,您有當時有特別做出了這些研究。
王:議題上面我們沒有特別針對議題去做研究,因為其實現在報導在臉書上面,我們蒐集的時候,他有一些比較困難蒐集到的,有些有些粉專他習慣是把小編的意見放上去,所以我們可能只蒐集到小編的 command 了,並沒有辦法蒐集到原文,那但是這些都值得後續我們針對這個題目再下去做更深的研究。
黃:所以在這個臉書按讚行為的研究裡面,您覺得最有意思的發現是什麼?
王: 閱聽觀眾,他第一個,剛剛提到的,他並不會去依照他平常 approach 到的這個現實社會 approach 到的這個媒體的型態來去選擇他的約定媒體,都還是選擇它的 interest,那再來就是我覺得比較有趣的是,外媒,會去讀外媒中文版的這些群眾,其實跟會去讀深度媒體的這些群眾是類似的,那當然某種程度也反應了,因為外國媒體的中文版的網站,其實它還是都是做專題式的報導,他並不會做 realtime 的這些 news,所以他依照這種報導類型呢,其實我們是可以去區分使用者的偏好。
黃:是,另外你有 LINE 這個一些研究,不過我們先休息一下,銘宏老師幫我們點播一首歌曲。
王:我是資工的,所以我點播即將要來台灣開演唱會的 Ed Sheeran 的一首非常知名的歌曲叫做 Perfect ,那為什麼要點播這一首?因為第一個,當然是我很喜歡這一首,那第二個是 Ed Sheeran 他的專輯名稱是非常特別的,他是用數學的運算符號,加減乘除來,做他的這個專輯的名稱,那我想也呼應一下,我們資工可能會用到的數學。
黃:Perfect。
黃:感謝來賓的點播,但因為 Podcast 的智慧財產權問題,所以 Podcast 聽眾很不好意思,沒有辦法讓您也收聽到這麼精采的歌曲,歡迎到教育電台的節目官網,同時呢我們在這一集節目的說明欄也會貼上網路的連結給您參考。
黃:銘宏老師剛剛跟我們分享了,他如何從資料科學來做社群媒體安全方面的一些這個研究,尤其是從人權的角度提醒大家要注意資訊的來源,怎麼接收資訊,以及我們在表達的時候,有哪些要注意的,像是有一些網軍喔然後我們叫做分身帳號,也可能一個人就控制了五百個、五千個、五萬個帳號,這樣的狀況其實他是會危害言論自由的,也違反民主社會這個一人一票的這樣的原則,銘宏老師正在研發這樣的檢測器,讓我們在看到一些社群平台上的留言的時候,可以去觀察一下說,那這個人是不是真的是一個人,他是不是 AI 、他是不是假帳號,或者是他是不是一個人分身成五百個角色,在想要影響、操控我們的認知,那另外銘宏老師也在做很有趣的研究,包括這個計算社會科學,用電腦科學來跟社會科學做一些交集,包括假訊息的研究、認知操作的研究、媒體素養我們可以怎麼做,包括研究這個臉書按讚行為來看,台灣的三十大媒體不同的閱聽眾,他各是什麼樣的族群,那也發現了說,其實台灣的閱聽大眾可以分成三大塊,一塊是接收所有的大眾媒體,然後他是看議題來選擇他喜歡的媒體,然後有一塊是財經媒體,他有一群閱聽眾,就是在各種不同的財經媒體中搜尋訊息,當然也有很小一部分的民眾,他很關心的是深度報導,不管是國內、國外的網站,其實因為網路無國界了,這叫我們現在叫融媒體,其實也融合了各種媒體素材都在網站上,所以其實大家已經不太在乎媒體的形式,重點還是內容、議題對那這也是讓假訊息有很多操作的空間,所以也是 AI 可以想辦法解決的,銘宏老師剛剛有提到,我們用 LINE,也有在看 LINE 上面的假訊息,我們怎麼做呢?因為 LINE 其實是一個很私密的、點對點加密的,我們怎麼觀察 LINE 上面的訊息傳播的狀況?
王:LINE上面的訊息確實是不好去做蒐集,不管是機密性,我想這個就是原生它的機制就是,希望它是一個保密的這個點對點的這個通訊軟體,那我們在這個研究裡面其實我們是透過跟國內一個很重要的一個 NPO 就是Cofacts 然後還有國內一個智庫叫 IORG 兩邊來做合作那從 Cofacts,因為他是真的假的嘛,所以它會有使用者回報有疑慮的訊息。
黃:會提上去,大家說我收到一個這樣的訊息是真的還假的?
王:那我們透過這些使用者回報這些訊息,那當然是經過匿名的,那在合乎的這個使用的範圍裡面去做相關的訊息內容的研究,那我們是針對 Covid-19 期間的這些假訊息那我們發現呢在這一個 Covid-19 剛爆發的2020年的這個期間,大概有四成的這個訊息,可能是跟 Covid-19 有關的,那這些假訊息其實有幾個不同的特徵,第一個就是它會在地化,那我們觀察到,其實我們觀察到一組假訊息的演化的這個流程,就是說,他一開始他是用中國防疫專家鍾南山的名義來去做宣導,那但是在四月一號之後,就換成是衛福部長陳時中的名義來做相關的宣導。
黃:就是冒名。
王:對,冒名,那這就是一個假訊息一個很重要的一個特徵,那另外一個就是在地化,他也會跟著時事去做在地化,包含我們觀察到他在過年期間傳的假訊息,就是說元宵節之後,再看看要不要出門,元宵節之前不要出門,但是在過了元宵之後,這個假訊息就變形了,變成端午節過後再看看。
黃:對,就是他的假訊息內容是一樣的,他把時間點換了一下。
王:所以他有這些,不管是名人冒名,然後在地化的這些特徵,那其實這些過往我們如果是人工下去一對一比較比較,我們比較難看出一系列的演化的這些現象,那但是透過電腦科學的協助,就是我們是可以觀察到這樣的現象。
黃:您說的一系列的演化,您們是怎麼觀察?
王:其實我們是透過我們叫做聚類的演算法,就是一種把類似的文字文章聚集起來,那我們再把這樣的類似的文章聚集起來之後呢。
黃:排時間序嗎?
王:對,先從時間序來做排列,那因為我們經過這個演算法,我們出來的這些一群的假訊息,其實他長得很像的,那我們再去做difference 就是去找這些假訊息,每一則假訊息之間可能不一樣的這個字眼,那去做這樣的一個研究,個案的研究。
黃:所以就可以看到假訊息是如何變形,同一則假訊息他怎麼樣,因應時事,因應季節。
王: 所以其實這一件事情等於說最後面這一段我們還是要仰賴人,但是前面呢,我們透過電腦科學我們可以很有效率的把比較大量的資訊交給專家,後續來做評估跟判斷。
張:那像老師說到這個蒐集數據的部分,以查核中心來說,我們其實很依賴的是我們的聊天機器人,查小喵,那我們會非常鼓勵我們的讀者,然後有訂閱我們帳號的人把他收到。
黃:LINE 官方帳號。
張:傳回來給我們,那這個就會變成我們所謂的數據庫,那我會好奇說,透過電腦科學這些東西,我們有辦法找到那個,所謂的零號傳播者嗎?是誰先開始傳?源頭是什麼?還有就是假訊息的製作者,其實他們也滿有心的喔,你看就是,中秋節、端午節,還要與時俱進,所以說他的謠言他是要去做修改的,那我們有辦法查到說大概是哪一群人,或是他是源頭是什麼?
黃:我可以了解育騰的問題,就是他的源頭跟中間是誰又去把它修改了,對不對?
王: 其實理論上理論上應該是做得到的,但是因為包含剛剛提到我們在訊息去做回傳的時候,到底保留了哪些資訊?如果有保留帳號資訊、有保留他發文的時間,那至少我們可以在我們收到這些資訊裡面去拉出一個時間序跟一個帳號的關聯性,這個是可以做的,但是在我們這一個研究,因為我們要維持這個匿名性,所以我們只去看內文,我們只去看內文,那當然如果我們有更多資訊,包含帳號資訊,包含發表的時間資訊的話,我覺得是有機會來做做溯源。
黃:其實剛提到的這個討論其實是像 LINE 這樣的通訊軟體,因為他很強調私密性面臨的困難,當我們的,假設是 Cofacts 進去,但你蒐集了過多個資的時候,可能民眾也會反彈,因為我們會擔心,那我們的個資是不是太過於揭露了,所以怎麼樣做到保障人權、保障隱私,但是又追查這個假訊息的來源,這其實是非常困難的,銘宏老師,您的經驗。
王:我們當然是從外部觀察者的角度來去做了,所以我們能做的坦白講有限,因為我們第一個,我們沒有辦法去做全貌的觀察,當然在 PTT 的研究,我們幾乎可以去做到全貌,但還是有它是一個。
黃:因為他是一個公開的平台就可以做到。
王: 但是在比如說在 Facebook 或者是在 Twitter ,基本上我們是很難去做到全貌式的取得一個,snapshot。
黃:因為社群平台有擋住的關係。
黃:所以在 PTT 上面,其實是一個最公開、最開源的,可以歡迎大家來做各種研究的,所以我們在 PTT 上是可以追查到這一個假訊息,或是這個認知操作,最早是誰,然後經過誰來把它竄改變形。
王:在 PTT 上面,其實理論上應該是可以做得到的,因為我們是可以,假設我們今天有一個資料集,是橫跨了非常長久的時間,那我們又有他發表的人的資訊,可能包含他的內文,然後甚至他更動 editing 的這些行為,其實是可以做到這件事情的,但是包含在我們就先不去談 LINE 這種極度隱私的,即便是在Facebook 或者是在 Twitter 這樣的一個社交平台上面其實我們要去做這樣追查,第一個還是要有非常大量的資源,因為我們可能要蒐集這些事情,那第二個,當然就是平台,他們也有,他們有願意也要願意或者是資料,那不然他們基本上還是會有擋爬蟲的機制。
黃:對,關於這個,剛剛您提到 LINE上面的假訊息喔,我們有很多的研究,但是他也有一些研究的限制跟我們為了保障人權隱私不得不遵守的規範。
黃:另外,您在也有在偵測說要怎麼用 AI 來看,哪些訊息是政治操作,這個敏感度更高了,您怎麼做?
王: 因為 AI 使我們能夠很有效率的,或者是很大量的,仰賴計算能力來去看大量的影片,就是可能用電腦來幫我們看影片,那我們會發現,有時候會有一些現象,就是素材重用的這樣的現象,就是當我們要進,不管是做政治操作,或者是做任何這個推廣 marketing 的時候,其實我們還是會有素材重用,比如說我們把一段文章給不同的部落客來發文,這也是一個素材的重用。
黃:或是他們有一些變形的齁。
王:但是過去來講,文字的話,我們去判斷素材重用是相對容易的。
黃:雷同度百分之七十、八十、九十,但是當它變成一部影片的時候。
王:那比如說最簡單的案例可能就是我們過往有一個網紅,他因為去做了這些電影的摘錄,然後可能被電影公司控告他採用了,對,那其實我們要做的事情有一點,就是說假設我們某一個政治操作他背後可能是是有人在提供這個素材,那但是呢?經過包裝之後,每一部影片他看起來不會完全一樣,那我們能不能透過電腦科學的技術,把這些所謂模板的部分先移除,只留下素材。
黃:是,所以就是一個中央廚房,他提供了一個菜的基本的樣貌,然後送到不同的餐廳做不同的加料。
王: 你,你感覺不出他可能是背後是來自於同一個陣營,但是透過我們把無關的訊息拿掉之後,只留下素材,我們會發現他背後還是有他的關聯性,那透過這樣的方式,我們其實是有機會去找到可能的集團操作。
黃:所以這樣的方式其實跟你剛剛說從偵測分身帳號是用不同的 approach 的方式,對不對?他是用傳播的內容來看,它的相似度有多高,這個相似度不只是文字還包括影片,那影片以前在做事實查核的時候也是一個很大的困難,對不對?一小時的影片我們的查核員要從頭到尾看過一遍,那現在因為 AI 可以辨識圖像辨識聲音轉化成文字,他的這個比對相對就會比較容易。
王:是,就是說我們我們希望把人需要花很多精力做的事情,如果 AI 能夠幫忙,那我們就交給 AI 來做,那也許我們就可以把我們能夠查核的,或者是我們能夠偵測的數量級呢,往上推一個數量。
黃:是是,這樣子本來查核記者一天工作,假設 9 個小時,他只能看九部影片,這樣的事情就交給 AI 對不對?查核記者就可以去做更重要的,人才能做的事實查核。
黃:對,另外呢,您還有一個很有趣的研究是在研究迷因圖,尤其是把這個搞笑的迷因圖,但是暗藏了很多仇恨的意識型態在裡面,對不對?
王:對,其實這也是我們目前正在做的研究齁,那其實他的發想是我們還是想要去解決仇恨言論的問題,但是仇恨言論,過去我們認為言論可能是文字,那現在呢?比較多是透過多媒體的型態,不管是圖片或是影片,那迷因圖就是其中一個圖片的一個型態,那這個圖片的型態呢,迷因圖又相較於一般攻擊性的圖片,又更困難的點是它又夾雜一些你需要一些背景知識,那或者是。
黃:你可能是看不懂的對不對?不知道他在笑點在哪裡,這樣子。
王: 然後他可能還有一些反諷或者是有一些暗示性的這些,仇恨在裡面。
黃:尤其是性別對不對?
王: 對,性別,那這個問題其實蠻嚴重的,因為真正受傷的人,他可能是很小眾,但是他可能看到這個是非常不舒服,但是絕大多數的人是覺得無傷大雅。
黃:笑一笑而已,您可不可以舉個例子,有一個什麼樣的迷因圖。
王: 比如說我們就有觀察到,就是有迷因圖是做種族仇恨的,就是白人夫婦,他生一個個寶寶,他背景的房子的冒出來煙囪冒出來的是白色的煙,那但是呢?是黑人夫婦,出來一樣是黑人寶寶,他並沒有做寶寶顏色的,但是他煙囪的煙冒出來是黑的,他就是透過這樣的方式,來去做一些暗示,然後再搭配一些,他可能有一些這個種族歧視的這些字眼來去,讓我想白人看到應該不會有什麼感覺,因為白煙是一個蠻平常的一個,但是黑煙,感覺就。
黃:很像是製造空氣汙染。
王: 對對對對,所以他就透過這樣的方式來去散播仇恨,那我我們覺得這件事情其實是仇恨言論裡面,一個目前越來越常見的一個現象,但是它是相對困難去偵測。
黃:因為他經過潛移默化,會把歧視變成好像覺得很合理、很好笑,但是他其實是在搞笑中又傷害了很多人,侵犯了大家的人權,這個是不是也是透過 AI 科技的進步,其實我們在偵測上,可以解決了一些。
王:對,其實就是過往我們在做這樣子的多媒體的研究其實我們真的是非常困難,就是我們光是要辨識這裡面有人有小孩、有煙囪,還不要說煙的顏色就是非常困難,然後但是現在透過 AI 其實是可以做一個增做一個描述,包含剛剛老師提到的生成式 AI 都可以針對圖去做描述,那我們現在當然是第一個,就是先把這些影像的內容轉譯出來,這個是第一步,但是第二步。
黃:轉譯的意思就是說把它這個圖在講、畫什麼,變成文字。
王: 因為用文字講,我想這個傳播力還是相對來講,是電腦的解析能力還是比較好一點,但是第二個比較大的問題是,我們要怎麼去connect這個仇恨的關係,比如說,黑人抱小孩,煙囪是黑的,假設他有做,那煙囪是白的,我們怎麼樣去對應說這可能跟種族上面是有一些歧視的暗示性,那這件事情我覺得目前是比較困難來解,那我們是借住人機合作的一個角度,就是是我們現在叫做 human inner loop 的 AI ,就是我們在電腦真的很難判斷這種反諷式的這些內容的時候,交給人來協助,那我們是不是能夠透過群眾外包交給。
黃:人來教 AI 。
王: 那來提供一個 feedback 告訴他,這個裡面可能是有暗示性。
黃:黑色幽默真的蠻困難的,這其實因為幽默本來就是大家覺得是人之所以為人很重要的一個特質,懂得幽默,但是如果這個幽默用在不對的地方變成黑色幽默,侵犯到人選,那就是我們要特別小心,但是這也是 AI 相對困難的,但是您提到的一個解,方我們怎麼樣用群眾的力量,大家來教 AI 。
王:目前在這一塊就是第一個就是種族的仇恨,那第二個,在台灣很常見的,就是性別的仇恨,那這兩個仇恨,我想他同樣的迷因圖他傷害到的其實相對來講,都還是比較小眾啦,比較小眾,但是我們並不能忽略這些小眾的人他受傷的程度。
黃:其實事實查核中心,之前有破過好幾個迷因圖,對不對?
張:對,我們有破了兩張迷因圖,這個我可以舉例一下,然後這兩張迷因圖其實讓我們被蠻多網友就是指教的,就是會說你們好沒有幽默感。
黃:但是這個幽默感其實不應該是傷害別人。
張:像有一個的話,是他講說德州有熱浪,然後老奶奶呢可以用信箱來烤麵包,就是他的那個畫面是一個老奶奶拿著一個烤好的土司麵包,然後對著一個石頭做的信箱這樣子,那這個當然就是跟那個天氣,全球暖化,他是要隱喻這件事情,然後我們就把這張圖就檢舉了,然後標示為假訊息那我們就收到了很多美國網友,而且是美國的網友,然後他們因為很多都是專門經營迷因的粉專,然後因為我們可能他難得有一張圖觸擊率很好,可是因為這樣,我們把它就是 block 掉了,那他就是蠻反抗的,那另一個是那個,有一個說六十歲的男子,然後他有報案,有一隻寵物松鼠跑到他的身體裡面,然後那個圖就是一張 X 光片,那這個我們會做是因為很多台灣媒體有報導,他們最後通常會講一個說這是一個 p 圖、這是虛擬的、這個是諷刺的文章,可是我們也知道現在人多數就只有看標題,那這個標題一出來,有時候大家都說天哪,居然有這種事情,那可是這個我就有點好奇說幽默感跟這個查核,因為的確是,模糊,沒有這件事情嘛,那也不是的確不是這樣,可是有時候常常我們看迷因就是求一個休閒,求一個娛樂這樣子。
黃:銘宏老師怎麼看,就是其實這也是事實查核常常要面臨的抉擇。
張:比方說像剛剛老師指的那個黑煙、白煙,我想有某一些人可能會覺得說你們也是幽默感不足,為什麼要把這種圖。
黃:但是因為黑煙,我自己的角度黑煙他會扣連到空氣污染,是非常的負面的,但是對於這個老奶奶,然後說他在信箱前面,因為信箱很熱,所以把這個吐司烤焦了,提醒大家說全球暖化這麼嚴重,這件事情到底需不需要事實查核?是不是在幽默容忍的範圍裡面?可能我自己會覺得說他只要不要誤導社會大眾,不要造成公共利益的危害,或許我們是讓幽默有一些發揮的空間的,那我不曉得銘宏老師從資料科學家的角度。
王: 其實在我們做這個研究的時候,我們我們其實做了很社會科學的事情,因為我們做性別的仇恨跟種族仇恨,其實我們找了幾個不同的 background 的人,然後經過我們的告知這些性別仇恨的準則然後請他們來做標記,那就變成是我們找了多個受訓練的標註者來去標註這些圖他是不是有。
黃:仇恨或歧視這樣子。
王:那我覺得我因為在研究上面我們是能夠這樣做啦齁,那當然是在實務上面的應用,也許我們沒辦法這樣做,不過確實這一個題目,他就是一個很主觀的,因為有些人看他真的沒有感覺,有些人,他不覺得這是性別仇恨,尤其是針對女性的性別仇恨,男性來看是沒有感覺的。
黃:你看,光是人來做事實查核就面臨了很多,常常都會有這樣的抉擇,這個事情到底算不算是幽默的範圍?那這個事情會不會影響到大家對事實的認知?會不會危害到公共利益?或個人的生命健康?我們都有很多疑慮了,交給 AI 做會更客觀嗎?還是更困難?
王:第一個就是我們是不是能夠提供一個trustable 的 AI ,就是讓人家可以信賴的 AI ,那我覺得在這種主觀認知的題目上面,可能還是相對來講比較困難,就是說我們還是沒有辦法去取信,舉例來講好了,現在的 AI 其實它判斷 X 光片或是判斷這種 CT ,它其實可以判斷的甚至比醫生好,但是假設你今天去看一個門診,但是 AI 告訴你,你有沒有病,你願不願意相信?其實我覺得這是一個很違反我們原本人在生活在這個世界上面的準則。
黃:所以目前最好的模式應該都還是人機協作,對不對?可能 AI 提供的這個東西是讓醫生有一個參考,然後他跟,他重新解讀之後,再給病人建議,其實這個類似的爭議,包括在美國,法官的量刑到底要判這個人幾年到幾年,他其實也有用 AI 做一些以前的判決的準則,到底法官都是考量哪些因素,判這個人三年判、那個人十年這樣子,那作為一個準則,可是也有人覺得為什麼,我怎麼可以這麼重要的事,關一個人三年跟四年,光差一年,甚至差一天,對那個被關的人來說都很嚴重,那怎麼樣可以把這麼重要的事交給 AI 來判斷?
王:雖然說面對到大家可能都在談 AI 但面對到 AI ,我覺得我們還有蠻長一條路要走的是人怎麼樣去信賴,或者是我們這個社會怎麼樣去信賴一個我們認為很新、很好的一個很現代的一個模型,或是一個技術,我覺得這個中間的溝通,也許我們有各類型的溝通的方法,可能是從政府端,可能從民間端或是從使用者互相的這個溝通的方式,但是我覺得目前確實還有一段路要走,就是如何讓民眾來信賴 AI。
黃:不過民眾信賴 AI 的前提是我們在發展 AI 科技的時候,他就是用一種保障人權隱私,然後值得信任的方式,我們才會有下一步說那民眾願不願意信賴。
王:對,確實就像生成式 AI 前一陣子非常紅嘛,所以就有很多科技大佬,他們有聯名希望先 pause ,那當然他們有他們的 concern 就是說其實,實際實務上面我們技術的發展是沒有辦法。
黃:不可能,今天是說你要暫停半年的研究,不太可能,對不對?是,但是他只是一個提醒,那您怎麼看呢?
王: 其實我覺得既然技術的推進是不可逆的,而且他也是沒有辦法暫停的,那我們是不是能夠多做一些跟人,尤其是在數位落差的狀況底下,我們更多的大眾的一些溝通的方式,不管是讓他們有機會在平常就接觸到這些技術。
黃:AI 其實早在我們生活周遭,對不對?從大家做那個美顏相機。
王: 對對對,那就是能夠讓他們知道其實這也是 AI 的技術,那某些東西也是一個 AI 的技術,那再來,就是當然就是從推廣的角度,就是他們享受到 AI 的便利的時候,也許他們心中的抗拒感,就會不一樣,就是像我們當時一開始我們希望爸媽來使用通訊軟體的時候,他們可能也覺得我覺得智慧型手機他們不會使用,但是當他們享受到這個便利的時候,也許他們的抗拒的程度就不會那麼高。
黃:是,我們也提醒大家 AI 的風險,然後也善用 AI 的好的那一面,然後讓大家生活的更好,非常謝謝銘宏老師今天的分享。
王:謝謝,謝謝黃老師,謝謝各位聽眾。
(校對:林新茹,2024/1/31)