台灣事實查核發展大躍進! AI不實訊息快篩平台上線
記者何蕙安/報導
台灣在發展人工智慧(AI)用於事實查核領域不遺餘力,由資策會開發的不實訊息偵測工具「快篩平台」近日上線,台灣事實查核中心可以更快速的偵測可疑謠言與訊息,並了解其查核與舉報情況,讓台灣在AI協助事實查核的發展更進一步。
資策會數位服務創新研究所數據應用中心副主任徐毓良與台北大學資管所教授汪志堅日前在台灣事實查核中心主辦的「2020事實查核與調查報導工作坊」,分享以AI使用於事實查核領域的現狀與挑戰。兩位專家表示,儘管台灣事實查核報告的數量相對較少,但借重Google的BERT模型,仍有機會實現謠言偵測與假新聞預測。
主持該場次的台灣事實查核中心總編審陳慧敏說,目前國際關於AI使用於不實訊息的偵測主要集中於英文與西班牙文內容,中文的門檻相對較高,所幸有資策會與學者的支持,讓中文事實查核也得以加入AI助力。
「我們常有科技的夢想,假新聞可以用AI產製,打擊假新聞是否也可以借重AI的力量?」陳慧敏說。
資策會研發出「不實訊息快篩平台」
「全世界查核組織都遇到一樣的問題,大家都是小型團隊,查核速度遠遠比不上不實訊息傳播與產出的速度。」徐毓良指出。
台灣事實查核中心一天收到的傳言有數十到數百則,但查核中心人力有限,加上查核工作相當耗時,一則查核報告可能要花一個星期都查不完,如何運用資訊科技工具協助查核,成為發展關鍵。因此,事實查核中心借助資策會的技術專業,於今年共同開發「不實訊息快篩平台」。
「AI短時間內不可能取代查核工作,但可以作到『加速』。」徐毓良指出,AI運用在事實查核的重點,是協助查核記者節省時間,例如一個謠言已經在過去被查核過,AI若能自動比對出來,查核記者就不用重複工作。
為了探索如何有效偵測可疑訊息,資策會結合服創所、數位所與資安所等力量,共同為查核組織研發打擊假訊息的工具。
徐毓良說,資策會是諮詢台灣兩家獲國際事實查核聯盟認證的查核組織 ,包括台灣事實查核中心與MyGoPen,了解查核組織的工作流程與重點,最終確認發展兩階段的不實訊息鑑識平台。其中,第一階段為「快篩工具」,主要以「過去是否查證過」、「被舉報為不實訊息的次數」等情境指標,協助查核組織初步篩選可疑謠言;第二階段則是「進階指標」,分析語言特徵、傳播模式與帳號。
圖1:資策會正推動研發的不實訊息鑑識平台模型。資策會提供
資策會的「快篩平台」已於近日上線。該平台目前搜集台灣事實查核中心、MyGoPen與Co-Facts等三組織的謠言舉報資料,透過「異質資料擴增比對暨叢集技術」,可以將相同內容、但不同類型的謠言(如文字、連結、影片)歸類,並進一步擴大比對社群平台資料庫的資料,並整理出各謠言的舉報數與查核情況。
圖2:資策會開發的快篩工具,可以將不同類型、但同一內容的謠言歸類,有助於AI比對事實查核資料庫,比對該一謠言過去是否曾經被查核過,節省查核記者時間。資策會提供
徐毓良表示,資策會正在進行第二階段「特徵分析」的發展,該部分為「不實訊息語言特徵偵測引擎」,AI工具會去解讀讀者提報的疑似傳言中,是否有武斷、情緒、推論、冠名、社交分享等不實訊息常出現用語。此外,在此階段,AI工具也將致力於透過分析傳播路徑與發文帳號,來判斷某一訊息的可疑程度。
「不管是哪種AI,都在找特徵值… 找出傳播途徑難度較高,而帳號辨識相對容易。」徐毓良解釋,包括觀察帳號的圖片、發文內容、好友名單與平台上的互動情況等,都可以成為輔佐查核的參考資料。
圖3-4:資策會數位服務創新研究所數據應用中心副主任徐毓良
運用BERT讓AI偵測成為可能
曾出版《假新聞:來源、樣態與因應策略》一書的台北大學資管所教授汪志堅表示,美國事實查核行業發展較早,迄今已累積多達數十萬筆資料的假新聞資料庫,有足夠的數據訓練AI學習偵測假新聞。相較之下台灣的數據較少。
所幸Google在2018年推出語言分析工具BERT,給了全球研究團隊一個希望;BERT是一個語言模型,已透過Google的資料庫進行大量的語言訓練,包括中文;研究者只要對其微調校對後,就可以用於偵測不實訊息,預測假新聞。
徐毓良補充解釋,Google最初開發BERT是為了預測搜尋引擎使用者的意圖,例如當使用者搜尋「餓了」時,搜尋引擎不會只出現內容含有「餓了」的文章,而是會出現餐廳的搜尋結果。BERT的出現對讓AI偵測不實訊息成為可能。
例如,共同贏得Google AI挑戰項目200萬美元獎助金的英國查核組織《Full Fact》、南非查核組織《Africa Check》與阿根廷組織《Chequeado》,也是利用BERT進行有關AI偵測不實訊息的研究,目前已實際運用於偵測可查核的訊息;例如在新冠疫情期間,《Full Fact》用以偵測到超過50萬訊息。
圖5:台北大學資管所教授汪志堅
AI的挑戰:假新聞定義、政治查核與影像
在汪志堅看來,在BERT問世後,技術或許不再是最大問題,關鍵在於「假新聞」的定義。研究者對於假新聞的語法、可疑傳播路徑、可疑帳號的定義,會決定AI會偵測的對象,但相關定義在現階段仍有爭議。
不過,以AI判斷政治人物言論是否為不實訊息,是一大挑戰;除非政治人物言論中有具體可以查核的數據(如GDP、失業率等),否則考量到報導的媒體立場、以及時常發生的「言論遭斷章取義」等情事,將AI用於政治查核還需要更多來自新聞學的專業建議。
徐毓良並表示,若謠言涉及深偽合成影片,屬於圖片加上文字的理解,涉及的運算資源與知識會更複雜;汪志堅也指圖片影音是下個挑戰,「現在國際上有一群人致力於研究圖形辨識,但也有另外一批人在努力把變造圖做得惟妙惟肖。」
「目前AI技術一定能處理的就是效率,至於要判讀不實訊息,可能還要三年五年後才有機會。」徐毓良高度讚揚AI加速查核效率、將查核流程系統化且科學化的可能性,但「像查核過程中很多跟專家求證的過程,這機器可能永遠都做不到。」
「(以AI作事實查核)這條路還很長。」徐毓良說。
參考資料