中國AI DeepSeek 便宜又強？台大教授洪士灝：成本降低，但有新瓶頸

Podcast節目

發佈：2025-02-26

文字：紀泰永
核稿：張育騰

台大資工所教授洪士灝接受國立教育廣播電台節目及Podcast節目《新聞真假掰》主持人黃兆徽專訪。

今年農曆春節前夕，中國AI公司發表DeepSeek R1模型，不僅讓大家發現AI發展不再是GPU和金錢的追逐戰，更開啟美中AI角力新篇章。DeepSeek的特點和優勢在哪？AI市場產生哪些變動？台灣在這場AI競爭，能獲得什麼啟示？台大資工所教授洪士灝接受國立教育廣播電台節目及Podcast節目《新聞真假掰》主持人黃兆徽專訪，表示DeepSeek讓大家知道發展AI不必花大錢，台灣可憑藉在硬體和醫療的優勢發展AI。

開發成本降低小模型也能解「Pro級問題」

洪士灝指出，DeepSeek的優勢在於結合混合專家模型、推理能力與蒸餾技術，不僅能解答複雜且專業的問題，還能降低開發成本。「DeepSeek V3模型又大又便宜的關鍵，在於混合專家模型，將一個大模型拆解為許多小模型，使訓練更為容易。」洪士灝說，新推出的R1模型雖與V3模型規模相近，卻具備更強的推理能力，能處理更複雜的問題。

一般而言，模型越大雖然越聰明，但成本也隨之上揚。許多降低成本的方法依賴壓縮模型，但這可能導致性能下降。「『蒸餾技術』就是在壓縮時多一點技巧，萃取出原有模型的精華部分，提供給小模型學習。」洪士灝將大小模型的關係比喻為師生——小模型不斷向大模型請教問題，學習解決問題的方法。「學到某個程度後，小模型就能獨立運作。雖然無法完全比肩大模型，但在某些專業領域，小模型依然能發揮作用。」

DeepSeek讓人驚豔的是，它的小模型不僅具備推理能力，甚至可以在個人電腦上運行，為產業界帶來新商機。「過去客製化模型的成本很高，但DeepSeek展現了一種可能性，透過蒸餾技術提取大模型精華，教導小模型專業技術，大幅降低開發成本。」不過，蒸餾所需的大模型從何而來？是否允許被蒸餾？洪士灝坦言：「這正是蒸餾技術面臨的瓶頸。」

儘管DeepSeek給人「俗又大碗」的印象，但其成本並不如表面看來低廉。「確實，它僅花兩個月、使用2048個GPU就訓練出R1模型，但前期科研成本卻未被計入。」此外，DeepSeek雖然標榜開源，「但其實只釋出模型權重，真正有價值的訓練資料並未公開。」

個人化AI戰場揭幕台灣還缺「算力人力」

洪士灝分析，AI未來的發展趨勢是普及化與個人化。「DeepSeek提供的免費或小型化版本，讓原本無力訓練AI的公司看到希望，能以更低成本打造應用。」個人化也是趨勢之一，專門訓練符合自身需求的模型，不僅提升效能，也能避免訓練資料外洩的風險。

至於台灣在AI發展上的機會，洪士灝認為，AI開發成本大幅降低，正是台灣投入算力的契機。「DeepSeek能用2048個GPU訓練出模型，但台灣目前尚無如此規模的算力。若算力不足，AI開發將難以推進。」此外，他也強調，算力雖重要，但人力更是關鍵。「台灣最可貴的還是人才，唯有累積專業人才，才能讓台灣在AI競爭中站穩腳步。」

【新聞真假掰｜假訊息ByeBye！】由台灣事實查核教育基金會董事黃兆徽主持。節目中邀請各行各業的朋友暢談媒體議題，為聽眾提升媒體素養、增強對假訊息的抵抗力，希望達成「群體免疫」，讓大家都和假訊息說掰掰！

更多精彩內容請搜尋「新聞真假掰」，或上各大Podcast平台收聽，YouTube頻道則有訪談精華影片陸續上架。除了適合大眾收聽收看，也推薦各級學校老師在規劃媒體素養課程時可列入影音輔助教材。（撰文：紀泰永、張育騰）

【立即收聽】新聞真假掰 — 假訊息 Bye Bye｜EP180｜

Apple：https://pse.is/77hbwq

Firstory：https://pse.is/77hbsl

Spotify：https://pse.is/77hbun

KKbox：https://pse.is/77hbyv

【非聽不可的相關訪談】

川普2.0即將開啟！台廠面臨第二次供應鏈移轉？「台積電」變「美積電」？

LLM 也可以用來對付假新聞？如何藉由AI向農場文學習更吸睛的新聞寫作方式？

【喜歡這集嗎？想對主持人或來賓提問嗎？】

🌟評分、留言這裡走｜https://pse.is/4p9wyd