中國AI DeepSeek 便宜又強?台大教授洪士灝:成本降低,但有新瓶頸


今年農曆春節前夕,中國AI公司發表DeepSeek R1模型,不僅讓大家發現AI發展不再是GPU和金錢的追逐戰,更開啟美中AI角力新篇章。DeepSeek的特點和優勢在哪?AI市場產生哪些變動?台灣在這場AI競爭,能獲得什麼啟示?台大資工所教授洪士灝接受國立教育廣播電台節目及Podcast節目《新聞真假掰》主持人黃兆徽專訪,表示DeepSeek讓大家知道發展AI不必花大錢,台灣可憑藉在硬體和醫療的優勢發展AI。
開發成本降低 小模型也能解「Pro級問題」
洪士灝指出,DeepSeek的優勢在於結合混合專家模型、推理能力與蒸餾技術,不僅能解答複雜且專業的問題,還能降低開發成本。「DeepSeek V3模型又大又便宜的關鍵,在於混合專家模型,將一個大模型拆解為許多小模型,使訓練更為容易。」洪士灝說,新推出的R1模型雖與V3模型規模相近,卻具備更強的推理能力,能處理更複雜的問題。
一般而言,模型越大雖然越聰明,但成本也隨之上揚。許多降低成本的方法依賴壓縮模型,但這可能導致性能下降。「『蒸餾技術』就是在壓縮時多一點技巧,萃取出原有模型的精華部分,提供給小模型學習。」洪士灝將大小模型的關係比喻為師生——小模型不斷向大模型請教問題,學習解決問題的方法。「學到某個程度後,小模型就能獨立運作。雖然無法完全比肩大模型,但在某些專業領域,小模型依然能發揮作用。」
DeepSeek讓人驚豔的是,它的小模型不僅具備推理能力,甚至可以在個人電腦上運行,為產業界帶來新商機。「過去客製化模型的成本很高,但DeepSeek展現了一種可能性,透過蒸餾技術提取大模型精華,教導小模型專業技術,大幅降低開發成本。」不過,蒸餾所需的大模型從何而來?是否允許被蒸餾?洪士灝坦言:「這正是蒸餾技術面臨的瓶頸。」
儘管DeepSeek給人「俗又大碗」的印象,但其成本並不如表面看來低廉。「確實,它僅花兩個月、使用2048個GPU就訓練出R1模型,但前期科研成本卻未被計入。」此外,DeepSeek雖然標榜開源,「但其實只釋出模型權重,真正有價值的訓練資料並未公開。」
個人化AI戰場揭幕 台灣還缺「算力人力」
洪士灝分析,AI未來的發展趨勢是普及化與個人化。「DeepSeek提供的免費或小型化版本,讓原本無力訓練AI的公司看到希望,能以更低成本打造應用。」個人化也是趨勢之一,專門訓練符合自身需求的模型,不僅提升效能,也能避免訓練資料外洩的風險。
至於台灣在AI發展上的機會,洪士灝認為,AI開發成本大幅降低,正是台灣投入算力的契機。「DeepSeek能用2048個GPU訓練出模型,但台灣目前尚無如此規模的算力。若算力不足,AI開發將難以推進。」此外,他也強調,算力雖重要,但人力更是關鍵。「台灣最可貴的還是人才,唯有累積專業人才,才能讓台灣在AI競爭中站穩腳步。」
【新聞真假掰|假訊息ByeBye!】由台灣事實查核教育基金會董事黃兆徽主持。節目中邀請各行各業的朋友暢談媒體議題,為聽眾提升媒體素養、增強對假訊息的抵抗力,希望達成「群體免疫」,讓大家都和假訊息說掰掰!
更多精彩內容請搜尋「新聞真假掰」,或上各大Podcast平台收聽,YouTube頻道則有訪談精華影片陸續上架。除了適合大眾收聽收看,也推薦各級學校老師在規劃媒體素養課程時可列入影音輔助教材。(撰文:紀泰永、張育騰)
【立即收聽】新聞真假掰 — 假訊息 Bye Bye|EP180|
Apple:https://pse.is/77hbwq
Firstory:https://pse.is/77hbsl
Spotify:https://pse.is/77hbun
KKbox:https://pse.is/77hbyv
【非聽不可的相關訪談】
川普2.0即將開啟!台廠面臨第二次供應鏈移轉?「台積電」變「美積電」?
LLM 也可以用來對付假新聞?如何藉由AI向農場文學習更吸睛的新聞寫作方式?
【喜歡這集嗎?想對主持人或來賓提問嗎?】
🌟評分、留言這裡走|https://pse.is/4p9wyd
【好節目需要鼓勵~請給我們五星好評】
🌟訂閱、評分、留言這裡走|https://pse.is/4lblzz