中國深度求索(DeepSeek)問世後,掀起中美大型語言模型之戰。3月開始大量流傳貼文稱「DeepSeek因為用漢字訓練,可以節省計算耗能」?這是錯誤描述大型語言模型(LLMs)特徵。
一、大型語言模型(LLMs)是透過大量資料訓練的AI工具。傳言假設只有DeepSeek用中文訓練是錯的。不管是DeepSeek、ChatGPT等AI工具都使用多語言訓練,不是只有DeepSeek使用中文訓練。
二、原始文章假設DeepSeek表現好是因為使用中文訓練,這是錯誤概念。中文少量單字確實能表達更多意思,但不代表中文在AI訓練上更有優勢。至於傳言提及「漢字是天然壓縮算法神器」、「漢字能節省30%的計算量能」都是錯誤概念。
三、DeepSeek推出後因表現佳讓外界驚艷,但這主要是跟其訓練模型技術有關。此外,因其是中國開發工具,比起其他AI工具,會有更多的中文資料庫訓練,中文表現或許比其他大型語言模型佳。
四、傳言提及「比起英文,中文每個字詞可以有關聯,具有更多意象」,並以牛肉、beef舉例。語言學者解釋,中英文書寫系統雖不同。中文是圖像文字;英語是字母表達。不過,文中關於英文的描述,是忽略語言歷史脈絡,且英文部分字詞仍具有關聯。
因此,傳言為「錯誤」訊息。
背景
中國深度求索(DeepSeek)問世後,掀起中美大型語言模型之戰。從3月開始,社群平台流傳一段文章「當OpenAI發現DeepSeek橫空出世的一個秘笈就是用漢字訓練時,他終於沉默。咱先說一組數字:一、漢字一個字符就等於英文的三倍信息當量;二、相同內容的中文文本長度僅為英語的40%到60%;三、漢字用三千字就能覆蓋英語十萬詞彙量的表達空間……漢字簡直就是天然的壓縮算法的神器,中國大模型直接調用漢字意象數據庫,省下30%的計算能耗。」
查核
查核點一:Deepseek會橫空出世是因為漢字訓練嗎?
錯誤描述大型語言模型(LLMs) 不是只有DeepSeek用中文訓練
國立陽明交通大學智慧科學暨綠能學院副教授許志仲說,大型語言模型(LLMs)是透過大量文字資料庫訓練的人工智慧工具。因此,提供LLMs愈多、品質愈好的文字語意資料,就會有更好的訓練成果,產出更好的內容。因此,影響文字內容產出品質的好壞,在於資料庫的品質,以及訓練的技術,跟是中文、英文的語言特質無關。
許志仲說,原始文章中假設OpenAI的「ChatGPT」只有用英文、中國深度求索(DeepSeek)用中文,這是第一個假設錯誤。現在常見的大型語言模型,如OpenAI的「chatGPT」、Google的「Gemini」等,在訓練時都會使用各種語言如中文、英文等資料庫訓練,產出各種語言的內容,不是只有DeepSeek會產出中文的內容。
政治大學語言學研究所助理教授張瑜芸說,目前很多大型語言模型(LLMs)背後都會使用多語言資料進去訓練,包含中文資料。因此,ChatGPT 能夠支持多語轉換,也能夠支持中文問答。因此,原文內傳達出 OpenAI 只懂英文這個語言、DeepSeek只懂中文的這個預設是有疑慮的。
中文少量字詞能表多意 但不代表在訓練AI上更有優勢
許志仲說,原始文章假設DeepSeek表現好是因為使用中文訓練,這是錯誤概念。中文少量單字確實能表達更多意思,但不代表中文在訓練上更有優勢。
大型語言模型是透過文字資料庫訓練,所有的字詞會轉成數字串訓練AI,AI產出內容時能透過訓練預測推理出下一個字串出現的機率。所以,對於大型語言模型來說,任何語言都只是編碼數字串,它不一定能了解到一個單字含有多重意思。
許志仲接著說,DeepSeek推出後,確實讓外界相當驚豔,因為它在文字推理、運算等各方面表現很好,但這主要跟其訓練的模型技術有關,也可能跟資料庫有關,但目前外界並無法完全得知資料庫來源。
許志仲說,DeepSeek因為是中國開發的工具,確實在訓練時會有更好、更多的中文語意資料庫,在中文表現或許會比其他西方國家開發的大型語言工具產出品質更好,但這是跟資料的來源有關。至於傳言文章提到的DeepSeek會橫空出世是因為「漢字是天然壓縮算法神器」、「Deepseek會橫空出世是因為用漢字訓練,漢字能節省30%的計算量能」沒有任何根據,也不符合大型語言模型的特徵。
政治大學語言學研究所助理教授張瑜芸說,裡面多處內容是將語言學的概念錯誤套用在大型語言模型系統上。AI產出內容的結果仍跟開發模型技術,以及資料庫品質有關,不是因為中文比較有優勢。
中英文書寫系統雖不同 但英文字詞之間仍有關聯
張瑜芸說,就書寫系統來說,漢字和英文的確不同,漢字為「圖像文字」,從圖像即可表意; 英文為字母表達。所以,某種程度來說,原文裡面提及的「漢字能比英文表達更多意思」、「漢字一個字符的含義更多」等漢字特色是正確的。不過,文中關於英文的描述,是忽略語言歷史脈絡,且只將單一字詞個案,一概而論為整個英文語系特徵。
例如文內提及「因為在英語,每多一個概念就多一個單詞。比如說英語的牛是cow,肉是meat,而牛肉就非得叫beef。在漢字中,牛是牛,肉是肉,牛肉是牛肉。此漢字的每個字卻能關連比英語多得多的意象。 」。
張瑜芸解釋,上述推論並非因果關係,而是只從單一觀點推論。實際上,牛肉的英文為 beef ,而不說是「cow meat」是有歷史淵源的。據推測是源自於諾曼征服英格蘭後,經濟體系為莊園制度具有階級制度,當時上流社會 (例如領主) 為了區分自己只吃肉不養牲畜,因為養牲畜是農奴的工作,想藉此凸顯地位差異性,因而延續法文的牛肉詞彙做出的演變。
張瑜芸說,英文的詞彙背後有很多歷史淵源,且每個字詞之間也是有關連的。如英文裡面也有很多複合詞 (Compounds),例如 machine 這個詞也可以跟很多字詞作組合,像是 vending machine, washing machine 等等。
寫中秋文案只有DeepSeek能詩詞聯想?ChatGPT也做得到
原文內提及「 當你讓DeepSeek寫中秋文案時,它會自主關聯《淮南子》的月宮玉兔,到蘇軾的「千里共嬋娟」,再到月球車的玉兔號 」。張瑜芸說,這不一定是 DeepSeek 專有的能力,很多模型背後的訓練資料如果有將古文放入模型進行訓練,也會有一樣的結果。
許志仲也解釋,若要讓大型語言模型機器人產生文學詩詞聯想,只要資料庫有相關內容訓練,以及使用者給予正確的指令(Prompt),應該不只DeepSeek可以做到。
記者實際使用DeepSeek(V-3)跟ChatGPT(GPT-4o)兩個大型語言模型,給予同樣的指令「請生成中秋節的廣告文案,並引用中國古典文學。」實測結果發現,兩個大型語言模型都可以聯想中秋的古典文學詩詞,如蘇軾《水調歌頭》,並非只有DeepSeek才能做到。
不過,進一步比較,DeepSeek能在給予一次指令後即引用多個古典文學詩詞,並且依主題予以分類;ChatGPT則需要給予更多指令,才會提供更多文案內容。


