【原】中文才是真正的AI母語？相比起來英文被扭曲的很嚴(yán)重！

談芯說科技 2025-02-07 發(fā)布于重慶

展開全文

為了應(yīng)對(duì)DeepSeek，最近OpenAI緊急發(fā)布了自己的最新版本o3-mini，大家卻發(fā)現(xiàn)了一個(gè)很有趣的事情，即使是在用英文提問的情況下，OpenAI居然狂吐中文，這是在蒸餾DeepSeek還是改用中文訓(xùn)練了？

這也給大家提了個(gè)醒，DeepSeek異軍突起的背后說不定有中文的功勞，從機(jī)器學(xué)習(xí)的角度來說，中文比其他語言高級(jí)很多，是有很堅(jiān)實(shí)的底層架構(gòu)的，而英文則雜亂無章。

比如電這個(gè)字，以前用的少，但是現(xiàn)在衍生出來很多電腦、電視、電話、電冰箱等等，相關(guān)聯(lián)的都是用電來組，哪怕是個(gè)小孩子看到新詞也大概知道意思，但同樣用英文來這樣解讀就很容易出問題。

對(duì)于人來說學(xué)英文也許不難，但是對(duì)于利用神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)的AI來說，這未必是件好事，有人說硅谷正在加緊學(xué)習(xí)中文以求破局，還真有可能，尤其是那些詩詞歌賦，AI一旦學(xué)會(huì)了確實(shí)會(huì)有不一樣的體驗(yàn)。

最近中美網(wǎng)友對(duì)賬時(shí)，很多美國(guó)人也發(fā)現(xiàn)了這個(gè)問題，一個(gè)故事或者一段歷史被整合成了成語，短短幾個(gè)字就可以表述出豐富的內(nèi)涵，而且還有語義融合能力，這方面對(duì)AI也許很有幫助。

中國(guó)有悠久的歷史，也留下了大量的文字資料，很多人一直說什么中文互聯(lián)網(wǎng)內(nèi)容很垃圾什么的，其實(shí)AI肯定優(yōu)先學(xué)習(xí)那些成體系的資料，等學(xué)完那些之后再從互聯(lián)網(wǎng)上扒資料就很容易懂了。

之前沒有DeepSeek的時(shí)候，網(wǎng)上一直流傳一種說法稱中文AI永遠(yuǎn)超不過英文AI，沒想到只是訓(xùn)練方式不對(duì)，DeepSeek最被稱道的不完全是數(shù)據(jù)量，而是好像AI真的在思考，跟OpenAI相比多了一個(gè)“頓悟”時(shí)刻。

這是個(gè)很有趣的現(xiàn)象，看看未來用英文、法文、西班牙文等會(huì)不會(huì)出現(xiàn)這樣的情況，如果他們搞不出來的話，那也許真就是中文本身自帶的能力，因?yàn)锳I單純學(xué)語言很容易，但是能學(xué)出花來不容易。

除了語言的差別以外，還有個(gè)很嚴(yán)重的問題是ChatGPT被意識(shí)形態(tài)化了，很多東西被卡死了，最終很可能導(dǎo)致整條鏈路都會(huì)帶點(diǎn)毛病，而中文相對(duì)來說沒那么多限制。

DeepSeek明確表示他們用的中文數(shù)據(jù)比英文數(shù)據(jù)略多一點(diǎn)，而且為了解決語言混用的問題他們?cè)趶?qiáng)化學(xué)習(xí)訓(xùn)練期間引入了語言一致性獎(jiǎng)勵(lì)，如今OpenAI在思維過程中開始出現(xiàn)中文，很有可能大模型自己發(fā)現(xiàn)中文是最適合推理過程的語言。