全面超越Deepseek，阿里大年初一放大招

長沙7喜 2025-01-30

展開全文

請先記住這個詞：Moe模型。

因為這個詞未來會改變AI圈、改變金融圈、改變英偉達、甚至改變中美AI走向。

故事起因是這樣的：

10天前，大家都準備回家過年了，結果來自浙江的一家小公司DeepSeek(深度求索)火了，它發布的V3模型，震驚了美國AI圈和金融圈，還上了新聞聯播，一夜之間和華為、阿里比肩齊名了，搞的扎克伯格一度呼吁美國加緊封鎖中國AI技術。

這么大事，你讓別的AI公司怎么辦?火車票都買好了，結果又來加班，好在阿里云是反應最快的那個，他們的算法專家立刻找到問題關鍵點：

DeepSeek用的是Moe模型，阿里的Qwen用的還是Moe模型。

在Moe架構領域，Qwen是規模最大的那一個，又有20萬億Tokens(相當于1.5億本小說)。為什么DeepSeek能火爆全網、氣死扎克伯格，而Qwen不能?于是阿里的工程師加班加點，甚至把車票都退了，終于在大年初一，發布了新的模型Qwen2.5-Max。注意是：Max版，就和手機一樣，就是頂配版的意思。

Qwen2.5-Max一發布，高級算法專家林俊旸就發了個圈：

Qwen2.5-Max這個版本最牛逼的2點是：
(1)超大規模的MoE模型，預訓練數據超20萬億Tokens。
(2)全面超越DeepSeek V3

簡單的說，就是性能更牛了，但更節約算力了。

核心就在這張圖里，如上圖所示，Qwen2.5-Max的各項指標都略高于DeepSeek和LLaMA模型。

在告訴大家一個冷知識：阿里的千問、DeepSeek(深度求索)、Meta的LLaMA的底座都是MoE模型?。

說了半天，估計好多人不知道什么是Moe模型吧?

簡單點說：Moe模型(混合專家模型)是AI圈熱門的大模型架構，它只需要激活必要的參數來處理輸入的數據，減少主動計算需求的同時，使得計算成本得以大幅降低，推理性能也有所改善。不會相應增加訓練和運行模型所需的計算負擔，所以能同步降低訓練成本。

這個架構最牛逼之處，就是主動減少計算需求，主動計算需求減少，自然節約算力，算力節約了就能節約芯片數量。這就是為什么DeepSeek能用Meta公司1/10的價格，訓練出跟LLaMA模型差不多的大模型的原因。

這也是為什么扎克伯格氣的牙癢癢的原因：我花了1000億美刀做出的開源LLaMA模型，你小子花550萬就做出來了。你說能不急嗎?預計用不了多久，扎克伯格也會學習Deepseek的方法。等Meta 公司的 LLaMA 模型學習差不多了，估計就沒Deepseek什么事了。

所以阿里的Qwen趕在Meta之前，發布全新Qwen2.5-Max版本，性能超越了Deepseek，更牛了，也更節約算力了。這樣一來，以后大家對算力的要求降低了太多了，以后也不需要那么多芯片了，更沒人大量屯芯片了。那以后誰還買英偉達的芯片啊?

以前所有的公司都認為AI大模型需要大力出奇跡，需要對算力進行大量的投資，要購買大量芯片，可現在一切即將改變，這是今年AI一個重要轉折點，阿里起了個頭，預計會有更多公司都會朝這個方向努力：節約算力，提升性能。但這樣，英偉達的黃仁勛就要哭啦。

寫在最后

今年的阿里云要起飛了，先是登陸了央視春晚，大年初一又發了新的模型。阿里新發布的Qwen2.5-Max這個版本的起了個頭，目測這一模型會引領新的AI方式。

如果說DeepSeek的低成本戳破美國AI的資本泡沫游戲，那么阿里云的Qwen則讓AI回歸科研本身，打破美國的模型壁壘，讓全世界都可以參與AI研發中來了。

本站是提供個人知識管理的網絡存儲空間，所有內容均由用戶發布，不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息，謹防詐騙。如發現有害或侵權內容，請點擊一鍵舉報。

轉藏分享

QQ空間 QQ好友新浪微博微信

獻花（0） +1

來自：長沙7喜 > 《AI有關》

舉報/認領

0條評論

發表

請遵守用戶評論公約

類似文章 更多

長沙7喜

關注對話

TA的最新館藏

今年中元趕上血月！懂點奇門遁甲，把“特殊夜”變成轉運好時機
冠心病患者的10大生活注意事項
在倒霉之前，一般人是有反常的狀態的
肌酐高了別硬抗，改善腎功能，需做好這3點！
對付打壓你的領導，這一招就夠了
糖尿病遵守13個生活規律，你的血糖一般會很正常

喜歡該文的人也喜歡更多

熱門閱讀換一換