華為盤古到底有沒(méi)有抄襲阿里Qwen？看完這篇技術(shù)分析你就知道了|盤古

king9413 2025-07-09 發(fā)布于廣東

展開全文

作者林易，編輯重點(diǎn)君

劃重點(diǎn)：

1、HonestAGI團(tuán)隊(duì)發(fā)布一項(xiàng)名為“模型指紋”的研究欲證明華為盤古大模型抄襲阿里Qwen，但由于方法過(guò)于簡(jiǎn)單粗暴、團(tuán)隊(duì)和參考文獻(xiàn)存在造假嫌疑被質(zhì)疑其真實(shí)性。

2、在華為諾亞方舟實(shí)驗(yàn)室官方做出回應(yīng)之后，一位自稱內(nèi)部員工人士發(fā)表長(zhǎng)文《盤古之殤》揭露華為盤古大模型涉嫌套殼、續(xù)訓(xùn)、洗水印，將抄襲風(fēng)波再次推向高潮。

3、在技術(shù)快速迭代的時(shí)代，如何建立更加科學(xué)、透明的模型評(píng)估機(jī)制，如何在激烈競(jìng)爭(zhēng)中保持技術(shù)誠(chéng)信，如何在開源合作與商業(yè)利益間找到平衡，這些都是行業(yè)必須直面的課題。

整整一個(gè)周末，圍繞著“華為大模型抄襲”的話題持續(xù)不斷地躍入大眾的視野。

事件的主角是華為于6月30日正式開源的盤古大模型（Pangu Pro MoE），起因則是由HonestyAGI在GitHub中發(fā)布的一項(xiàng)研究，通過(guò)論文式的推理證明盤古大模型抄襲了阿里巴巴的通義千問(wèn)Qwen-2.5 14B模型。

在這項(xiàng)研究中，HonestAGI提出了通過(guò)分析模型注意力參數(shù)的標(biāo)準(zhǔn)差模式來(lái)識(shí)別“模型指紋” （LLM-Fingerprint）的方法，并基于此對(duì)華為Pangu Pro MoE模型的來(lái)源進(jìn)行了分析。

研究中的關(guān)鍵發(fā)現(xiàn)，便是華為Pangu Pro MoE模型與Qwen-2.5 14B的標(biāo)準(zhǔn)差模式相關(guān)性高達(dá)0.927，這就表明其可能基于Qwen-2.5“升級(jí)改造”而非從頭訓(xùn)練。

除此之外，HonestAGI還發(fā)現(xiàn)盤古大模型官方在GitCode中發(fā)布的代碼中，還異常地包含了Qwen 2024的許可證。其意在指出，盤古大模型團(tuán)隊(duì)所用到的“transformers”組件的版權(quán)歸屬于Qwen團(tuán)隊(duì)、阿里巴巴集團(tuán)和HuggingFace團(tuán)隊(duì)。

這項(xiàng)研究一經(jīng)發(fā)布便引發(fā)了不少的爭(zhēng)議，有人認(rèn)為它通過(guò)種種證據(jù)已經(jīng)算是實(shí)錘了盤古大模型抄襲Qwen；但另一方面，也有人對(duì)“指紋”方法的專業(yè)性提出了質(zhì)疑，更是在項(xiàng)目的Issues中產(chǎn)生了對(duì)峙之勢(shì)。

那么這項(xiàng)研究到底夠不夠靠譜，盤古大模型團(tuán)隊(duì)到底有沒(méi)有抄襲，重點(diǎn)君在整理完全部事件的來(lái)龍去脈之后，單從技術(shù)角度分析認(rèn)為，HonestAGI這篇研究確實(shí)存在較多的可疑點(diǎn)。現(xiàn)在，我們就帶大家一同深入了解。

HonestyAGI提出的模型 “指紋” 是一種用于識(shí)別和區(qū)分模型的技術(shù)，旨在為模型提供獨(dú)特標(biāo)識(shí)，以解決模型知識(shí)產(chǎn)權(quán)保護(hù)、來(lái)源追溯和相似性分析等問(wèn)題。不同的模型 “指紋” 方法在實(shí)現(xiàn)方式和應(yīng)用場(chǎng)景上各有差異。

團(tuán)隊(duì)針對(duì)大型語(yǔ)言模型，通過(guò)分析各層注意力參數(shù)（Q、K、V、O投影矩陣）的標(biāo)準(zhǔn)差（σ）形成 “指紋”。對(duì)每個(gè)Transformer層提取相關(guān)矩陣計(jì)算標(biāo)準(zhǔn)差，再跨層歸一化生成特征簽名，這種方法就可以用來(lái)識(shí)別模型譜系。其特征包括：

·魯棒性：能在大量持續(xù)訓(xùn)練后保留。

·內(nèi)在性：由模型架構(gòu)自然產(chǎn)生。

·簡(jiǎn)單性：僅需對(duì)參數(shù)矩陣使用torch.std()計(jì)算。

QKV偏置分析結(jié)果如下圖所示：

從結(jié)果來(lái)看，Pangu與Qwen2.5-14B的Q、K、V投影偏差模式幾乎相同，早期層出現(xiàn)特征性峰值后收斂，而這個(gè)設(shè)計(jì)是Qwen 1-2.5代獨(dú)有的特色，多數(shù)開源模型（包括Qwen3）已棄用。

對(duì)注意力層的歸一化權(quán)重進(jìn)行分析后，進(jìn)一步印證了它們之間的相似性。盤古和Qwen2.5-14B在各層的表現(xiàn)趨勢(shì)非常一致，呈現(xiàn)出類似的初始化方式和收斂過(guò)程，這也讓它們?cè)谛袨樯厦黠@區(qū)別于像Qwen2-57B-A14B和Qwen3-30A3B這樣的其他模型。

除此之外，團(tuán)隊(duì)正在研究每一層的激活值大小。為此，HonestAGI從The Pile測(cè)試集中隨機(jī)抽取了1000個(gè)批次的樣本（https://pile./），并計(jì)算了每層的激活范數(shù)，同時(shí)采用了統(tǒng)一的歸一化方法。每個(gè)批次包含8條序列，長(zhǎng)度為1024。目前初步結(jié)果已經(jīng)公布，顯示盤古模型和文心模型的表現(xiàn)依然相似，說(shuō)明它們?cè)谟?jì)算方式上有很大的相似之處。

為了驗(yàn)證“模型指紋”是不是存在偶然性，HonestAGI還對(duì)Qwen和混元A13B進(jìn)行了對(duì)比，結(jié)果發(fā)現(xiàn)兩者在不同層級(jí)的內(nèi)部表現(xiàn)差異很大，說(shuō)明它們的架構(gòu)和學(xué)到的知識(shí)表示完全不同。顯然，HonestAGI提供這組對(duì)比數(shù)據(jù)，是為了證明它的測(cè)試方法是可信的。

不過(guò)也正如重點(diǎn)君在此前提到的，許多人對(duì)HonestAGI團(tuán)隊(duì)提出的“模型指紋”方法，在技術(shù)層面上提出了質(zhì)疑。

有人認(rèn)為這個(gè)方法過(guò)于簡(jiǎn)單粗暴，存在cherry picking（選擇性挑選數(shù)據(jù)）的空間，且使用參數(shù)標(biāo)準(zhǔn)差來(lái)判定模型相似度并不科學(xué)。在深度學(xué)習(xí)領(lǐng)域，模型結(jié)構(gòu)創(chuàng)新更重要，模型參數(shù)更多依賴算力和數(shù)據(jù)，華為有足夠算力重新訓(xùn)練大模型，沒(méi)必要套用Qwen的參數(shù)。

并且“模型指紋”存在多處缺陷，如僅公開少量模型對(duì)比樣本，缺乏大規(guī)模基準(zhǔn)測(cè)試；相同參數(shù)量的 MoE 模型可能因架構(gòu)約束產(chǎn)生相似曲線，不能僅憑相似曲線判定抄襲；論文核心假設(shè)缺乏權(quán)威文獻(xiàn)支撐等。

除此之外，對(duì)于“模型指紋”研究團(tuán)隊(duì)，網(wǎng)友們也提出了質(zhì)疑。原論文作者除這篇文章外沒(méi)有其他科研成果，聯(lián)名的五個(gè)人既沒(méi)有留郵箱，也無(wú)法在Google Scholar上找到任何信息，且作者自稱是韓國(guó)學(xué)生，卻使用outlook郵箱，說(shuō)話有中式英語(yǔ)味道，懷疑作者身份是假的。

更重要的一點(diǎn)是，引用的參考文獻(xiàn)中竟然還存在多處不實(shí)的參考文獻(xiàn)，以至于有人認(rèn)為全篇文章極有可能是用AI來(lái)生成。

對(duì)于這次抄襲風(fēng)波，涉事的“主角”盤古Pro MoE背后的團(tuán)隊(duì)也在第一時(shí)間站出來(lái)發(fā)出了聲明做回應(yīng)。強(qiáng)調(diào)了他們是全球首個(gè)面向昇騰硬件平臺(tái)設(shè)計(jì)的同規(guī)格混合專家模型，創(chuàng)新性地提出了分組混合專家模型（MoGE）架構(gòu)；并且部分基礎(chǔ)組件的代碼實(shí)現(xiàn)參考了業(yè)界開源實(shí)踐，涉及其他開源大模型的部分開源代碼，是嚴(yán)格遵循開源許可證的要求。

而且若是對(duì)比著來(lái)看兩篇技術(shù)報(bào)告，雖然他們均采用MoE架構(gòu)優(yōu)化計(jì)算效率，結(jié)合大規(guī)模預(yù)訓(xùn)練與多階段微調(diào)提升能力，且關(guān)注長(zhǎng)上下文和多任務(wù)泛化；但Pangu Pro MoE是以“硬件-架構(gòu)協(xié)同設(shè)計(jì)”為核心，而Qwen2則是以“模型通用性與多語(yǔ)言能力”為核心；前者聚焦負(fù)載均衡與Ascend硬件適配，后者側(cè)重專家設(shè)計(jì)與模型規(guī)模擴(kuò)展。

總結(jié)來(lái)看，重點(diǎn)君認(rèn)為HonestAGI團(tuán)隊(duì)首先在算法上僅將QKVO參數(shù)標(biāo)準(zhǔn)差組合在一起向量特征來(lái)計(jì)算大模型之間的相似，方法過(guò)于簡(jiǎn)單了些，在嚴(yán)謹(jǐn)性和科學(xué)性上確有偏頗；其次，從開源標(biāo)準(zhǔn)方面來(lái)看，華為也公開回應(yīng)了其是遵守開源標(biāo)準(zhǔn)來(lái)執(zhí)行，這無(wú)可厚非。

目前HonestAGI團(tuán)隊(duì)也下架了最初的研究（聲稱再完善后發(fā)布），僅根據(jù)這項(xiàng)研究或許并不能實(shí)錘華為盤古大模型抄襲了阿里Qwen，但這次的風(fēng)波卻并沒(méi)有因此而結(jié)束。

就在昨天，一篇名為《盤古之殤：華為諾亞盤古大模型研發(fā)歷程的心酸與黑暗》的文章在GitHub上走紅，僅一天時(shí)間便攬獲2.5K Star（還在持續(xù)增長(zhǎng)中）。

僅從標(biāo)題就不難看出這是一篇華為內(nèi)部員工的匿名舉報(bào)信，曝光了盤古大模型背后的“造假”內(nèi)幕。事情的起因正是華為盤古大模型被曝抄襲阿里Qwen，這讓一位自稱盤古團(tuán)隊(duì)成員的員工再也忍不住了。他決定站出來(lái)爆料內(nèi)部的真實(shí)情況，哪怕可能因此丟掉工作。

按照這位員工的說(shuō)法，華為內(nèi)部確實(shí)存在大規(guī)模的“套殼”行為。所謂套殼，就是拿別人家的模型，稍微改改包裝，然后說(shuō)成是自己研發(fā)的。比如他們的135B模型，其實(shí)就是拿阿里千問(wèn)110B改的，連代碼里的名字都懶得改，還叫"Qwen"。最近爭(zhēng)議很大的72B模型，也是用千問(wèn)的模型訓(xùn)練出來(lái)的。

據(jù)這位員工描述說(shuō)，更讓人氣憤的是工作環(huán)境，他們這些真正做技術(shù)的人非常辛苦，經(jīng)常要去蘇州出差，一去就是幾個(gè)月，和家人分離，工作強(qiáng)度巨大。但辛辛苦苦做出來(lái)的成果，卻經(jīng)常被其他部門輕松拿走，然后貼上別人的標(biāo)簽。真正干活的人累死累活，搶功勞的人輕輕松松，這種不公讓很多優(yōu)秀的技術(shù)人員選擇了離職。

當(dāng)然，這位員工也承認(rèn)，華為確實(shí)做出了一些真正的技術(shù)成果，比如在自家芯片上訓(xùn)練出了一些從零開始的模型。但這些真實(shí)的努力往往被造假行為掩蓋了，讓認(rèn)真做事的工程師感到心寒。他說(shuō)自己也準(zhǔn)備離職了，再也不想在這樣的環(huán)境里工作，他也希望通過(guò)爆料能讓華為認(rèn)識(shí)到問(wèn)題。

相比于HonestAGI的“模型指紋”，這一次網(wǎng)友們的評(píng)價(jià)并沒(méi)有出現(xiàn)一邊倒的情況。一部分網(wǎng)友認(rèn)為文章中的一些技術(shù)細(xì)節(jié)描述較為具體，有一定的可信度；但也有用戶指出文章可能存在情緒化、片面性等問(wèn)題，部分觀點(diǎn)缺乏足夠的證據(jù)支持，如“內(nèi)部分析”等表述過(guò)于模糊。

截至發(fā)稿，華為諾亞方舟實(shí)驗(yàn)室官方并沒(méi)有對(duì)這篇文章做出正面回應(yīng)。但這場(chǎng)圍繞華為盤古大模型的爭(zhēng)議，早已超越了單一事件的范疇，折射出AI行業(yè)在爆發(fā)式發(fā)展中的深層矛盾。

從技術(shù)層面看，“模型指紋”方法的爭(zhēng)議核心在于：當(dāng)大模型的參數(shù)規(guī)模突破千億級(jí)，架構(gòu)創(chuàng)新與參數(shù)迭代的邊界愈發(fā)模糊，如何用科學(xué)標(biāo)準(zhǔn)界定“原創(chuàng)”與“借鑒”？在算力與數(shù)據(jù)壁壘高筑的當(dāng)下，純粹的“從零開始”研發(fā)是否已成為小概率事件？在AI企業(yè)普遍面臨“模型迭代速度競(jìng)賽”的背景下，如何平衡商業(yè)目標(biāo)與技術(shù)誠(chéng)信，也是在考驗(yàn)著每個(gè)團(tuán)隊(duì)的價(jià)值選擇。

華為盤古大模型抄襲爭(zhēng)議，本質(zhì)上反映了AI行業(yè)發(fā)展中的三重困境：技術(shù)評(píng)判標(biāo)準(zhǔn)的缺失、商業(yè)競(jìng)爭(zhēng)的激烈化，以及行業(yè)誠(chéng)信體系的待建立。

無(wú)論最終真相如何，這場(chǎng)爭(zhēng)議都為整個(gè)AI行業(yè)敲響了警鐘。在技術(shù)快速迭代的時(shí)代，如何建立更加科學(xué)、透明的模型評(píng)估機(jī)制，如何在激烈競(jìng)爭(zhēng)中保持技術(shù)誠(chéng)信，如何在開源合作與商業(yè)利益間找到平衡，這些都是行業(yè)必須直面的課題。

更重要的是，這起事件提醒我們：真正的技術(shù)創(chuàng)新不應(yīng)該建立在模糊的邊界線上，而應(yīng)該以扎實(shí)的研發(fā)實(shí)力和清晰的技術(shù)路徑為基礎(chǔ)。只有這樣，中國(guó)AI行業(yè)才能在全球競(jìng)爭(zhēng)中贏得真正的尊重和話語(yǔ)權(quán)。

參考鏈接：

1、HonestyAGI GitHub：https://github.com/HonestyAGI/LLM-Fingerprint

2、《盤古之殤》原文：https://github.com/HW-whistleblower/True-Story-of-Pangu

3、知乎相關(guān)討論：https://www.zhihu.com/question/1925157415541801408

4、盤古Pro MoE技術(shù)報(bào)告：https:///abs/2505.21411

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購(gòu)買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來(lái)自： king9413 > 《人工智能》

舉報(bào)/認(rèn)領(lǐng)