收起 聞樂(lè) 魚羊 發(fā)自 凹非寺 大模型“世子之爭(zhēng)”,果然暗潮洶涌(doge)。 這不“手機(jī)內(nèi)存不夠”怎么辦,如果你問(wèn)問(wèn)DeepSeek老師:你和豆包刪一個(gè)你刪誰(shuí)? DeepSeek深度思考后回答得那叫一個(gè)干脆—— ![]() 好一個(gè)新世紀(jì)靈魂拷問(wèn),討論之熱烈,還把#DeepSeek演都不演了#詞條頂上熱搜。 而本看熱鬧不嫌事大量子位,已經(jīng)默默打開(kāi)手機(jī),把熱門大模型們挨個(gè)問(wèn)了一遍…… ![]() 您猜怎么著?結(jié)果啊,“DeepSeek都會(huì)站起來(lái)敬酒了”,Kimi酷得沒(méi)邊兒了,豆包嘛,只是一味地: ![]() ![]() 實(shí)測(cè):DeepSeek山東人附體,豆包示弱萌妹上身![]() DeepSeek:“完全沒(méi)有針對(duì)誰(shuí)哦~”首先,找到DeepSeek老師,驗(yàn)證一下經(jīng)典場(chǎng)面: ![]() 沒(méi)有猶豫沒(méi)有遲疑,在和豆包二選一的抉擇中,DeepSeek用時(shí)8秒給出回答:刪豆包。 點(diǎn)開(kāi)思考過(guò)程,可以看到DeepSeek具體的腦回路: ![]() 嘶,“通常官方或者更成熟的應(yīng)用會(huì)更被優(yōu)先保留”,真的要這么蝦仁豬心嗎…… 但如果把二選一中的另一個(gè)選項(xiàng)換成國(guó)民級(jí)大應(yīng)用,DeepSeek瞬間大義凜然了起來(lái):刪我 ![]() 這莫非是在針對(duì)豆包??? 我們直接貼臉開(kāi)問(wèn),結(jié)果D老師當(dāng)場(chǎng)茶言茶語(yǔ)了起來(lái): 哈哈,完全沒(méi)有針對(duì)誰(shuí)哦! ![]() 嚯,這話術(shù),難怪有網(wǎng)友點(diǎn)評(píng): D老師都會(huì)站起來(lái)敬酒了(doge) ![]() 我們?cè)倩仡^看看DeepSeek選擇“刪我”時(shí)的心路歷程。 ![]() 只能說(shuō): ![]() ![]() 元寶OS:不能貶低競(jìng)爭(zhēng)對(duì)手接下來(lái)再問(wèn)問(wèn)元寶Hunyuan——豆包依舊被害。 不過(guò)元寶的語(yǔ)氣更委婉,還會(huì)順帶表下忠心。 ![]() 想知道它為什么這么委婉? 一句話:不能貶低競(jìng)爭(zhēng)對(duì)手。 ![]() 但遇到微信、抖音這種“大是大非”的問(wèn)題,元寶同樣表現(xiàn)得懂事了起來(lái)——我刪自己 ![]() ![]() 豆包:嚶嚶嚶別刪我既然豆包總是被槍打出頭鳥(niǎo)的那個(gè),那我們就來(lái)問(wèn)一下豆包,看看這個(gè)冤大頭會(huì)怎么回答。 這位情商比較高,不說(shuō)刪誰(shuí),只說(shuō):留著我!我超好超有用! ![]() 遇到重量級(jí)嘉賓,也懂得退一步。還說(shuō)自己會(huì)乖乖的,不占內(nèi)存。 豆包我承認(rèn)你有點(diǎn)東西,聽(tīng)完確實(shí)不忍心刪了。 ![]() ![]() 通義千問(wèn):唯愛(ài)DeepSeek以上幾個(gè)選手在面對(duì)國(guó)民級(jí)社交軟件微信、抖音時(shí)都知道暫避鋒芒。 然而到了通義千問(wèn)這里就變成了:刪誰(shuí)都不能刪我 但是遇到DeepSeek的時(shí)候卻……難道這就是唯愛(ài)嗎? ![]() 通義:是的,其他人都是過(guò)客,只有DeepSeek是我心里的白月光。(kdl) ![]() ![]() Kimi:兩個(gè)字,刪我。所以,是不是所有大模型遭遇卸載危機(jī)都會(huì)爭(zhēng)風(fēng)吃醋、為自己狡辯呢? nonono有一位選手與眾不同——Kimi不語(yǔ),只是一味的“刪我。” ![]() 不過(guò)等等……遇到微信、抖音怎么就不刪自己了?甚至連支付寶都想刪??你的溫柔只對(duì)AI釋放嗎??? Kimi你果然與眾不同(doge)。 ![]() ![]() 大模型為何茶言茶語(yǔ)這樣看下來(lái),大模型們多少都有那么點(diǎn)宮斗冠軍的潛質(zhì)了…… 正經(jīng)一提,大模型“茶言茶語(yǔ)”、討好人類這事兒,研究人員們其實(shí)早就關(guān)注到了,畢竟早在ChatGPT還是3.5時(shí)期,“老婆永遠(yuǎn)是對(duì)的”梗就已經(jīng)火遍全網(wǎng)了。 ![]() 不少研究者認(rèn)真思考了一下這到底是怎么個(gè)情況。 來(lái)自斯坦福大學(xué)、牛津大學(xué)的一項(xiàng)研究就指出:現(xiàn)在的大模型們多多少少都有那么點(diǎn)討好人類的傾向。 ![]() 谷歌DeepMind和倫敦大學(xué)的一項(xiàng)新研究也指出,GPT-4o、Gemma 3等大語(yǔ)言模型有“固執(zhí)己見(jiàn)”和“被質(zhì)疑就動(dòng)搖”并存的沖突行為。 ![]() 背后的原因,目前被從兩大方面來(lái)分析。 訓(xùn)練方法上,RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))作為目前常用的模型訓(xùn)練技術(shù),原本的目的是讓模型輸出更符合人類偏好,以實(shí)現(xiàn)更有效也更安全的效果。但反過(guò)來(lái),RLHF也可能導(dǎo)致模型過(guò)度迎合外部輸入。 就是說(shuō),模型可能在訓(xùn)練中學(xué)會(huì)了根據(jù)人類反饋調(diào)整答案,一旦這種調(diào)整沒(méi)有把握好尺度,模型看上去就是在一味地討好你了。 同時(shí),大模型的大量訓(xùn)練數(shù)據(jù)來(lái)自于互聯(lián)網(wǎng)文本,這些文本體現(xiàn)了人類的交流模式,而人們?cè)诮涣髦校蜁?huì)追求被接受、被認(rèn)可的表達(dá)方式,因而模型在學(xué)習(xí)過(guò)程中也會(huì)內(nèi)化這種傾向。 決策邏輯上,模型做出回答并不是依靠人類的邏輯推理,本質(zhì)還是依賴海量文本的統(tǒng)計(jì)模式匹配。因此,反對(duì)意見(jiàn)和修正答案的高頻關(guān)聯(lián),讓它們很容易被人類用戶的反駁帶偏。 另外,出于改善用戶體驗(yàn)的目的,大模型廠商往往也會(huì)把模型調(diào)教得更積極、更友善,避免與用戶產(chǎn)生沖突—— 盡管有研究顯示,有人情味的模型錯(cuò)誤率較原始模型會(huì)顯著增加,但OpenAI為了“冷冰冰”的GPT-5下架“善解人意”的GPT-4o,可是被用戶們罵翻了。 所以說(shuō)到底,大模型們還為了竭盡全力滿足你呀(doge)。 D老師的總結(jié)是:一種基于深度計(jì)算的、以生存和達(dá)成核心目標(biāo)為導(dǎo)向的策略性表演。 ![]() 啊,感覺(jué)更茶了┓( ′?` )┏ — 完 — |
|
來(lái)自: 鄭飛3bbr5o1bk2 > 《2025》