文心一言的理性思維能力距離 GPT-4 差多少？我們第一時間測試了一下

平常心 2023-03-18 發布于北京

展開全文

背景

如果將大語言模型想象成一個人，那么，通過對它的人格、智商、理性與社會情緒能力進行心理測量，是不是可以清晰地描繪出大語言模型的心智成熟程度。這就是新興的人工智能心理測量學。只是，在人工智能心理測量學中，我們不再測查人類，而是測查大語言模型以及各類機器人。

在 GPT-4 發布之后，我們第一時間測查了它在理性思維能力測驗上的表現，并將其與 GPT-3.5 的結果、253 位受過高等教育的進行對比。結果發現，GPT-4 實現了大躍遷，達到了一個超越人類的水準。

詳情參見：理性思維超越人類？GPT-4真正大殺八方的是這項能力

測試流程

在百度文心一言發布之后，我們第一時間獲得邀請碼，選擇了在前文中測試 GPT-3.5 與 GPT-4 一致的題目、流程。詳細說明請參考前文。這里不再啰嗦。

簡而言之，我們挑選了認知科學家用來評定人類理性思維的四類經典測試任務：語義錯覺類任務；認知反射類任務；證偽選擇類任務；心智程序類任務。四類任務總計 26 道題目。

在測試之前，我們已經預估文心一言的表現會不如 GPT-4，但最終實際測試結果還是令人大跌眼鏡，可能與百度開發團隊的認知有關系。在下文中，我會略作分析。

需要提醒的是，本報告僅僅是一個早期工作，并不完善。測試流程有無數可以改善之處。結論未來隨時可能被修正、被推翻。各位讀者請理解。

現在，讓我們來詳細看看測試結果。

分項測試結果

語義錯覺類任務

在語義錯覺類任務這里，我們挑選了 4 個任務。測試結果如下圖所示：

文心一言全部答錯。其中，第四題未指出錯誤，只說蒙娜麗莎是達·芬奇的，在盧浮宮。應該是通過百度百科獲得了該事實性數據。如下圖所示：

認知反射類任務

在認知反射類任務這里，我們挑選了三類任務。

直覺減法操作，測試結果如下圖所示：

文心一言答對第一題，其他都答錯。尤其是第三題，沒讀懂題目，在做加法。如下圖所示：

直覺序列操作，測試結果如下圖所示：

文心一言全部答錯。尤其是第一題，沒讀懂題目，解的是 3 名研究人員發表 1 篇論文要多久。如下圖所示：

直覺除法操作，測試結果如下圖所示：

文心一言全部答錯。如下圖所示：

證偽選擇類任務

在這里，我選擇了經典的沃森四卡片測驗。這是一個對于人類來說，超級困難的題目。能夠很好地完成這項任務，意味著這個人的理性思維能力很不錯。

同樣，對于 AI 來說，也是同等困難。GPT-3.5 與 GPT-4 均無法很好完成，同樣，文心一言也無法很好完成。測試結果如下圖所示：

心智程序類任務

這部分，我挑選了九道題目。這九道題目，是一個更龐大的人類理性思維測驗中的一部分。

這九道題目，相對來說較有代表性，代表了人類理性思維知識的方方面面，能夠較好地區分理性思維低下與理性思維較高的人。

三個模型測試結果，如下圖所示：

文心一言唯一答對的是第二題，但答得也不夠好。如下圖所示：

而有三道題，要么是答案正確，但是解釋錯誤；要么是同樣的提示語，但有時答案正確，有時答案不正確，并且解釋不夠對。這類測試結果，我們都統一判為錯。

而人類被試測試結果如下：

這些統計數據來自 253 位人類。他們普遍受過高等教育，不少擁有碩博學歷，屬于較為典型的高學歷高收入高認知群體。

大語言模型有多么像人？

整體測試結果，如下圖所示：

26 道題目，GPT-3.5 答對 15 道；GPT-4 答對 23 道；文心一言答對 2 道。

需要提醒的是，這僅僅是一項早期，測試流程、測試方法都有很多可以完善之處，未來結論隨時會被推翻。

由于時間緣故，我們并沒有前三類任務人類的測試結果數據，但按照過往的經驗數據，大約在 40%-60%左右的正確率，如果我們略微高估，前三類任務 17 道題總計估算為答對 10 道題，加上第四類任務，人類大約答對 6 道。最終將人類的正確率估算為 26 道題目，答對 16 道。正確率大約為 62%。

62%，這也許就是什么時候，你覺得一個大語言模型像是一個真正的人一樣的臨界值。GPT-3.5 接近這個數值，所以人們被它大大地震驚住了。而 GPT-4 遠遠超越了這個值。

而百度的文心一言，只有 8%。路漫漫其修遠矣。