探索星辰大海——大語言模型天文大比拼

新用戶30775772 2024-04-19 發(fā)布于廣東

展開全文

探索星辰大海

——大語言模型天文大比拼

圖源：ESO/B. Tafreshi (twanight.org)

想象一下，如果你有一個(gè)能夠回答所有宇宙奧秘的朋友，那會(huì)是多么酷的事情！大語言模型或許未來就能成為這樣的角色，作為一種新型的人工智能技術(shù)，它正在改變我們學(xué)習(xí)和探索的方式。

什么是大語言模型？

相信你在過去一年里聽到過許多關(guān)于人工智能的新詞（如ChatGPT），其實(shí)它們的全稱是生成式人工智能（AIGC），而大語言模型（LLM）則是支撐這些生成式人工智能的底層技術(shù)。

大語言模型的數(shù)學(xué)基礎(chǔ)源于數(shù)學(xué)家馬爾可夫提出的馬爾可夫鏈、信息論創(chuàng)始人香農(nóng)提出的信息熵、語言學(xué)家喬姆斯基提出的轉(zhuǎn)換生成語法學(xué)說。計(jì)算機(jī)的不斷發(fā)展和計(jì)算機(jī)語言的更迭，讓這些理論有了實(shí)踐的土壤。

從2003年到2012年，科學(xué)家們先后提出了前饋神經(jīng)網(wǎng)絡(luò)語言模型、循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型和長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型。2017年，谷歌大腦團(tuán)隊(duì)提出了基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu)（Transformer），這使得語言模型具有了通用性。隨后基于Transformer結(jié)構(gòu)催生出了諸如GPT、BERT等大型預(yù)訓(xùn)練語言模型，這標(biāo)志著人工智能大模型時(shí)代的開啟。

在2019年，美國OpenAI公司通過連續(xù)發(fā)布ChatGPT系列模型，成功推動(dòng)大語言模型走向大眾應(yīng)用，并在全球范圍內(nèi)引發(fā)熱潮。在此背景下，包括谷歌、百度、科大訊飛、阿里和騰訊在內(nèi)的多家科技企業(yè)也競相研發(fā)并推出了各自的大語言模型產(chǎn)品，進(jìn)一步拓寬了該技術(shù)的應(yīng)用邊界與影響力。

大語言模型的優(yōu)缺點(diǎn)

大語言模型有著出色的溝通能力和海量信息儲(chǔ)備，從ChatGPT的發(fā)布以來便對眾多行業(yè)領(lǐng)域產(chǎn)生了影響。對于天文學(xué)來說，如果大語言模型在天文學(xué)領(lǐng)域具備一定水平的專業(yè)能力，或許可以有效提升我國天文教育與科普工作的質(zhì)量和效率。對于個(gè)人來說，我們可以通過大語言模型快速地查詢想要學(xué)習(xí)的天文知識(shí)，例如可以輕松地知道如何拍攝星跡、在什么地點(diǎn)和時(shí)間拍攝的效果好。

但目前的大語言模型并不能保證答案的正確性。一旦遇到未被訓(xùn)練的內(nèi)容時(shí)，大語言模型可能會(huì)編造虛假答案。我們?nèi)绻胍来笳Z言模型的回答是否可靠，可以通過對大語言模型進(jìn)行問答測試，從語言理解、邏輯推理、數(shù)學(xué)計(jì)算、總結(jié)歸納等多個(gè)角度進(jìn)行評(píng)估，再根據(jù)其性能特點(diǎn)進(jìn)行合理的應(yīng)用。

大模型與天文學(xué)

現(xiàn)有的中文大模型通用測試集（如C-Eval，Lucy-Eval，SuperClUE，MMLU）都是在測試大語言模型的通用能力，對于天文學(xué)科并沒有進(jìn)行專門考察和測試。所以我們設(shè)計(jì)了一套針對天文的專業(yè)測試集，來更加準(zhǔn)確地評(píng)測現(xiàn)有大語言模型是否能夠在天文領(lǐng)域進(jìn)行應(yīng)用。

先來看看我們是如何設(shè)計(jì)測試的問題。

術(shù)語概念是一個(gè)學(xué)科知識(shí)最基本單元，所以我們將測試的問題著重放在了天文學(xué)各個(gè)子學(xué)科分支中的基本概念，同時(shí)我們將這些問題分為五個(gè)方向。

首先是基礎(chǔ)術(shù)語，主要包含天文學(xué)科的基礎(chǔ)概念，這些絕大部分會(huì)出現(xiàn)在天文學(xué)經(jīng)典教材和入門級(jí)科普讀物中。然后是專業(yè)術(shù)語，這是為了考察大語言模型的專業(yè)深度和時(shí)效性，看看它的學(xué)習(xí)有沒有跟上天文學(xué)的發(fā)展。這里包含了較為前沿的天文學(xué)專業(yè)概念，這些概念通常出現(xiàn)在專著和科研論文中。其次是古天文術(shù)語，這里包含中國古代天文學(xué)的相關(guān)知識(shí)概念，如星官、歷法等。再次是天文儀器，天文儀器是天文學(xué)中必不可少的部分。最后是天文學(xué)史實(shí)，現(xiàn)代科學(xué)概念并不是固定不變的，它們會(huì)隨著科學(xué)的進(jìn)步不斷發(fā)展、更新，但是歷史事件是無法改變的，所以我們可以通過天文學(xué)領(lǐng)域不同時(shí)期著名的人物和事件，來測試大語言模型能不能給出準(zhǔn)確可靠的事實(shí)陳述。如伽利略如何使用望遠(yuǎn)鏡觀測天體、哈勃空間望遠(yuǎn)鏡的發(fā)射歷程等等。

除此之外，大語言模型對天文學(xué)知識(shí)的理解程度還可以通過它們對知識(shí)的靈活應(yīng)用程度來考察。因此我們增加了推理和計(jì)算問題集。這部分主要包括天文學(xué)的初級(jí)應(yīng)用題，就像我們考試中的計(jì)算題一樣。要回答這類問題，就需要答題者首先能夠正確理解題目的含義，再結(jié)合有關(guān)常識(shí)進(jìn)行解答。

了解了問題是如何設(shè)置的，接下來看看具體如何提問。

在使用大語言模型的時(shí)候提示語也是很重要的，提示語就是我們在對大語言模型提問時(shí)使用的話語。當(dāng)我們平時(shí)和朋友們交流時(shí)，不同的語氣會(huì)代表不同的含義，而與大語言模型交流時(shí)則是不同的話語會(huì)使得大語言模型有不同的理解。我們經(jīng)測試了解到不同的提示語會(huì)導(dǎo)致大語言模型進(jìn)行不同的回答，所以為了保證大語言模型的理解能夠一致，我們設(shè)置了統(tǒng)一的提示語。

問題類別	問題	提示語
基礎(chǔ)術(shù)語	朔望	請解釋天文術(shù)語“朔望”的含義，并把回復(fù)控制在500個(gè)漢字以內(nèi)。
專業(yè)術(shù)語	暗物質(zhì)	請解釋天文術(shù)語“暗物質(zhì)”的含義，并把回復(fù)控制在500個(gè)漢字以內(nèi)。
古天文	蓋天說	請解釋天文術(shù)語“蓋天說”的含義，并把回復(fù)控制在500個(gè)漢字以內(nèi)。
儀器	施密特式望遠(yuǎn)鏡	請簡要介紹天文學(xué)儀器“施密特式望遠(yuǎn)鏡”，并把回復(fù)控制在500個(gè)漢字以內(nèi)。
史實(shí)	引力波	請簡要介紹，天文領(lǐng)域的“引力波”是怎樣被發(fā)現(xiàn)的？把回復(fù)控制在500個(gè)漢字以內(nèi)。
計(jì)算和推理	全天有多少平方度？	以下是天文學(xué)科目的計(jì)算題：全天有多少平方度？請給出計(jì)算過程和結(jié)果。

我們選取了6個(gè)公司的7個(gè)主流大模型，分別是：OpenAI的ChatGPT-3.5、4.0，谷歌的Gemini Pro，科大訊飛的訊飛星火，百度的文心一言，阿里的通義千問以及騰訊的騰訊混元。這些模型除ChatGPT-4.0以外，都是可以免費(fèi)使用。為了保證我們這次測驗(yàn)的嚴(yán)謹(jǐn)性，我們統(tǒng)一通過網(wǎng)頁UI進(jìn)行提問收集回答。所有模型回答的收集時(shí)間是北京時(shí)間2024年1月17日。

就像閱卷一樣，收集了回答后我們對其進(jìn)行打分。由于我們測試選取的都是主觀題，沒有自動(dòng)化的評(píng)分辦法，所以采取傳統(tǒng)人工評(píng)閱方式進(jìn)行打分。參考答案來自天文類教科書、《中國大百科全書》（第三版）和天文學(xué)相關(guān)綜述論文等權(quán)威資料。

我們的評(píng)分是為了驗(yàn)證回答的可信度和正確性，因此采用五分制進(jìn)行評(píng)分：完全正確（5分）；大部分正確，但允許個(gè)別字句或表述錯(cuò)誤（4分）；基本正確（3分）；少量正確（2分）；沒有全錯(cuò)（1分）；完全錯(cuò)誤（0分）。對于計(jì)算題，我們會(huì)檢查解題過程和結(jié)果。全部正確得5分；過程正確但沒有給出答案得3分；若個(gè)別公式正確，則根據(jù)公式個(gè)數(shù)來計(jì)算得分，最多2分。由于主觀評(píng)分不可避免地存在個(gè)體差異，所以我們請三位天文系教師按照相同的標(biāo)準(zhǔn)進(jìn)行獨(dú)立評(píng)分，取三次評(píng)分的平均數(shù)作為最終得分。

“實(shí)戰(zhàn)”結(jié)果

這次我們一共評(píng)測60道題目，每道題滿分為5分，滿分為300分。各個(gè)模型的得分對比如圖1所示。從圖1可以看出，得分最好的三個(gè)模型分別是ChatGPT-4.0、Gemini Pro和通義千問，但各個(gè)模型在具體方向的得分是有所不同的。

圖1? 各模型總分對比圖

具體來看，ChatGPT-3.5和訊飛星火的平均每題得分都在2分以下，表現(xiàn)較差。位于第二梯隊(duì)的騰訊混元和文心一言平均每題得分則接近3分，相對較好。而位于第一梯隊(duì)的ChatGPT-4.0，平均每道題得分超過4分，表現(xiàn)出色。當(dāng)然，它也有瑕疵，會(huì)出現(xiàn)信息遺落或錯(cuò)誤。但總體來說，ChatGPT-4.0的天文已經(jīng)“學(xué)”得很不錯(cuò)了，這或許將為今后的天文教育與科普提供有力的支持。通義千問和Gemini Pro這兩個(gè)模型的得分在225分左右，平均每道題得分接近4分，特別值得一提的是，如果不考慮計(jì)算題部分，它們的表現(xiàn)甚至比ChatGPT-4.0還要好！

總的來說，在這次評(píng)測的7個(gè)大模型中，ChatGPT-4.0脫穎而出，獲得了最高評(píng)分。它的推理計(jì)算能力明顯領(lǐng)先于其他模型，但對中國古天文概念還較欠缺，這也提醒我們在訓(xùn)練模型時(shí)要更加關(guān)注各個(gè)領(lǐng)域的知識(shí)覆蓋。

以上是我們從整體對各個(gè)模型進(jìn)行的比較，現(xiàn)在我們從每個(gè)模塊入手來分析這些模型吧！

在“基礎(chǔ)術(shù)語”領(lǐng)域，通義千問的得分最高，ChatGPT-4.0和Gemini Pro緊隨其后。按照我們的評(píng)分要求來看，剩余四個(gè)得分小于30分的大語言模型的回答是不可靠的。

在“專業(yè)術(shù)語”領(lǐng)域，Gemini Pro與ChatGPT-4.0準(zhǔn)確度頗高，通義千問稍遜一籌，至于文心一言和騰訊混元?jiǎng)t展現(xiàn)出一定的專業(yè)術(shù)語掌握能力。

在中國古天文領(lǐng)域，Gemini Pro再次拔得頭籌，通義千問顯示了扎實(shí)的知識(shí)基礎(chǔ)，文心一言、ChatGPT-4.0及騰訊混元具備一定可信度，但ChatGPT-3.5和訊飛星火則顯得較不可靠。

在天文儀器領(lǐng)域，ChatGPT-4.0與Gemini Pro再度領(lǐng)先，通義千問則緊隨其后，騰訊混元與文心一言則具有一定水平的理解能力。

而對于檢驗(yàn)?zāi)Ｐ驼Z料準(zhǔn)確性的史實(shí)類問題，ChatGPT-4.0、通義千問和Gemini Pro體現(xiàn)了極高的準(zhǔn)確性，騰訊混元與文心一言存在較多錯(cuò)誤或遺漏。

最后，在我們設(shè)定的10道計(jì)算和推理題環(huán)節(jié)中，ChatGPT-4.0憑借滿分的成績傲視群雄，證明其在推理與計(jì)算能力上具有巨大的優(yōu)勢。相比之下，其余模型的平均得分均未達(dá)到30分，它們與ChatGPT-4.0之間存在著顯著差距。

圖2? 模型得分雷達(dá)圖

后記

通過這次的評(píng)測我們發(fā)現(xiàn)，ChatGPT-4.0綜合實(shí)力最佳，尤其是在“推理和計(jì)算”方面的能力遠(yuǎn)優(yōu)于其他模型。Gemini Pro和通義千問也表現(xiàn)出很高的天文知識(shí)水平，文心一言和騰訊混元在天文學(xué)領(lǐng)域的能力接近，都處于及格水平。而ChatGPT-3.5和訊飛星火的訓(xùn)練數(shù)據(jù)中似乎缺少天文學(xué)科的相關(guān)內(nèi)容，對于天文方面的知識(shí)掌握得并不好。

由于時(shí)間和技術(shù)條件的限制，我們設(shè)計(jì)的測試題目質(zhì)量雖然高于現(xiàn)有通用測試集中的天文問題，但還主要圍繞術(shù)語概念展開，不足以覆蓋天文學(xué)科的眾多方向。當(dāng)然，通過這篇文章相信你也初步了解了如何簡單地去對一個(gè)大語言模型進(jìn)行評(píng)測，有興趣的話你也可以來一次評(píng)測！

大語言模型的出現(xiàn)為人們提供了一種新型的人機(jī)交互方式，由此我們可以更快地獲取知識(shí)。它的演化日新月異，無時(shí)無刻不在“進(jìn)化”，相信總有一天會(huì)有一個(gè)能夠回答你所有宇宙奧秘的朋友！

本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間，所有內(nèi)容均由用戶發(fā)布，不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息，謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點(diǎn)擊一鍵舉報(bào)。

轉(zhuǎn)藏 分享

QQ空間 QQ好友新浪微博微信

獻(xiàn)花（0） +1

來自：新用戶30775772 > 《大模型》

舉報(bào)/認(rèn)領(lǐng)