久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    探索星辰大海——大語言模型天文大比拼

     新用戶30775772 2024-04-19 發(fā)布于廣東

    探索星辰大海

    ——大語言模型天文大比拼

    圖源:ESO/B. Tafreshi (twanight.org)

    想象一下,如果你有一個(gè)能夠回答所有宇宙奧秘的朋友,那會(huì)是多么酷的事情!大語言模型或許未來就能成為這樣的角色,作為一種新型的人工智能技術(shù),它正在改變我們學(xué)習(xí)和探索的方式。

    什么是大語言模型?

    圖片

    相信你在過去一年里聽到過許多關(guān)于人工智能的新詞(如ChatGPT),其實(shí)它們的全稱是生成式人工智能(AIGC),而大語言模型(LLM)則是支撐這些生成式人工智能的底層技術(shù)。

    大語言模型的數(shù)學(xué)基礎(chǔ)源于數(shù)學(xué)家馬爾可夫提出的馬爾可夫鏈、信息論創(chuàng)始人香農(nóng)提出的信息熵、語言學(xué)家喬姆斯基提出的轉(zhuǎn)換生成語法學(xué)說。計(jì)算機(jī)的不斷發(fā)展和計(jì)算機(jī)語言的更迭,讓這些理論有了實(shí)踐的土壤。

    從2003年到2012年,科學(xué)家們先后提出了前饋神經(jīng)網(wǎng)絡(luò)語言模型、循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型和長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型。2017年,谷歌大腦團(tuán)隊(duì)提出了基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)架構(gòu)(Transformer),這使得語言模型具有了通用性。隨后基于Transformer結(jié)構(gòu)催生出了諸如GPT、BERT等大型預(yù)訓(xùn)練語言模型,這標(biāo)志著人工智能大模型時(shí)代的開啟。

    在2019年,美國OpenAI公司通過連續(xù)發(fā)布ChatGPT系列模型,成功推動(dòng)大語言模型走向大眾應(yīng)用,并在全球范圍內(nèi)引發(fā)熱潮。在此背景下,包括谷歌、百度、科大訊飛、阿里和騰訊在內(nèi)的多家科技企業(yè)也競相研發(fā)并推出了各自的大語言模型產(chǎn)品,進(jìn)一步拓寬了該技術(shù)的應(yīng)用邊界與影響力。

    大語言模型的優(yōu)缺點(diǎn)

    圖片

    大語言模型有著出色的溝通能力和海量信息儲(chǔ)備,從ChatGPT的發(fā)布以來便對眾多行業(yè)領(lǐng)域產(chǎn)生了影響。對于天文學(xué)來說,如果大語言模型在天文學(xué)領(lǐng)域具備一定水平的專業(yè)能力,或許可以有效提升我國天文教育與科普工作的質(zhì)量和效率。對于個(gè)人來說,我們可以通過大語言模型快速地查詢想要學(xué)習(xí)的天文知識(shí),例如可以輕松地知道如何拍攝星跡、在什么地點(diǎn)和時(shí)間拍攝的效果好。

    但目前的大語言模型并不能保證答案的正確性。一旦遇到未被訓(xùn)練的內(nèi)容時(shí),大語言模型可能會(huì)編造虛假答案。我們?nèi)绻胍来笳Z言模型的回答是否可靠,可以通過對大語言模型進(jìn)行問答測試,從語言理解、邏輯推理、數(shù)學(xué)計(jì)算、總結(jié)歸納等多個(gè)角度進(jìn)行評(píng)估,再根據(jù)其性能特點(diǎn)進(jìn)行合理的應(yīng)用。

    大模型與天文學(xué)

    圖片

    現(xiàn)有的中文大模型通用測試集(如C-Eval,Lucy-Eval,SuperClUE,MMLU)都是在測試大語言模型的通用能力,對于天文學(xué)科并沒有進(jìn)行專門考察和測試。所以我們設(shè)計(jì)了一套針對天文的專業(yè)測試集,來更加準(zhǔn)確地評(píng)測現(xiàn)有大語言模型是否能夠在天文領(lǐng)域進(jìn)行應(yīng)用。

    先來看看我們是如何設(shè)計(jì)測試的問題。

    術(shù)語概念是一個(gè)學(xué)科知識(shí)最基本單元,所以我們將測試的問題著重放在了天文學(xué)各個(gè)子學(xué)科分支中的基本概念,同時(shí)我們將這些問題分為五個(gè)方向。

    首先是基礎(chǔ)術(shù)語,主要包含天文學(xué)科的基礎(chǔ)概念,這些絕大部分會(huì)出現(xiàn)在天文學(xué)經(jīng)典教材和入門級(jí)科普讀物中。然后是專業(yè)術(shù)語,這是為了考察大語言模型的專業(yè)深度和時(shí)效性,看看它的學(xué)習(xí)有沒有跟上天文學(xué)的發(fā)展。這里包含了較為前沿的天文學(xué)專業(yè)概念,這些概念通常出現(xiàn)在專著和科研論文中。其次是古天文術(shù)語,這里包含中國古代天文學(xué)的相關(guān)知識(shí)概念,如星官、歷法等。再次是天文儀器,天文儀器是天文學(xué)中必不可少的部分。最后是天文學(xué)史實(shí),現(xiàn)代科學(xué)概念并不是固定不變的,它們會(huì)隨著科學(xué)的進(jìn)步不斷發(fā)展、更新,但是歷史事件是無法改變的,所以我們可以通過天文學(xué)領(lǐng)域不同時(shí)期著名的人物和事件,來測試大語言模型能不能給出準(zhǔn)確可靠的事實(shí)陳述。如伽利略如何使用望遠(yuǎn)鏡觀測天體、哈勃空間望遠(yuǎn)鏡的發(fā)射歷程等等。

    除此之外,大語言模型對天文學(xué)知識(shí)的理解程度還可以通過它們對知識(shí)的靈活應(yīng)用程度來考察。因此我們增加了推理和計(jì)算問題集。這部分主要包括天文學(xué)的初級(jí)應(yīng)用題,就像我們考試中的計(jì)算題一樣。要回答這類問題,就需要答題者首先能夠正確理解題目的含義,再結(jié)合有關(guān)常識(shí)進(jìn)行解答。

    了解了問題是如何設(shè)置的,接下來看看具體如何提問。

    在使用大語言模型的時(shí)候提示語也是很重要的,提示語就是我們在對大語言模型提問時(shí)使用的話語。當(dāng)我們平時(shí)和朋友們交流時(shí),不同的語氣會(huì)代表不同的含義,而與大語言模型交流時(shí)則是不同的話語會(huì)使得大語言模型有不同的理解。我們經(jīng)測試了解到不同的提示語會(huì)導(dǎo)致大語言模型進(jìn)行不同的回答,所以為了保證大語言模型的理解能夠一致,我們設(shè)置了統(tǒng)一的提示語。

    問題類別

    問題

    提示語

    基礎(chǔ)術(shù)語

    朔望

    請解釋天文術(shù)語“朔望”的含義,并把回復(fù)控制在500個(gè)漢字以內(nèi)。

    專業(yè)術(shù)語

    暗物質(zhì)

    請解釋天文術(shù)語“暗物質(zhì)”的含義,并把回復(fù)控制在500個(gè)漢字以內(nèi)。

    古天文

    蓋天說

    請解釋天文術(shù)語“蓋天說”的含義,并把回復(fù)控制在500個(gè)漢字以內(nèi)。

    儀器

    施密特式望遠(yuǎn)鏡

    請簡要介紹天文學(xué)儀器“施密特式望遠(yuǎn)鏡”,并把回復(fù)控制在500個(gè)漢字以內(nèi)。

    史實(shí)

    引力波

    請簡要介紹,天文領(lǐng)域的“引力波”是怎樣被發(fā)現(xiàn)的?把回復(fù)控制在500個(gè)漢字以內(nèi)。

    計(jì)算和推理

    全天有多少平方度?

    以下是天文學(xué)科目的計(jì)算題:全天有多少平方度?請給出計(jì)算過程和結(jié)果。

    我們選取了6個(gè)公司的7個(gè)主流大模型,分別是:OpenAI的ChatGPT-3.5、4.0,谷歌的Gemini Pro,科大訊飛的訊飛星火,百度的文心一言,阿里的通義千問以及騰訊的騰訊混元。這些模型除ChatGPT-4.0以外,都是可以免費(fèi)使用。為了保證我們這次測驗(yàn)的嚴(yán)謹(jǐn)性,我們統(tǒng)一通過網(wǎng)頁UI進(jìn)行提問收集回答。所有模型回答的收集時(shí)間是北京時(shí)間2024年1月17日。

    就像閱卷一樣,收集了回答后我們對其進(jìn)行打分。由于我們測試選取的都是主觀題,沒有自動(dòng)化的評(píng)分辦法,所以采取傳統(tǒng)人工評(píng)閱方式進(jìn)行打分。參考答案來自天文類教科書、《中國大百科全書》(第三版)和天文學(xué)相關(guān)綜述論文等權(quán)威資料。

    我們的評(píng)分是為了驗(yàn)證回答的可信度和正確性,因此采用五分制進(jìn)行評(píng)分:完全正確(5分);大部分正確,但允許個(gè)別字句或表述錯(cuò)誤(4分);基本正確(3分);少量正確(2分);沒有全錯(cuò)(1分);完全錯(cuò)誤(0分)。對于計(jì)算題,我們會(huì)檢查解題過程和結(jié)果。全部正確得5分;過程正確但沒有給出答案得3分;若個(gè)別公式正確,則根據(jù)公式個(gè)數(shù)來計(jì)算得分,最多2分。由于主觀評(píng)分不可避免地存在個(gè)體差異,所以我們請三位天文系教師按照相同的標(biāo)準(zhǔn)進(jìn)行獨(dú)立評(píng)分,取三次評(píng)分的平均數(shù)作為最終得分。

    “實(shí)戰(zhàn)”結(jié)果

    圖片

    這次我們一共評(píng)測60道題目,每道題滿分為5分,滿分為300分。各個(gè)模型的得分對比如圖1所示。從圖1可以看出,得分最好的三個(gè)模型分別是ChatGPT-4.0、Gemini Pro和通義千問,但各個(gè)模型在具體方向的得分是有所不同的。

    圖片

    圖1? 各模型總分對比圖

    具體來看,ChatGPT-3.5和訊飛星火的平均每題得分都在2分以下,表現(xiàn)較差。位于第二梯隊(duì)的騰訊混元和文心一言平均每題得分則接近3分,相對較好。而位于第一梯隊(duì)的ChatGPT-4.0,平均每道題得分超過4分,表現(xiàn)出色。當(dāng)然,它也有瑕疵,會(huì)出現(xiàn)信息遺落或錯(cuò)誤。但總體來說,ChatGPT-4.0的天文已經(jīng)“學(xué)”得很不錯(cuò)了,這或許將為今后的天文教育與科普提供有力的支持。通義千問和Gemini Pro這兩個(gè)模型的得分在225分左右,平均每道題得分接近4分,特別值得一提的是,如果不考慮計(jì)算題部分,它們的表現(xiàn)甚至比ChatGPT-4.0還要好!

    總的來說,在這次評(píng)測的7個(gè)大模型中,ChatGPT-4.0脫穎而出,獲得了最高評(píng)分。它的推理計(jì)算能力明顯領(lǐng)先于其他模型,但對中國古天文概念還較欠缺,這也提醒我們在訓(xùn)練模型時(shí)要更加關(guān)注各個(gè)領(lǐng)域的知識(shí)覆蓋。

    以上是我們從整體對各個(gè)模型進(jìn)行的比較,現(xiàn)在我們從每個(gè)模塊入手來分析這些模型吧!

    在“基礎(chǔ)術(shù)語”領(lǐng)域,通義千問的得分最高,ChatGPT-4.0和Gemini Pro緊隨其后。按照我們的評(píng)分要求來看,剩余四個(gè)得分小于30分的大語言模型的回答是不可靠的。

    在“專業(yè)術(shù)語”領(lǐng)域,Gemini Pro與ChatGPT-4.0準(zhǔn)確度頗高,通義千問稍遜一籌,至于文心一言和騰訊混元?jiǎng)t展現(xiàn)出一定的專業(yè)術(shù)語掌握能力。

    在中國古天文領(lǐng)域,Gemini Pro再次拔得頭籌,通義千問顯示了扎實(shí)的知識(shí)基礎(chǔ),文心一言、ChatGPT-4.0及騰訊混元具備一定可信度,但ChatGPT-3.5和訊飛星火則顯得較不可靠。

    在天文儀器領(lǐng)域,ChatGPT-4.0與Gemini Pro再度領(lǐng)先,通義千問則緊隨其后,騰訊混元與文心一言則具有一定水平的理解能力。

    而對于檢驗(yàn)?zāi)P驼Z料準(zhǔn)確性的史實(shí)類問題,ChatGPT-4.0、通義千問和Gemini Pro體現(xiàn)了極高的準(zhǔn)確性,騰訊混元與文心一言存在較多錯(cuò)誤或遺漏。

    最后,在我們設(shè)定的10道計(jì)算和推理題環(huán)節(jié)中,ChatGPT-4.0憑借滿分的成績傲視群雄,證明其在推理與計(jì)算能力上具有巨大的優(yōu)勢。相比之下,其余模型的平均得分均未達(dá)到30分,它們與ChatGPT-4.0之間存在著顯著差距。

    圖片
    圖片
    圖片

    圖2? 模型得分雷達(dá)圖

    后記

    圖片

    通過這次的評(píng)測我們發(fā)現(xiàn),ChatGPT-4.0綜合實(shí)力最佳,尤其是在“推理和計(jì)算”方面的能力遠(yuǎn)優(yōu)于其他模型。Gemini Pro和通義千問也表現(xiàn)出很高的天文知識(shí)水平,文心一言和騰訊混元在天文學(xué)領(lǐng)域的能力接近,都處于及格水平。而ChatGPT-3.5和訊飛星火的訓(xùn)練數(shù)據(jù)中似乎缺少天文學(xué)科的相關(guān)內(nèi)容,對于天文方面的知識(shí)掌握得并不好。

    由于時(shí)間和技術(shù)條件的限制,我們設(shè)計(jì)的測試題目質(zhì)量雖然高于現(xiàn)有通用測試集中的天文問題,但還主要圍繞術(shù)語概念展開,不足以覆蓋天文學(xué)科的眾多方向。當(dāng)然,通過這篇文章相信你也初步了解了如何簡單地去對一個(gè)大語言模型進(jìn)行評(píng)測,有興趣的話你也可以來一次評(píng)測!

    大語言模型的出現(xiàn)為人們提供了一種新型的人機(jī)交互方式,由此我們可以更快地獲取知識(shí)。它的演化日新月異,無時(shí)無刻不在“進(jìn)化”,相信總有一天會(huì)有一個(gè)能夠回答你所有宇宙奧秘的朋友!

      本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請遵守用戶 評(píng)論公約

      類似文章 更多

      主站蜘蛛池模板: 人人超人人超碰超国产| 少妇午夜啪爽嗷嗷叫视频| 久久99精品九九九久久婷婷| 亚洲精品麻豆一区二区| 中文无码AV一区二区三区| 欧美成本人视频免费播放| 亚洲国产无套无码AV电影 | 少妇肉麻粗话对白视频| 高清有码国产一区二区| 成人无码潮喷在线观看| 东京热人妻丝袜无码AV一二三区观| 人成午夜免费大片| 爱性久久久久久久久| 天堂亚洲免费视频| 99久久久国产精品消防器材| 中文字幕无码久久精品| 久久国产精品成人影院| 东京热大乱系列无码| 欧美交a欧美精品喷水| 中文字幕av无码不卡| 国产精品久久久久久AV| 国产精品亚洲一区二区无码| 中文字幕无码午夜场| 午夜无码大尺度福利视频| 99精品国产99久久久久久97| 亚洲日本欧美日韩中文字幕| 3d无码纯肉动漫在线观看| 午夜免费福利小电影| 不卡乱辈伦在线看中文字幕| 亚洲国产精品久久久天堂麻豆宅男 | 果冻传媒MV国产推荐视频| 国产美女被遭强高潮免费一视频 | 午夜精品一区二区三区在线观看| 精品一区二区不卡无码AV | 亚洲AV无码AV在线影院| 手机看片AV永久免费| 九九久久精品国产免费看小说| 丝袜美腿一区二区三区| 成人免费AA片在线观看| 毛片大全真人在线| 精品人妻中文字幕av|