2022年5月,超對稱技術公司發布大語言模型Big Bang Transformer【乾元】的第一版BBT-1,10億參數預訓練語言模型,在中文金融語料上訓練而成。 近期,超對稱公司再推出BBT-2,120億參數的通用大語言模型,并在BBT-2的基礎上訓出代碼,金融,文生圖等專業模型。 Big Bang Transformer【乾元】12B大模型的開發基于英偉達的DGX算力,超對稱公司主導大模型的預訓練,并聯合復旦大學知識工場實驗室完成指令微調和評測工作。 超對稱技術公司將發布基于BBT-2的系列模型(模型Index見于https://bbt.)
另外,通過與UCloud在開源方面的合作,超對稱還將3個大模型開源到官網、Github和UCloud,后續用戶可直接在UCloud官方平臺通過GPU云主機的行業鏡像或算力平臺直接開箱使用這些模型:
(1)BBT-1-0.2B-001:2億參數,金融模型,T5 Decoder+Encoder架構 (2)BBT-1-0.2B-002: 2億參數,金融模型,T5+GPT (3)BBT-1-0.2B-003: 2億參數,金融模型,T5+UL2
開源下載鏈接 模型:
1.BBT-2-12B-Text 通用模型BigBang Transformer[乾元]是基于GPT Decoder-only架構的大規模預訓練模型。繼2022年開源BBT-1-0.2B模型之后,我們正式開源最新系列的BBT模型:BBT-1-1B,BBT-2-12B-Text,BBT-2.5-13B-Text。預訓練語料庫覆蓋14個高質量數據源,覆蓋書籍、百科、論文、小說、新聞、政策文件、中文博客、社交媒體等多個數據源種類。BBT-2-12B-Text基于中文700億tokens進行預訓練,經過指令微調的BBT-2基礎模型可以回答百科類和日常生活的問題。BBT-2.5-13B-Text基于中文+英文 2000億tokens進行預訓練。我們暫時不開放基礎模型的問答對話接口。 模型開源后所有開發者可以:
2.BBT-2-12B-Text+Code 代碼模型開發者可以在超對稱公司官網https://www.測試BBT模型的代碼問答(僅應用于代碼生成場景,無法回答與代碼無關的問題)。 BBT-TC,是超對稱技術公司近期發布的 BBT-2 大模型系列中的代碼模型,在 百億基座模型BBT-2-12B-Text接續訓練代碼數據集,通過有監督指令微調(Supervised Fine-Tuning)解鎖模型的推理能力。該模型在專業評測中分數超過其他中國公司開發的同類模型,僅次于GPT-3.5。 詳情可見文章《超對稱技術公司的代碼大模型CodeBBT在專業評測中位居前列,僅次于GPT-3.5》 3.BBT-2-12B-TF-001金融模型
為了更好地推進中文金融自然語言處理的發展,我們搜集和爬取了幾乎所有公開可以獲得的中文金融語料數據:
(2)BBT-TF在公告摘要任務場景超越ChatGPT:我們使用ChatGPT和BBT-TF對同一份公告,相同輸入,生成摘要并對比效果,發現BBT-TF更滿足實際運用場景:
超對稱團隊針對金融行業的預訓練模型發布了一套目前中文領域金融大模型最專業的評測數據集BBT-CFLEB,包含八個標準語言任務,用以衡量不同的模型的多維能力,建立了一個跨模態聯合訓練文本和時序數據的基于Transformer的架構,以及促進金融大模型研發。現開源于Github,同時可在BBT模型網站上查看研發細節,評測數據,不同模型排名甚至可以下載開源模型根據自己需求訓練下游任務并上傳展示,歡迎不同團隊打榜。
基于BBT-2大語言模型,超對稱開發文生圖AIGC模型BBT-Image,聯合專業圖庫公司上海慧岳科技開發了面向紡織行業,印刷,廣告,游戲等行業客戶的應用平臺ai.shenbi.pro. 經過專業評測,BBT-Image在紡織行上的應用效果比Stable Diffusion和其他國內大模型明顯更優。 BBT-Image能夠生成非常逼真的圖像,并且具有可控的樣式和風格。在紡織行業中,BBT-Image可以通過對不同紡織材料的圖像進行學習,生成具有紋理(可無縫拼接)、色彩(色彩亮度不會受訓練樣本明暗影響,為標準化設計用樣式)和設計元素(可隨意組合元素)的紡織品圖案,提高紡織品設計的效率和創新性。該技術還可用于家裝等等需要圖案設計的行業。
馬斯克認為AGI的終極測試是模型能發現新的物理定律。GPT-4在醫生資格考試、律師資格考試、AP考試、GRE上獲得不錯的分數,但目前還沒有證明其能有效地發現或輔助人類知識庫尚未存在的知識。對于中國的大模型研發團隊,直接瞄準大語言模型用于科學發現是超越GPT-4的一個可能路徑。在科學研究上,研究人員可以使用語言模型來自動提取和分析論文中的主題、實驗方法、結果和結論,從而發現新的科學發現和研究方向。BBT-Science大模型是基于BBT大模型在幾千萬篇科研論文上訓練構建的輔助科學發現的大模型,應用于物理、化學、生物、數學等不同學科的科研知識問題,可以提供三方面的能力: 為了對科學大模型進行評測,超對稱技術公司與復旦、上海交大、浙大、南航、中山大學、北師大等多所大學合作,正在號召全球一線的科研人員共同構建一個最大的科研問題評測數據集ResearchQA。該數據集覆蓋數學、物理、化學、生物、地理地質、計算機、電子工程等主流科研領域。科學大模型將成為全球科研能力的底層引擎,帶來科研生產力的加速。該數據集直接采集科研領域里前沿的研究課題作為問題,重點考察大模型回答的創新性。有興趣提供自己科研課題的問題和答案共同構建評測數據集的科研人員可以聯系郵箱 :researchqa@
在數學、物理、化學、生物、地質、地理等各個學科的前沿,科研人員與各種各樣的未解之謎奮戰,不斷拓寬人類的知識疆界。讓壓縮學習數億論文和書籍的大模型來參與對這些問題的討論和解決,將是人類對自然界征程的其中最精彩的一幕。如以下宇宙學領域的前沿問題:
超對稱技術公司研發團隊應用統計力學的相變理論和重整化群機制在為大模型的涌現現象建立數學框架。Google Brain的研究人員比較了不同大模型在各種下游任務的表現,發現大模型訓練到10^22次方Flops左右的時候模型的準確率會從接近零突然躍升,目前統計了137種不同任務觀察到這樣的現象。對于小模型不具備而大模型具備的能力,我們定義為涌現能力。OpenAI團隊在2020年的一項工作(標度律 Scaling Law)研究了大模型Loss值和模型參數大小,數據量和算力之間都存在冪次律關系。 在由物理規律控制的復雜系統中,我們發現冪次律存在于二階相變(連續相變)的臨界態中,帶來臨界態的標度不變性(Scale Free)現象。一般觀察到冪次律意味著存在連續相變現象,比如超流體和鐵磁相變都有這樣的現象。而在2003年以來的生物神經元實驗中,科研人員發現大腦神經元的放電也存在冪次律和連續相變,意味著大腦類似沙子堆積到一定高度自動崩塌一樣運作于臨界態上。重整化群是一套有效的數據工具用于描述凝聚態物理的相變和臨界性。人工神經網絡是對生物神經元工作機制的一種高度抽象,由于在基于人工神經網絡的大模型上發現了冪次律,我們推測大模型在訓練過程中也發生了連續相變,存在某種臨界性。 重整化群是一種分析凝聚態物理相變和臨界性的有效數學手段,成功解釋了鐵磁相變和超導現象,理論預測值和實驗數據高度接近。科研人員已經用重整化群解釋了生物神經元的臨界性。因此,超對稱公司研發團隊正在應用重整化群為大模型的涌現行為構建數學框架,從而將微觀的單個神經元和宏觀的1750億參數的大模型用數學函數關聯起來。通過有效的數學框架研究涌現的底層機制,超對稱公司的目標是未來實現讓大模型進行可控地涌現。
|
|