這不是危言聳聽!英文大模型發展如火如荼,中文大模型卻不被重視。在英文基座大模型侵蝕全部領地之前,中國必須建設自主安全的中文大模型生態。 眾所周知的是,漢藏語系與印歐語系存在巨大差異,但國內的AI大模型訓練很多卻以英文為起點,要讓大模型成為更能推動國內經濟發展和科技創新的工具,打造中文大模型生態刻不容緩。要把主動權牢牢把握在我們手中。 慶幸的是,已經有國內企業這么做了。去年,阿里云就推出了首個中文AI模型社區魔搭,現在已經聚集了1000多個優質AI模型。最近,阿里云又開源了70億參數規模的通義千問大模型,包括基座模型Qwen-7B和對話模型Qwen-7B-Chat,供外界免費使用。且在多個權威基準測評中,通義千問Qwen-7B預訓練模型的中文能力都遠超國內外同等規模開源模型。 中文博大精深,中文大模型可以更好地理解復雜的中文專業術語,實現精準的輸出,提升效率。從國家角度看,建設自主安全的中文大模型開源生態是中國人工智能發展的重要一步,提高中國在人工智能領域的競爭力。 然而,當前中文大語言模型數據集稀缺是事實,希望有更多阿里云這樣的科技企業加大研發投入,構筑中文大模型的技術護城河才行! ![]() ![]() ![]() |
|