多模態大模型時代可能真的要來了。 谷歌預告了自己的多模態大模型:Gemini,號稱是"Anything to Anything",它可以接收任意形式的輸入(文字,語音,圖片,視頻......),然后按照你的要求給出任意形式的輸出。 例如:給它一個視頻,讓它生成一段代碼。 例如:給它一張圖,讓它給你生成一張【圖片+文字】 甚至,它可以進行多語言識別,即使另一種文字是五線譜! 很厲害,有木有! 從測試效果來看,Gemini是第一個在MMLU(大規模多任務語言理解,是測試人工智能模型的知識和問題解決能力的最流行的方法之一)上超越人類專家的模型,達到了90% 在與GPT4的較量中,無論是在問答、推理、數學還是編程方面,都要優于GPT4. 現在,Gemini有三種模型:
不得不說,這絕對是人工智能發展的一個里程碑,也是谷歌新時代的開始。 參考: 1. https://deepmind.google/technologies/gemini/#introduction |
|