來源:賽博禪心 今天是除夕,凌晨 1 點,我在北京的公寓里寫算法。白天在中關村(4.520, 0.00, 0.00%)咖啡館的喧囂, AppStore 登頂的狂歡, 仿佛已經是上個世紀的事情。 此刻的屏幕上,不斷翻出來新的消息:DeepSeek Janus-Pro 開源 讓我們一起,來看看這舊年的最后一個驚喜 ![]() 這是一個多模態模型,名稱來源于古羅馬神話中的雙面神“雅努斯”(Janus):它同時面向過去與未來。當然,你也可以說,這代表了模型的兩種能力——既要進行視覺理解,又要進行圖像生成。 發布的地址在這: https://github.com/deepseek-ai/Janus https://huggingface.co/deepseek-ai/Janus-Pro-1B https://huggingface.co/deepseek-ai/Janus-Pro-7B 同時發布的,還有一份技術文檔,可以回復 Janus 獲取這份文檔。 首先,我得承認,我對圖像處理這塊并不精通,所以如果有解讀錯誤的地方,歡迎評論區指正。 官方給了一些生成的效果圖,明顯強于 Janus 原版。雖比不上 Midjourney 那般藝術,但應為第一梯隊。 ![]() 如果是對比 OpenAI 的 DALL-E 3,參數會領先不少,并且直接霸榜。 ![]() 更不同于 OpenAI 的 DALL-E 只能畫圖,Janus 同時包含了多種能力:比如圖像識別、地標識別、文字識別等。 圖像識別能力,也就是所謂的讀圖 ![]() 地標識別能力,比如讓他猜這張圖片是在哪拍的 ![]() 圖片通識 - 他知道很多的文化符號,比如 Tom and Jerry ![]() 來識別圖片中的文字 ![]() 當然,自然也能生成圖片 ![]() 你會發現,這個模型不同于 4o 類型的模型 - 只能看,而是既能看,也能畫。其原因,便是 Deep Seek 的這個模型,使用了解耦視覺編碼技術。 ![]() 在“理解通路”,它能迅速感知到圖片的核心信息,并給出更準確、更專業的回答; 而在“生成通路”上,它便是一個藝術家,像 MidJourney 一樣,去描繪筆觸和色彩。 至于這個模型是如何做到這些的,按報告說法,基于以下三條:
![]() 如果對詳細信息感興趣,可以回復 Janus 獲取這份文檔。 再度看向屏幕,已是剛過四點:不久,就要天亮了 ![]() 在我們的土地上,正傳頌著一種新的敘事:不搞算力禁運,不搞實體清單,不用算力砌高墻,而以開源筑長階,邀世界共赴星辰。 東方破曉,愿君行早。 責任編輯:李桐 |
|