久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    百般刁難騰訊新產品,它的極限被我測出來了

     獨角戲jlahw6jw 2024-06-05 發布于江西

    從去年開始,國內各大互聯網公司就先后推出了大模型產品,像是文心一言(百度)、通義千問(阿里)、豆包(抖音)、訊飛星火……

    作為互聯網巨頭,騰訊動作不大,讓人感覺成了大模型缺席者,事實上,騰訊開發了混元大模型,在騰訊部分產品里,正在發揮作用。

    百般刁難騰訊新產品,它的極限被我測出來了

    因為騰訊宣傳力度不強,所以用戶很難注意到,而前兩天,騰訊終于帶著他們的 AI 助手“元寶”強勢來了。

    百般刁難騰訊新產品,它的極限被我測出來了

    就產品功能來說,元寶與其他的 AI 助手并沒有什么區別,依然是對話界面+各種智能體。

    百般刁難騰訊新產品,它的極限被我測出來了

    當然了,幾乎所有的 AI 助手都是如此,主流的 AI 助手里,只有天工開物搞了一個音樂創作的功能,可惜體驗很一般。

    百般刁難騰訊新產品,它的極限被我測出來了

    信息搜索

    回到騰訊元寶上來,按照騰訊官方說法,騰訊元寶接入了微信搜一搜、搜狗搜索、內容涵蓋微信公眾號文章,主打一個內容全面,信息準確。

    百般刁難騰訊新產品,它的極限被我測出來了

    老狐試著用他們搜索近期關注的一個互聯網話題——抖音電商 2024 年的 GMV 還值得看好嗎?

    百般刁難騰訊新產品,它的極限被我測出來了

    元寶生成的回答,邏輯清晰,開頭說明了預測的 GMV 數據,以及關鍵的興趣電商與貨架電商增長對比,也提到了抖音電商的市場策略和外部環境的競爭。

    可以注意到,文章一共引用了 8 篇文章作為參考,來源比較多樣,從公眾號到新浪新聞、網易新聞甚至還有《財富》雜志,在生成的結果里會標注資料來源,重要數據能迅速找到出處。

    百般刁難騰訊新產品,它的極限被我測出來了

    在生成結果末尾,提供了更多相關文章,基本來自公眾號。

    百般刁難騰訊新產品,它的極限被我測出來了

    相比于引用資料來說,其實文末的文章質量更高,其中也包含可引用的相關數據,但它們沒有被元寶收納到“引用資料”中。

    為了見到自己的文章出現在引用資料里,老狐找了曾寫過的選題,結果第 7 條和第 8 條是科技狐發表在不同平臺的同一篇文章。

    百般刁難騰訊新產品,它的極限被我測出來了

    類似的情況在老狐測試時重復出現,優化還不夠。

    大模型這類涉及到問答形式,需要 AI 引用數據資料來生成回答的模式,回答的質量取決于引用資料的質量。

    騰訊元寶背后有騰訊的整個生態,尤其是微信公眾號,后者有大量團隊和個人在上面發布高質量文章,僅就文字內容來說,這是知乎、小紅書比不了的。

    但是……沒錯,老狐要說但是。

    元寶在生成答案的末尾,附上的內容都是文字,沒有視頻內容,形式上不夠豐富,尤其是在特定的問題上,視頻能呈現出更好的效果。

    比如面對“佛跳墻怎么做”這個問題,文心一言會提供視頻內容,其中還有“老飯骨”明星大廚制作的視頻,而元寶只有文字。

    百般刁難騰訊新產品,它的極限被我測出來了

    這需要騰訊后續升級優化,比如引入視頻號的短視頻,或引入其他平臺如 B站、快手的視頻內容。

    百般刁難騰訊新產品,它的極限被我測出來了

    文檔總結

    文檔總結功能,現在成了大模型內卷的方向之一,尤其是文字長度。

    今年 3 月中旬,Kimi 宣布支持文檔最高字數達到 200 萬字,沒過多久,通義千問就把字數上限提升到 1000 萬字。

    百般刁難騰訊新產品,它的極限被我測出來了

    可能有人會質疑上百萬字數無用,然而,很多企業一份英文財報字數就可能超過 100 萬。

    騰訊說元寶能一次性解析最多 10 個 PDF/word/tet 文件,一次性閱讀一本書不成問題。

    先來看看普通的文章總結,老狐拿公眾號的文章做了測試,結果讓人有些失望。

    百般刁難騰訊新產品,它的極限被我測出來了

    總結里提到 SU7 的銷量超出預期,以及雷軍設定新的銷售目標,相關數據原文有提到,但總結卻沒有列出來。

    我甩給它小米的財報 PDF 連接,讓它幫我找出關鍵數據,這一點,元寶完成得非常不錯。

    百般刁難騰訊新產品,它的極限被我測出來了

    繼續增加難度,我同時向它扔了蔚來、小鵬和理想三家車企的去年英文版年報的鏈接,讓它整理一些關鍵數據。

    它變成了文檔提取失敗,多次嘗試依然無果。

    百般刁難騰訊新產品,它的極限被我測出來了

    于是我又特地下載三份年報到本地,上傳數據讓它讀取。

    百般刁難騰訊新產品,它的極限被我測出來了

    這回倒是不會提取失敗,生成了相關數據,并且用表格進行對比,但三家車企數據雷同。

    老狐猜測原因是三篇財報字數接近 350 萬,超過了元寶的文字長度限制,于是默認使用了最后上傳的小鵬財報數據。

    百般刁難騰訊新產品,它的極限被我測出來了

    用 Kimi 和通義千問來總結,也無法成功,Kimi 提示“超過對話長度”。

    百般刁難騰訊新產品,它的極限被我測出來了

    不過,改成只總結蔚來的年報時,元寶正確引用了蔚來的數據,但卻犯了一個致命錯誤,把 RMB 和 Dollar 弄混了。

    百般刁難騰訊新產品,它的極限被我測出來了

    *元寶總結的數據

    百般刁難騰訊新產品,它的極限被我測出來了

    *蔚來財報截圖

    老狐圓不回來了,可能元寶的英文不佳吧。

    值得一提的是,在微信里打開好友發過來的 word 或 PDF 文檔,可以選擇用元寶打開,通過元寶小程序總結文檔內容。

    百般刁難騰訊新產品,它的極限被我測出來了

    而在企業微信里,暫時還不支持元寶打開文檔。

    誰是真實的辦公軟件,誰是虛假的辦公軟件一目了然。

    百般刁難騰訊新產品,它的極限被我測出來了

    AI 寫作

    AI 寫作也是如今大模型必提的功能之一,宣傳的文案、策劃等場景,大模型已經能夠滿足。至于技術要求更高、代替老狐工作的長文寫作能力,大模型已經很少提及。

    先來看一個比較普通的寫作場景——寫周報,這是我給的 prompt:

    “幫我寫一份上周的周報。我周一寫完了之前沒寫完的視頻稿,周二,周三,周四寫了兩篇公眾號稿子,并體驗了一款大模型產品,周五做了測評并寫了一部分文稿”

    這是元寶生成的答案。

    百般刁難騰訊新產品,它的極限被我測出來了

    Prompt 里只有簡單的工作內容,生成的周報豐富了細節,比如“與視頻團隊溝通”、“撰寫過程中注重內容的深度和廣度”。

    整體來說,這份周報內容寫得還不賴,完成了大部分框架,根據實際情況再做調整,便足夠應付咱們工作中的需要。

    另外我讓元寶完成一份策劃方案,比如公司團建活動,給出 prompt 為:

    “策劃一場公司團建活動,參與人數為20人,地點就在公司,時間是下午一點半到六點半,活動內容包括近期工作總結,互動游戲。”

    生成的活動策劃案第一項是工作總結,安排的三個互動游戲適合室內,游戲道具也有提及。

    百般刁難騰訊新產品,它的極限被我測出來了

    只不過第三條“心得分享與交流”,在我看來沒有必要,但這部分可能是大多企業結束團建的儀式。

    這份策劃方案大家認為如何?老狐認為還不錯。

    百般刁難騰訊新產品,它的極限被我測出來了

    邏輯計算和常識

    在考驗大模型的邏輯能力時,最常用的題目類型是雞兔同籠求解,不過類似問題已經難不倒普通的大模型,元寶同樣如此。

    百般刁難騰訊新產品,它的極限被我測出來了

    提高難度,老狐用一道高考模擬題來考驗它,原題是這樣的。

    百般刁難騰訊新產品,它的極限被我測出來了

    上傳圖片讓元寶識別題目,然而識別出現錯誤。

    百般刁難騰訊新產品,它的極限被我測出來了

    于是老狐又手動輸入題目,最終計算出一個……錯誤答案!

    百般刁難騰訊新產品,它的極限被我測出來了

    小伙伴也別覺得元寶計算能力差,事實上,這道題我之前用文心一言、Kimi、通義千問、豆包都計算過(且都無法直接用圖片提取題目文字)

    元寶,文心一言、Kimi、豆包利用不等式知識解題是正確的思路,但是原題需要變通,將 36=4(a+b) 帶入進去提取常數,大模型顯然沒有這個創造力,紛紛選擇硬解,集體翻車。

    百般刁難騰訊新產品,它的極限被我測出來了

    通義千問計算出了正確答案,不過沒用不等式,而是通過微積分知識,求導確定極值。

    百般刁難騰訊新產品,它的極限被我測出來了

    通義千問這波是拿宰牛刀殺雞。

    我調整了 prompt,讓它用不等式知識計算,看著它輸出了 3 分鐘計算過程,中途還更改計算步驟,最后變成了系統超時。

    百般刁難騰訊新產品,它的極限被我測出來了

    能否制造并使用工具是人與動物的區別之一,而能否靈活運用知識,是人與機器的區別。

    常識問題在去年大模型爆發初期常常見到,還鬧出了“林黛玉倒拔垂楊柳”的笑話。現如今,這個 Bug 已經得到優化,元寶在面對這類問題能輕松避開。

    老狐用國外的文學知識對它測試,它也能正確指出其中的錯誤。

    百般刁難騰訊新產品,它的極限被我測出來了

    不過有些陷阱它還是無法避免,比如我在周五問元寶今年多特蒙德為何奪得歐冠冠軍,它說得頭頭是道,然而比賽是周日凌晨才進行。

    百般刁難騰訊新產品,它的極限被我測出來了

    不過當比賽結束,再問它多特奪冠,它已經能指出其中問題所在。

    百般刁難騰訊新產品,它的極限被我測出來了

    大模型常識問題需要大量資料支撐,在事發前,沒有任何資料,它可能就會胡言亂語。

    大模型就像是三體人,與人類的詭計多端比起來,還是單純了些。

    百般刁難騰訊新產品,它的極限被我測出來了

    AI 作圖

    在騰訊的宣傳稿里,特意提到元寶作畫的能力。

    實際上,如果給到的 prompt 提到的主角單一,并給到環境描寫,它能生成信息準確的圖片。

    百般刁難騰訊新產品,它的極限被我測出來了

    一旦主角有兩位,包含不同的細節,元寶生成的圖片就對不上 prompt 了。

    百般刁難騰訊新產品,它的極限被我測出來了

    此外,在某些場景下,生成的人物面部會很恐怖。

    百般刁難騰訊新產品,它的極限被我測出來了

    這種情形下選擇重復輸出,能得到一張容貌姣好的美女照片,但眼神依舊怪異,而且傘骨歪斜。

    百般刁難騰訊新產品,它的極限被我測出來了

    老狐進行了多次測試后發現,如果人物是正面,且臉部占據畫面較大的面積,元寶對人物面部刻畫會更準確,一旦角度是斜側,或者人物面部較小時,面部就會出現比例失調,尤其是后一種情形。

    這不是元寶一個大模型的問題,其他大模型也會如此。

    不過有些大模型在處理這類問題時,要討巧得多,要么選擇展示人物背面,避免臉部的刻畫,要么就直接正臉,給側臉是死活不會給的。

    百般刁難騰訊新產品,它的極限被我測出來了

    在他們面前,元寶、豆包像個耿直 boy,畫人物面部幾率要比其他幾款大模型高得多。

    反過來,耿直的元寶也更“聽話”,畫面與 prompt 更契合,用戶更容易得到自己想要的畫面。

    百般刁難騰訊新產品,它的極限被我測出來了

    總結

      本站是提供個人知識管理的網絡存儲空間,所有內容均由用戶發布,不代表本站觀點。請注意甄別內容中的聯系方式、誘導購買等信息,謹防詐騙。如發現有害或侵權內容,請點擊一鍵舉報。
      轉藏 分享 獻花(0

      0條評論

      發表

      請遵守用戶 評論公約

      類似文章 更多

      主站蜘蛛池模板: 久久无码中文字幕免费影院| 欧美人妻一区二区三区| 99欧美日本一区二区留学生| 婷婷丁香五月六月综合激情啪| 国产成人午夜精品福利| 国精品午夜福利视频不卡| 色综合久久久久综合体桃花网| 一本一本久久AA综合精品| 深夜av免费在线观看| 亚洲电影天堂在线国语对白| 伊人色综合久久天天小片| 亚洲精品无码MV在线观看软件| 国产精品国产三级国产AV主播| 成人综合婷婷国产精品久久| 高清偷拍一区二区三区| 亚洲AV熟妇在线观看| 人妻少妇无码精品专区| 人妻精品久久无码专区精东影业| 国产精品爽爽VA在线观看无码| 性色欲情网站iwww九文堂| 国产成人亚洲精品无码青APP| 国产亚洲精AA在线观看SEE| 久久亚洲AV成人网站玖玖| 国产中文字幕在线精品| 亚洲 另类 日韩 制服 无码| 国内精品无码一区二区三区| 久久精品手机观看| 欧美成人午夜在线观看视频| 日韩放荡少妇无码视频| 日本XXXX色视频在线观看免费不卡| 88国产精品视频一区二区三区| 精品一区二区中文字幕| 国产农村妇女毛片精品久久| 丰满无码人妻热妇无码区| 亚洲毛片不卡AV在线播放一区| 116美女极品a级毛片| 日本高清视频网站www| 无码高潮少妇毛多水多水免费| 亚洲 制服 丝袜 无码| 欧美一本大道香蕉综合视频| 成人无码小视频在线观看|