久久精品精选,精品九九视频,www久久只有这里有精品,亚洲熟女乱色综合一区
    分享

    回顧2022年計(jì)算機(jī)視覺領(lǐng)域最激動(dòng)人心的進(jìn)展

     小白學(xué)視覺 2022-12-20 發(fā)布于黑龍江

    重磅干貨,第一時(shí)間送達(dá)

    過去 12 個(gè)月見證了計(jì)算機(jī)視覺的快速發(fā)展,從支持基礎(chǔ)設(shè)施到跨行業(yè)的新應(yīng)用,再到研究中的算法突破,再到 AI 生成藝術(shù)的爆炸式增長。本篇文章帶大家一起回顧一下這些令人興奮的發(fā)展。本文將通過五個(gè)部分來回顧計(jì)算機(jī)視覺領(lǐng)域在2022年的發(fā)展。

    計(jì)算機(jī)視覺趨勢

    1. Transformer統(tǒng)治計(jì)算機(jī)視覺

    Transformer 模型在 2017 年在Attention is All You Need論文中被提出,之后廣泛用于深度學(xué)習(xí)領(lǐng)域,為各種 NLP 任務(wù)設(shè)定了標(biāo)準(zhǔn),并開創(chuàng)了大型語言模型 (LLM) 的時(shí)代。Vision Transformer (ViT) 于 2020 年底推出,標(biāo)志著這些基于自我注意的模型在計(jì)算機(jī)視覺環(huán)境中的首次應(yīng)用。

    今年,研究將 Transformer 模型推向了計(jì)算機(jī)視覺的前沿,在各種任務(wù)上實(shí)現(xiàn)了最先進(jìn)的性能。例如:DETR、SegFormer、Swin Transformer和ViT。這個(gè)GitHub總結(jié)了相當(dāng)于的基于Transformer的網(wǎng)絡(luò)。感興趣的小伙伴可以關(guān)注一下。

    https://github.com/Yangzhangcst/Transformer-in-Computer-Vision

    2. 以數(shù)據(jù)為中心的計(jì)算機(jī)視覺獲得牽引力

    隨著計(jì)算機(jī)視覺的成熟,越來越多的機(jī)器學(xué)習(xí)開發(fā)工作專注于整理、清理和擴(kuò)充數(shù)據(jù)。數(shù)據(jù)質(zhì)量正在成為性能的瓶頸,行業(yè)正朝著數(shù)據(jù)模型協(xié)同設(shè)計(jì)的方向發(fā)展。以數(shù)據(jù)為中心的機(jī)器學(xué)習(xí)會(huì)越來越受歡迎。

    這一努力的掌舵者是新一波的初創(chuàng)公司——合成數(shù)據(jù)生成公司(gretel、Datagen、Tonic)和評(píng)估、可觀察性和實(shí)驗(yàn)跟蹤工具(Voxel51、Weights & Biases 、CleanLab)——加入現(xiàn)有的標(biāo)簽和注釋服務(wù)(Labelbox、Label Studio、CVAT、Scale、V7 ) 的努力。

    3. AI 生成的藝術(shù)作品
    在生成對抗網(wǎng)絡(luò) (GAN) 的改進(jìn)和傳播模型的快速發(fā)展和迭代之間,AI生成的藝術(shù)正在經(jīng)歷只能被描述為復(fù)興的過程。借助Stable Diffusion、Nightcafe、Midjourney和 OpenAI的DALL-E2等工具,現(xiàn)在可以根據(jù)用戶輸入的文本提示生成令人難以置信的細(xì)微圖像。Artbreeder允許用戶將多個(gè)圖像“培育”成新作品,Meta的Make-A-Video從文本生成視頻,而RunwayML在創(chuàng)建動(dòng)畫和編輯視頻方面改變了游戲規(guī)則。其中許多工具還支持修復(fù)和outpainting,可用于編輯和擴(kuò)展圖像范圍。

    隨著所有這些工具徹底改變 AI 藝術(shù)能力,爭議幾乎是不可避免的,而且已經(jīng)有很多。9 月,一張AI 生成的圖像贏得了一場美術(shù)比賽,引發(fā)了關(guān)于什么才算是藝術(shù),以及所有權(quán)、歸屬和版權(quán)如何適用于這類新內(nèi)容的激烈討論。估計(jì)這個(gè)討論會(huì)越來約激烈。

    4. 多模態(tài)人工智能成熟
    除了 AI 生成的藝術(shù)作品,2022 年還見證了多種模式交叉領(lǐng)域的大量研究和應(yīng)用。處理多種類型數(shù)據(jù)(包括語言、音頻和視覺)的模型和管道正變得越來越流行。這些學(xué)科之間的界限從未如此模糊,異花授粉也從未如此富有成果。

    這種上下文沖突的核心是對比學(xué)習(xí),它改進(jìn)了將多種類型的數(shù)據(jù)嵌入同一空間的方法,開創(chuàng)性的例子是 Open AI 的對比語言-圖像預(yù)訓(xùn)練 ( CLIP ) 模型。
    這樣做的一個(gè)結(jié)果是能夠根據(jù)文本或其他圖像的輸入對圖像集進(jìn)行語義搜索。這刺激了矢量搜索引擎的繁榮,Qdrant、Pinecone、Weaviate、Milvus和其他引擎引領(lǐng)潮流。同樣,模態(tài)之間的系統(tǒng)連接正在加強(qiáng)視覺問答和零鏡頭和少鏡頭圖像分類。


    計(jì)算機(jī)視覺的新應(yīng)用
    計(jì)算機(jī)視覺現(xiàn)在在從體育和娛樂到建筑、安全、農(nóng)業(yè)等各個(gè)領(lǐng)域都發(fā)揮著重要作用,在這些行業(yè)中的每一個(gè)行業(yè)中,都有太多的公司采用計(jì)算機(jī)視覺來計(jì)算。本節(jié)重點(diǎn)介紹計(jì)算機(jī)視覺正在深入嵌入的一些行業(yè)中的一些關(guān)鍵發(fā)展。
    國際足聯(lián)在 2022 年卡塔爾世界杯上使用的半自動(dòng)越位檢測功能的圖示。

    1. 運(yùn)動(dòng)領(lǐng)域

    當(dāng)國際足聯(lián)在卡塔爾世界杯上使用半自動(dòng)系統(tǒng)檢測越位時(shí),計(jì)算機(jī)視覺就出現(xiàn)在了最大的舞臺(tái)上。他們還使用計(jì)算機(jī)視覺來防止體育場發(fā)生踩踏事件。
    其他值得注意的發(fā)展包括Sportsbox AI 籌集了由 EP Golf Ventures 牽頭的 550 萬美元 A 系列,將運(yùn)動(dòng)跟蹤引入高爾夫(和其他運(yùn)動(dòng)),以及新公司Jabbr 為格斗運(yùn)動(dòng)定制計(jì)算機(jī)視覺,從 DeepStrike 開始,這是一種自動(dòng)計(jì)算出拳次數(shù)的模型并編輯拳擊視頻。

    2. 環(huán)境保護(hù)

    循環(huán)經(jīng)濟(jì)初創(chuàng)公司Greyparrot為其計(jì)算機(jī)視覺驅(qū)動(dòng)的廢物監(jiān)測系統(tǒng)籌集了 1100 萬美元的 A 輪融資。Carbon marketplace NCX 使用尖端的計(jì)算機(jī)視覺模型和衛(wèi)星圖像來提供木材和碳潛力的精確評(píng)估,籌集了 5000 萬美元的 B 輪融資。Microsoft宣布了 Microsoft Climate Research Initiative (MCRI),它將把他們的計(jì)算機(jī)視覺用于可再生能源測繪、土地覆蓋測繪和冰川測繪方面的氣候努力。

    3. 自動(dòng)駕駛

    2022 年對整個(gè)自動(dòng)駕駛汽車行業(yè)來說有點(diǎn)喜憂參半,自動(dòng)駕駛汽車公司Argo AI 在 10 月關(guān)閉運(yùn)營,福特和Rivian將他們的重點(diǎn)從 L4(高度自動(dòng)化)轉(zhuǎn)移到 L2(部分)和L3(條件)自動(dòng)化。Apple 最近還宣布縮減其自動(dòng)駕駛項(xiàng)目“Project Titan”,并將發(fā)布時(shí)間推遲到 2026 年。

    盡管如此,計(jì)算機(jī)視覺還是取得了一些顯著的勝利。麻省理工學(xué)院的研究人員發(fā)布了第一個(gè)用于自動(dòng)駕駛的開源逼真模擬器。在從英特爾分拆出來后,駕駛輔助部門Mobileye 籌集了 8.61 億美元的 IPO 。谷歌收購了空間人工智能和移動(dòng)創(chuàng)業(yè)公司 Phiar。Waymo在鳳凰城市中心推出了自動(dòng)駕駛汽車服務(wù)。

    4. 健康與醫(yī)藥

    在澳大利亞,工程師們設(shè)計(jì)了一種很有前途的基于計(jì)算機(jī)視覺的非接觸式血壓檢測方法,它可以替代傳統(tǒng)的充氣袖帶。此外,谷歌開始將其基于計(jì)算機(jī)視覺的乳腺癌檢測工具授權(quán)給癌癥檢測和治療提供商iCAD


    值得關(guān)注的論文
    • MAFNet: Segmentation of Road Potholes with Multi-modal Attention Fusion Network for Autonomous Vehicles
    • Tackling the generative learning trilemma with denoising diffusion GANs

    • Understanding dimensional collapse in contrastive self-supervised learning
    • InternImage: Exploring large-scale vision foundation models with deformable convolutions
    • YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors


    肯定還有很多主要的論文,這里面只給出一些比較驚艷的文章


    科技公司的進(jìn)展
    1. Alphabet
    Alphabet 今年在計(jì)算機(jī)視覺領(lǐng)域很活躍,Google Brain 團(tuán)隊(duì)研究了Vision Transformers 的縮放,Google 研究開發(fā)了對比字幕(CoCa)。Google Brain 團(tuán)隊(duì)還使用Imagen Video將他們的文本到圖像擴(kuò)散模型Imagen擴(kuò)展到視頻領(lǐng)域。DeepMind 引入了一種新的自我監(jiān)督學(xué)習(xí)范式,在各種遷移學(xué)習(xí)任務(wù)中實(shí)現(xiàn)了最先進(jìn)的性能。最后,Google 發(fā)布了Open Images V7,它為超過一百萬張圖像添加了關(guān)鍵點(diǎn)數(shù)據(jù)

    2. 亞馬遜
    亞馬遜至少可以說是多產(chǎn)的,有 40 篇論文被 CVPR 和 ECCV 接受。突出這一名副其實(shí)的大量研究的是一篇關(guān)于將圖像轉(zhuǎn)化為地圖的論文,該論文在 ICRA 2022 上獲得了最佳論文獎(jiǎng),這是一種評(píng)估沒有完整(或任何)標(biāo)簽的人臉驗(yàn)證系統(tǒng)偏差的方法,以及修改特定特征的系統(tǒng)處方在 GAN 生成的圖像中,它通過用瑞利商的語言重鑄問題來工作。

    3. 微軟
    Microsoft 在 Transformer 模型方面做了大量工作。就在 1 月,微軟介紹 BEiT(圖像轉(zhuǎn)換器的 BERT 預(yù)訓(xùn)練)的論文在 ICLR 上被接受,隨后的模型系列已成為 Transformer 模型領(lǐng)域的主要內(nèi)容,基礎(chǔ)模型從 Hugging獲得了 140 萬以上的下載量面對過去的一個(gè)月。BEiT 家族蓬勃發(fā)展,發(fā)表了關(guān)于生成視覺語言預(yù)訓(xùn)練(VL-BEiT)、使用矢量量化視覺標(biāo)記器進(jìn)行掩蔽圖像建模(BEiT V2) 以及將圖像建模為外語的論文。

    除了 BEiT 之外,Microsoft 一直在利用他們?nèi)ツ晖ㄟ^StyleSwin和Swin Transformer V2創(chuàng)造的 Swin Transformer 浪潮。2022 年的其他著名作品包括MiniViT:使用權(quán)重多路復(fù)用壓縮視覺轉(zhuǎn)換器、RegionCLIP:基于區(qū)域的語言圖像預(yù)訓(xùn)練和NICE-SLAM:SLAM 的神經(jīng)隱式可擴(kuò)展編碼。

    4. Meta

    Meta 在語言和視覺的十字路口保持著對多模態(tài)機(jī)器學(xué)習(xí)的高度關(guān)注。視聽 HuBERT在唇讀和視聽語音識(shí)別方面取得了最先進(jìn)的成果。多種語言的視覺語音識(shí)別演示了向視覺語音識(shí)別 (VSR) 模型添加輔助任務(wù)可以顯著提高性能。FLAVA: A Foundational Language And Vision Alignment Model提出了一個(gè)模型,該模型在 35 種不同的語言和視覺任務(wù)中表現(xiàn)良好。data2vec引入了一個(gè)統(tǒng)一的框架,用于跨越視覺、語音和語言的自我監(jiān)督學(xué)習(xí)。

    借助DEiT III,Meta AI 的研究人員重新審視了 Vision Transformers 的訓(xùn)練步驟,并表明經(jīng)過基本數(shù)據(jù)增強(qiáng)訓(xùn)練的模型可以顯著優(yōu)于完全監(jiān)督的 ViT。Meta 在重建符號(hào)距離場 (SDF) 的持續(xù)學(xué)習(xí)方面也取得了進(jìn)展,包括 Yann LeCun 在內(nèi)的一組研究人員分享了對比學(xué)習(xí)為何有效的理論見解。讀這個(gè)。真的。

    最后,在 9 月,Meta AI 將 PyTorch 拆分為與供應(yīng)商無關(guān)的PyTorch Foundation,此后不久發(fā)布了PyTorch 2.0。


    計(jì)算機(jī)視覺的工具
    • 標(biāo)注初創(chuàng)公司Labelbox 籌集了 1.1 億美元的 D 輪融資

    • V7 籌集了 3300 萬美元的 A 系列資金,以幫助團(tuán)隊(duì)構(gòu)建強(qiáng)大的 AI

    • Roboflow 發(fā)布了Roboflow 100,一個(gè)新的對象檢測基準(zhǔn)

    • Voxel51 籌集了 1250 萬美元的 A 系列資金,以幫助提高全球數(shù)據(jù)的清晰度和透明度



    結(jié)論
    2022 年對于機(jī)器學(xué)習(xí)來說非常活躍,對于計(jì)算機(jī)視覺來說尤其如此。瘋狂的是,研究的快速發(fā)展、從業(yè)者人數(shù)的增長和行業(yè)的采用似乎都在加速。讓我們看看 2023 年會(huì)發(fā)生什么!

    好消息!

    小白學(xué)視覺知識(shí)星球

    開始面向外開放啦??????

    下載1:OpenCV-Contrib擴(kuò)展模塊中文版教程

      轉(zhuǎn)藏 分享 獻(xiàn)花(0

      0條評(píng)論

      發(fā)表

      請遵守用戶 評(píng)論公約

      類似文章 更多

      主站蜘蛛池模板: 麻豆国产传媒精品视频| 潮喷失禁大喷水无码| 亚洲国产午夜福利精品| 精品一区二区成人精品| 亚洲中文字幕无线无码毛片| 欧美高清狂热视频60一70| 国产人妻久久精品一区| 亚洲精品一区二区麻豆| 国产精品无码日韩欧| 国产第一页浮力影院入口| 中文字幕亚洲日韩无线码 | 免费A级毛片樱桃视频| 丰满人妻AV无码一区二区三区| 无码高潮爽到爆的喷水视频| 免费观看欧美猛交视频黑人| 久久久久久亚洲精品成人| 国产精品自在拍首页视频8| 88国产精品欧美一区二区三区| 亚洲精品无码成人A片九色播放| 久久精品日日躁夜夜躁欧美| 亚洲精品香蕉一区二区| 69久久夜色精品国产69| 99精品热在线在线观看视 | 国产午夜视频在线观看| 无码抽搐高潮喷水流白浆| 男女无遮挡XX00动态图120秒| 玩弄漂亮少妇高潮白浆| 国产AV无码专区亚洲AV毛片搜| 天天综合亚洲色在线精品| 亚洲av永久无码精品漫画| 韩国无码AV片在线观看网站| 白嫩少妇无套内谢视频| AV免费网址在线观看| 国产美女MM131爽爽爽| 男女激情一区二区三区| 99精品国产99久久久久久97| 熟妇人妻不卡中文字幕| 18禁无遮挡啪啪无码网站破解版| 精品人人妻人人澡人人爽人人| 日韩免费视频一一二区| 色窝窝免费播放视频在线|