AAAI 2024 | 基于關系感知異構圖Transformer的用于藥物-藥物相互作用預測的雙通道學習框架。關系感知自注意力計算公式如下:2.3 DDI預測將兩個藥物的表示拼接并輸入MLP以預測鏈接預測分數: 在完成特征提取后,TIGER將兩個藥物的表示拼接并輸入到多層感知器(MLP)中,以預測鏈接預測分數。本文介紹了一種新型的雙通道關系感知圖轉換模型TIGER,旨在預測藥物-藥物相互作用(DDI)。
論文賞讀 | TGRS | 全色和多光譜圖像融合新方法! 基于像素級集成掩碼自編碼器。創新的觀測模型:作者提出了一種新的觀測模型,將LRMS(低分辨率多光譜圖像)視為HRMS(高分辨率多光譜圖像)的像素級掩碼版本,區別于傳統將LRMS視為HRMS的模糊和降采樣版本的觀點,本文的觀點與真實世界場景更為契合。傳統的觀測模型通常將LRMS視為HRMS的模糊和降采樣版本,而本文提出了一種新的觀測模型,即將LRMS視為HRMS的像素級掩碼版本。
德州大學NIH等聯合發布醫學視覺問答數據集Medical-CXR-VQA.圖1 新數據集與現有的數據集ImageCLF VQA-MED的問題對比。圖2 Medical-CXR-VQA 問題類型的統計數據表1 Medical-CXR-VQA 問題類型示例數據集構建的方法。作者基于MIMIC-CXR構建了Medical-CXR-VQA數據集。利用基于LLM的方法,作者創建了一個名為Medical-CXR-VQA的以臨床為驅動的大規模醫學VQA數據集,在給定相同的關鍵詞提取集時將數據集構建的準確性提高了62%。
FlashGS: 用于大規模和高分辨率渲染的高效3D高斯潑濺。論文 FlashGS: Efficient 3D Gaussian Splatting for Large-scale and High-resolution Rendering 探討了FlashGS,一種專為大規模和高分辨率渲染設計的高效3D高斯潑濺(3D Gaussian Splatting)算法和實現框架。論文對FlashGS的性能進行了廣泛的評估。通過以上優化,FlashGS不僅成功解決了3DGS在大規模和高分辨率場景中的性能瓶頸問題,還將其推向了實際應用的前沿。
在特征增強器fφ中,視覺示例標記和文本標記通過自注意力和交叉注意力與圖像特征融合,產生融合的視覺示例和文本特征zv,t以及新的圖像特征zI。視覺示例嵌入:將視覺示例作為文本標記處理,通過自注意力機制將視覺示例與文本標記融合,然后通過交叉注意力機制與圖像交互。視覺示例提供更多信息:在FSC-147數據集上,視覺示例提供的信息比文本更多,因此僅使用視覺示例的性能顯著優于僅使用文本的性能。
張銘教授團隊160萬數據訓練生物活性基礎模型,加速癌癥藥物研發。論文鏈接 https://www.nature.com/articles/s42256-024-00876-w分享鏈接:https://rdcu.be/dQUavActFound的訓練數據、代碼、模型已開源:https://github.com/BFeng14/ActFoundActFound的核心思想是采用成對學習方法,學習同一組實驗中兩個小分子之間的相對生物活性差異,從而避開不同實驗之間的生物活性的不兼容問題。
該方法通過在現有高斯之間插入新高斯來增強高斯表示,基于鄰近性得分進行戰略性放置,結合從現有高斯中獲取的觀測初始化,大大改善了場景表示,提高了高斯密度。該方法通過評估現有高斯之間的鄰近性并在最具代表性的區域放置新的高斯,從而密集化高斯并填充空白區域,增強了場景細節。基于鄰近性的高斯解池。具體來說,我們將起始高斯稱為“源”高斯,而將尾部的高斯稱為“目標”高斯,這是“源”高斯的K個鄰居之一。
RealDex:實現類似人類的機器人靈巧手抓握文章來源:https://arxiv.org/abs/2402.13853封面來源:https://arxiv.org/abs/2402.13853溫馨提示:掃描下方二維碼,加入知識星球,免費下載700 行業報告和100頁PPT原創報告《全球人形機器人產品數據庫》RealDex 提供了大量逼真的靈巧手抓握動作,與人類姿勢同步,并反映了典型的人類運動行為。人類行為模式:通過遠程操作系統,數據集中的抓握動作自然地反映了人類的行為模式。
視頻數據通常沒有文本描述,需要轉換為文本描述以供文本到視頻模型訓練。智譜 AI 提出了一種從圖像字幕生成視頻字幕的管道,并微調端到端的視頻字幕模型以獲得更密集的字幕。智譜 AI 已經驗證了 scaling law 在視頻生成方面的有效性,未來會在不斷 scale up 數據規模和模型規模的同時,探究更具突破式創新的新型模型架構、更高效地壓縮視頻信息、更充分地融合文本和視頻內容。
AMSA-UNet | 基于自注意力的多尺度 U-Net 提升圖像去模糊性能 !在本文中,提出了一種基于自注意力的非對稱多尺度U-net(AMSA-UNet),該方法結合了多輸入多輸出網絡架構與 Transformer 模塊,以解決由單尺度U-Net網絡引起的圖像空間特征丟失問題。不對稱的U-net結構體現在編碼器模塊和解碼器模塊之間的不對稱性。如前一小節所述,解碼器模塊包含DFFN模塊和FASA模塊,而編碼器模塊僅使用DFFN模塊。
文章提出了一種對場景運動建模的圖像空間先驗方法。結合基于圖像的渲染模塊,預測的運動表示可用于多種下游應用,例如將靜態圖像轉換為無縫循環的視頻,或者使用戶能夠與真實圖像中的物體互動,產生逼真的模擬動力學(通過將頻譜體積解釋為圖像空間模態基)。圖 1. 為場景運動建立了一個生成圖像空間先驗:從一張 RGB 圖像出發,方法生成一個頻譜體積 [23],這是一種在傅里葉域內表示密集、長期像素軌跡的運動表現形式。
清華&北大&上交攜手“重塑機器視覺邊界”,Maniwhere讓機器人無縫適應多變世界環境!04-Maniwhere算法應用場景04.01-四手指機械手合電腦 04.02-四手指機械手拿取&放置物品 04.03-四足機械手實例泛化 04.04-兩個機械手移交物品 04.05-雙手指機械手拿取&放置 04.06-雙手指機械手打開抽屜 05-Maniwhere算法實現細節05.01-現實世界硬件配置。07-Maniwhere算法效果展示 圖7.1-Maniwhere算法仿真效果展示。
先前的表格理解方法依賴于將表格轉換為文本序列作為模型輸入,但在某些情況下很難獲得高質量的文本表格表示,而表格圖像更易獲取。表格理解問題關注如何從表格數據中自動提取、轉換和解釋關鍵信息,涉及多個任務如表格問答、表格事實驗證和表格生成。在MMTab的基礎上,作者提出了一個通用的表格MLLM模型Table-LLaVA,實驗結果表明,Table-LLaVA在多個基準測試中顯著優于現有的MLLM模型,并且甚至與強大的GPT-4V相當。
GaussianSR:打破傳統離散特征表示能力的限制!受三維高斯噴射(3D Gaussian Splatting)技術最新進展的啟發,提出了GaussianSR[1]:一種基于二維高斯噴射(2D Gaussian Splatting)的新型任意比例超分辨率(ASSR)方法。低分辨率初始化:低分辨率特征初始化包括從輸入的低分辨率圖像中獲取特征,并將其表示為連續高斯特征場內的初始化點。具體來說,低分辨率特征的值用作高斯的初始幅度,而低分辨率特征的坐標確定高斯場的中心。
RegionDrag:快.準.好的圖像編輯方法!引入了一種基于區域的圖像編輯方法,以克服基于點拖拽方法的局限性,利用更豐富的輸入上下文來更好地對齊編輯結果與用戶的意圖。RegionDrag 允許用戶輸入操作區和目標區對,然后通過以下兩個主要步驟進行編輯:復制操作區覆蓋的潛在表示,并在反轉過程中存儲自注意力特征;本文引入了一個高效且有效的基于區域的編輯框架——RegionDrag,用于高保真圖像編輯。
主動視覺感知框架5. 具身交互具身交互指的是智能體在物理或模擬空間中與人類和環境互動的場景。關于鵬城實驗室多智能體與具身智能研究所隸屬鵬城實驗室的多智能體與具身智能研究所匯聚了數十名智能科學與機器人領域頂尖青年科學家,依托鵬城云腦、中國算力網等自主可控 AI 基礎設施,致力于打造多智能體協同與仿真訓練平臺、云端協同具身多模態大模型等通用基礎平臺,賦能工業互聯網、社會治理與服務等重大應用需求。
3DGS、NeRF、結構光、相位偏折術、機械臂抓取、點云實戰、Open3D、缺陷檢測、BEV感知、Occupancy、Transformer、模型部署、3D目標檢測、深度估計、多傳感器標定、規劃與控制、無人機仿真、三維視覺C 、三維視覺python、dToF、相機標定、ROS2、機器人控制規劃、LeGo-LAOM、多模態融合SLAM、LOAM-SLAM、室內室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三維重建、colmap、線面結構光、硬件結構光掃描儀,無人機等。
【Mamba 醫學】創新3D-CBCT牙齒分割:探索T-Mamba的頻率增強門控依賴性1 論文題目。· T-Mamba:牙齒3D CBCT分割的頻率增強門控遠程依賴性2 論文摘要。為了解決這個問題,我們提出了T-Mamba,將共享的位置編碼和基于頻率的特征集成到視覺mamba中,以解決空間位置保留和頻域特征增強的局限性。T-Mamba是第一個將基于頻率的特征引入視覺mamba的工作。· https://github.com/isbrycee/T-Mamba計算機視覺最新進展-Sora.
通過多樣的幾何形狀來訓練機器人從仿真到現實轉換的裝配技能。得益于 NVIDIA 在接觸豐富交互的超實時仿真技術方面的最新進展,現在已經可以對機器人裝配任務(如插入等)進行仿真,詳見通過使用 NVIDIA Isaac 的新型仿真方法推進機器人裝配技術發展。后續關于機器人裝配從仿真到現實的遷移研究提出了使用強化學習 (RL) 在仿真中解決少量裝配任務的算法,以及在現實世界中成功部署所學技能的方法。
數據概述:由 10 名女性和 10 名男性的 3D CT 掃描組成,其中 75% 的患者患有肝腫瘤數據量:20個CT volume數據類型:增強CT分割器官:13個腹部器官下載地址:https://www.ircad.fr/research/data-sets/liver-segmentation-3d-ircadb-01/數據量:500個CT volume,100個MRI volume數據類型:CT/MRI分割器官:15 個腹部器官下載地址:https://amos22.grand-challenge.org10 Decathlon數據集。