本文目錄一覽:
CMT論文解讀:CMT是曠視團隊在國際計算機視覺會議2023上發(fā)布的新論文,是Transformer架構(gòu)在多模態(tài)數(shù)據(jù)融合領(lǐng)域的一次重要突破。以下是CMT論文的核心要點解讀:背景與進化脈絡(luò):CMT是PETR的后續(xù)發(fā)展,通過結(jié)合激光雷達數(shù)據(jù),實現(xiàn)了對視覺和深度信息的高效整合。
研究動機 Momentor論文主要針對當(dāng)前視頻大型語言模型(video-LLM)存在的兩大問題進行探討:缺乏有效的時間表示:現(xiàn)有的video-LLM大多在視頻級別的字幕和問答任務(wù)上進行訓(xùn)練,雖然具備指令遵循能力,但在時間表示上較為粗粒度,缺乏精細的時間推理能力。
模態(tài):圖像+文本+音頻 論文動機:將文本信息指導(dǎo)圖像與音頻模態(tài),通過文本與圖像、音頻的注意力聚合,刪除冗余信息。已通過映射將模態(tài)信息整合到低維向量,減少與情感無關(guān)信息的影響,降低參數(shù)量。
它通過監(jiān)督微調(diào)階段進一步增強,其中模型提高了其跟隨復(fù)雜的多模態(tài)指令的能力。實驗證明了mm - interleaved在多模態(tài)指令下識別視覺細節(jié)和在文本和視覺條件下生成一致圖像方面的通用性。