VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM 论文笔记
视频由动态序列构成,其不仅呈现视觉内容,还传递了不同事件与对象之间的时序和关联关系;现有的视频大语言模型(Video LLMs)主要侧重于整体场景理解,这些方法往往难以捕捉视频内容中细微的要素 Task Formulation 视频指代任务旨在理解用户在…
视频由动态序列构成,其不仅呈现视觉内容,还传递了不同事件与对象之间的时序和关联关系;现有的视频大语言模型(Video LLMs)主要侧重于整体场景理解,这些方法往往难以捕捉视频内容中细微的要素 Task Formulation 视频指代任务旨在理解用户在…
图像描述长期以来一直是计算机视觉和自然语言处理领域中的一个挑战。大多数现有视觉语言模型(如GPT-4o)缺乏精确定位机制,近期赋予视觉语言模型(VLM)处理二维定位信息(如边界框)的研究方法通常仅生成简短短语,而非详细描述…
如何构建一种通用方法以有效解决跨图像与视频的特定区域任务,仍是一个待突破的挑战。一个关键挑战在于实现视频序列的可扩展性。由于视频可能包含大量帧,依赖边界框坐标作为文本输入的方法面临扩展限制,因为输入的区域标记会随帧数线性增长。基于RoI的方法同样存在此问题,因为它们需要从空间区域重复提取视觉特征(如下图a所示)。而依赖单帧(例如初始帧)作为替代方案亦非最优选择,因为其在后续帧中缺乏对目标的可靠参照…
近期研究致力于通过视觉提示赋予视觉-语言模型区域级理解能力。现有方法可分为三种范式: 这些方法通常存在若干限制:(i) 它们通常仅产生有限的语义输出——往往只是类别标签或简短描述;(ii) 其设计是模态特定的,仅专注于单一的视觉模态(图像或视频),通用性有限;(iii) 它们依赖外部分割模型来提供掩码,这种串行设计增加了计算开销,并使整体性能对掩码质量敏感…
本质上,referring和grounding需要同类型的知识:空间信息与语义的对齐。尽管如此,现有研究大多将指代表达与视觉grounding作为独立任务进行学习 本文旨在探讨以下三个核心问题:1. 如何在统一框架中整合referring与gro..
RNN RNN1(Recurrent Neural Network)是一种循环神经网络,用于处理序列数据。与传统的前馈神经网络不同,RNN具有循环连接,使得它可以在处理序列时保持一种记忆状态。 在 RNN 中,每个时间步都有一个隐藏状态(hidden state),它可以接收当前时间步的输入和上一个时间步的隐藏状态作为输入。隐藏状态的输出不仅取决于当前时间步的输入,还取决于之前所有时间步的输入。这种循环连接使得RNN可以处理变长序列,并且能够捕捉到序列中的时序信息。 RNN 的计算过程非常简单: $$ h_{t}=f(w_{hh}h_{t-1} + w_{xh}x_t) $$ RNN 在自然语言处理(NLP)等领域有广泛的应用,例如语言建模、机器翻译、情感分析等任务。由于 RNN 能够处理变长序列,并且可以保持记忆状态,它在处理自然语言时可以考虑上下文的信息,捕捉到词语之间的依赖关系和语义信息。 此外,RNN 也可以应用于时间序列预测,例如股票价格预测、天气预测等。RNN 可以根据过去的时间序列数据预测未来的趋势,对于具有时序依赖的数据具有一定的优势。 然而,传统的RNN在处理长序列时存在梯度消失和梯度爆炸的问题,这限制了其对长期依赖关系的建模能力。为了解决这个问题,出现了一些改进的 RNN 变体,如长短期记忆网络(LSTM)和门控循环单元(GRU),它们引入了门控机制来控制记忆状态的更新,改善了对长期依赖的建模能力。 LSTM LSTM2(Long Short-Term Memory)是一种改进的循环神经网络(RNN)架构,旨在解决传统 RNN 中的梯度消失和梯度爆炸问题,以及增强对长期依赖关系的建模能力。 LSTM 引入了一个记忆单元(memory cell),该单元可以存储和访问信息,并通过门控机制来控制信息的流动。LSTM 的关键部分包括输入门(input gate)、遗忘门(forget gate)、输出门(output gate)。 遗忘门(forget gate) LSTM 的第一步就是决定我们要从单元状态中丢弃什么信息。这个决定由一个 sigmoid 层做出,称为“遗忘门层(forget gate layer)”。它查看 $h_{t-1}$ 和 $x_t$,并且为单元状态 $C_{t-1}$ 中的每个数字输出一个 0 和 1 之间的数字。1 代表“完全保持这个数字”,而 0 表示“完全遗忘”。 回到我们语言模型的例子,试图根据所有以前的单词来预测下一个单词。在这样的问题中,单元状态可能包括当前主题(subject)的性质,从而可以使用正确的代词。当我们看到一个新主题时,我们想要忘记老主题的性质。 输入门(input gate) 下一步是决定我们要在单元状态下存储的新信息。这包含两部分。首先,一个称为“输入门层(input gate layer)”的 sigmoid 层决定我们将更新哪些值。然后,一个 tanh 层创建一个可以被添加到状态中的新候选值向量 $\tilde{C_{t}}$ 。在下一步中,结合这两个门来创建对状态的更新。 现在是将旧的单元状态 $C_{t-1}$ 更新为新的单元状态 $C_t$ 的时候了。以前的步骤已经决定了要做什么,我们只需要实际去做就行了。 ...
Alec Radford等人提出Contrastive Language-Image Pre-training (CLIP), 突破了文本-图像之间的限制。CLIP使用大规模的文本-图像配对预训练,并且可以直接迁移到Imagenet上,完全不需要图像标签微调即可实现zero-shot分类。CLIP模型或许会引导CV的发展走向…