VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM 论文笔记

Background

视频由动态序列构成，其不仅呈现视觉内容，还传递了不同事件与对象之间的时序和关联关系;
现有的视频大语言模型（Video LLMs）主要侧重于整体场景理解,这些方法往往难以捕捉视频内容中细微的要素。

Task Formulation

视频指代任务旨在理解用户在视频中指定时刻或时间段内提及的特定区域。基础视频指代任务侧重于描述性标注，而更复杂的任务则涉及推理物体间关系，并推断其未来状态或交互行为。

对于给定的视频 $V \in \mathbb{R}^{N \times W \times H \times C}$ ，其中 $N, W, H, C$ 分别代表帧数、宽度、高度和通道数。将所有“对象”（<object>）定义为 $\boldsymbol{R}$ ，其中 $\boldsymbol{R} = \{R_1, R_2, \dots, R_n\}$ 。这里， $n$ 表示用户指定的对象总数。 $R_j$ 表示为 $R_j = \{r_{ij} \mid i \in \boldsymbol{T}\}$ ，其中 $r_{ij}$ 代表单个帧内的一个区域，而 $\boldsymbol{T}$ 是包含一个或多个时间戳的集合。

对于视频大语言模型（Video LLM），模型优化过程旨在最大化在给定 $V, \boldsymbol{R}$ 以及基于文本的提示 $x$ 的条件下，在整个训练数据集中生成文本的对数似然，以产生所需的输出： $$\mathcal{L} = \sum_{(V, \boldsymbol{R}, x, y)} \log P(y \mid V, R_1, \dots, R_n, x)$$

其中 $y$ 表示地面真实标签（Ground Truth Label）。

Contribution

首先，本文引入多智能体数据引擎，精心构建了大规模高质量的对象级视频指令数据集VideoRefer-700K；
其次，本文提出VideoRefer模型，该模型配备多功能时空对象编码器，以捕捉精确的区域与序列表征
最后，本文细致创建了VideoRefer-Bench，从多维度全面评估视频大语言模型的时空理解能力。

Architecture

本文在一个成熟的视频大语言模型 VideoLLaMA2.1 的基础上构建模型。本文的主要创新在于引入了一个通用且统一的空间-时间对象编码器，以获取跨视频场景的对象级表征。

A Versatile Spatial-Temporal Object Encoder

为支持各类时空视频理解任务，本文提出的对象编码器不仅能在特定时间戳的单帧图像中捕捉掩码级空间特征，还能在持续时间段内聚合多帧间的时序信息。为此，本文为对象编码器设计了两种模式：单帧模式与多帧模式。

Single-Frame

对于单帧模式，输入由一个随机选择的帧以及用户在该帧中指定的相应区域组成。这里， $\boldsymbol{T}$ 仅包含一个随机选择的时间戳。为了生成对象级标记表示，本文提出了空间标记提取器 (Spatial Token Extractor) 。

详细而言，首先通过共享视觉编码器提取图像特征，生成全局图像特征 $F_I \in \mathbb{R}^{1 \times H_I \times W_I \times D_I}$ ，其中 $H_I, W_I, D_I$ 分别代表图像特征的高度、宽度和维度。每个对象的二值掩码 $M$ 随后被调整大小以匹配图像特征的形状。本文利用掩码池化 (Mask Pooling) 操作处理图像特征，为每个掩码提取对象级空间特征 $F_O \in \mathbb{R}^{1 \times D_I}$ ，该操作会池化区域 $M$ 内的所有特征以生成对象级表示。最后，采用一个 MLP 层进行适配，并为每个对象区域产生对象级标记 $O \in \mathbb{R}^{1 \times C}$ 。

Multi-Frame

在多帧模式下，输入由视频中选定的一系列帧以及它们各自对应的对象区域组成，即 $T$ 包含视频中的一组时间戳。使用共享视觉编码器提取帧级特征，生成图像特征 $\mathbf{F}_I \in \mathbb{R}^{k \times H_I \times W_I \times D_I}$ ，其中 $k$ 代表选定帧的数量。随后，本文利用空间标记提取器 (Spatial Token Extractor) 为每一帧生成对象级标记，得到对象标记 $\mathbf{O} \in \mathbb{R}^{k \times C}$ 。

为了在一段时间内跨多帧聚合不同的时空对象级表示，同时减少冗余标记，本文提出了时空标记融合模块 (Temporal Token Merge Module)，该模块旨在有效捕捉时空维度上的关键对象级标记。具体而言，从空间对象标记 $\mathbf{O} \in \mathbb{R}^{k \times C}$ 开始，首先计算每对相邻标记之间的余弦相似度，公式如下： $$S_{m,m+1} = \frac{\mathbf{O}_m \cdot \mathbf{O}_{m+1}}{\|\mathbf{O}_m\| \cdot \|\mathbf{O}_{m+1}\|}, 0 \leq m < k. [cite_start]$$

随后，从 $\mathbf{S}$ 中选出前 $k-u$ 个相似度得分，其中 $u$ 是一个预定义常量。相应的标记对随后被合并为一个联合体，最终产生 $u$ 个联合体。对于每个联合体，应用简单的平均池化（Average Pooling）来生成一个独特且具有代表性的标记。最终，在每个对象经过 MLP 层处理后，生成 $u$ 个标记（表示为 $\mathbf{O} \in \mathbb{R}^{u \times C}$ ），这确保了在不破坏空间结构的情况下，兼顾空间完整性和时空一致性。

Dataset

Multi-agent Data Engine

本文的数据构建流程包含五个组件：(i) 用于名词提取的分析器；(ii) 用于对象级描述生成的标注器；(iii) 用于掩码生成的分割器；(iv) 用于对应关系验证的审核器；(v) 用于总结与精炼的优化器。该多智能体数据引擎能有效消除噪声或无关语境，确保数据保持准确性与相关性。

Analyzer for Noun Extraction：鉴于现有视频数据集大多包含简短的场景级描述，本文首先分析原始描述以精确捕捉句子中的名词，即视频场景中出现的物体。为此采用一个分析器（Qwen2-Instruct-7B）来提取名词，包括主语及其他相关名词。

Annotator for Object-level Caption Generation：为获取所提取名词的详细描述，本文采用通用视频理解模型（InternVL2-26B）作为标注工具，提示该模型专门针对物体本身提供全面描述，而非视频的整体叙事。为提高准确性与细节丰富度，本文对模型进行两次查询：分别强调动态行为与运动，以及突出静态外观与状态。

Segmentor for Mask Generation：为获取每个提取名词的像素级掩码作为对象级区域表征，本文首先从视频中随机选择一帧，将提取的名词作为输入文本提示，通过开放集定位使用GroundingDINO提取边界框。随后，采用HQSAM基于对应的框提示生成高质量掩码。为适应多帧输入，进一步使用SAM 2为每一视频帧生成掩码。

Reviewer for Correspondence Verification：为解决数据构建流程中可能存在的误差与不匹配问题，本文引入审查机制，通过"评审模块"验证掩码与文本描述的对应关系。具体流程如下：首先运用Osprey为特定帧生成区域级描述，随后评审模块（Qwen2-Instruct-7B）将判断Osprey生成的描述与标注器提供的描述是否指向同一对象。经过此筛选流程，我们仅保留40%的样本以确保数据准确性。

Refiner for Summarization&Refinement：最后，本文采用可靠的优化器GPT-4o对标注器生成的时空与外观描述进行总结和提炼。这一过程旨在进一步消除重复描述与幻觉内容，从而确保最终生成的对象级指令遵循数据集具备连贯性与准确性。

Data Characteristics

通过运用multi-agent data engine，本文精心构建了三种主要类型的物体级视频指令数据：详细描述、简短描述以及多轮问答对。

Object-level Detailed Caption：本文使用了大规模数据集Panda-70M的一个子集，该数据集为每个视频提供了简短描述。通过完整的多智能体数据引擎，生成了12.5万条高质量的对象级详细描述。

Object-level Short Caption：为生成简短描述（主要用于预训练中对象级编码器与大语言模型的对齐），本文采用了pipeline中的分析器和分割器。具体而言，在分析器中，仅提取单数名词，从而能够复用原始描述来生成简短说明。通过这种方法，生成了50万条简短描述。

Object-level QA：为生成明确指定特定对象或其关系的指令数据，本文收集了MeViS、Ref-YouTube-VOS 和A2DSentence数据集。这两类数据集均提供可靠的简短描述，并为每个对象区域提供掩码标注。利用这些简短描述和带掩码的视频，本文首先使用Annotator为每个区域生成对象级描述，随后通过多种提示词，调用Refiner生成与视频中对象相关的问答对。本文创建了三种基于区域的问答数据类型：（一）基础问题：涵盖对象类型、属性、动作、位置及随时间变化的交互关系。（二）推理问题：需要借助推理和背景知识来解释事件，而不依赖具体视觉细节。（三）未来预测：涉及对给定对象相关未来动作或事件的预测。共计生成7.5万组问答对。

Benchmark

为全面评估模型在视频区域理解方面的能力，本文开发了一个名为VideoRefer-Bench的基准测试集。该基准从两个关键维度对模型进行评估：描述生成（对应 $\text{VideoRefer-Bench}^{\text{D}}$ ）与多项选择问答（对应 $\text{VideoRefer-Bench}^{\text{Q}}$ ）。

$\text{VideoRefer-Bench}^{\text{D}}$

$\text{VideoRefer-Bench}^{\text{D}}$ 是专门设计用于评估基于视频的指代模型在描述生成方面的性能。该基准共包含400条经人工筛选的数据条目。本文基于Panda-70M数据集，采用Multi-agent Data Engine中所述的流程构建测试集，并进行了细致的人工核查。此外，本文文开发了一套基于GPT-4o模型的评估流程，通过从0到5的分值范围，在以下四个维度对模型生成的预测结果进行严格评估：

主体对应性（SC）：该维度评估生成描述的主体是否与真值中指定的主体准确对应。
外观描述（AD）：该标准评估外观相关细节的准确性，包括颜色、形状、纹理及其他相关视觉属性。
时序描述（TD）：该方面分析对物体运动的表征是否与实际运动保持一致。
幻觉检测（HD）：该维度通过判断生成描述是否包含任何现实中不存在的事实、动作或元素（如想象性解读或错误推断）来识别差异。

$\text{VideoRefer-Bench}^{\text{Q}}$

$\text{VideoRefer-Bench}^{\text{Q}}$ 旨在评估多模态大语言模型在解析视频对象方面的能力。本文精心构建了一个包含198个视频的数据集，视频来源涵盖DAVIS-2017和MeViS测试集等多个数据集。为确保评估的严谨性，本文标注了1000道高质量选择题，这些问题设计用于检验不同维度的理解能力，包括基础问题、序列问题、关系问题、推理问题及未来预测。关键的是，每个问答对都必须明确关联到视频的特定区域，这确保多模态大语言模型无法在不实际分析视频或指定对象的情况下作出回答。

Background#

Task Formulation#

Contribution#

Architecture#

A Versatile Spatial-Temporal Object Encoder#

Single-Frame#

Multi-Frame#

Dataset#

Multi-agent Data Engine#

Data Characteristics#

Benchmark#

$\text{VideoRefer-Bench}^{\text{D}}$#

$\text{VideoRefer-Bench}^{\text{Q}}$#