论文链接

Arxiv Link

Github Link

发表时间（Arxiv）：

[v1] Thu, 12 Dec 2024 18:55:30 UTC (10,240 KB)

论文重点与难点

1 研究背景与问题

背景：视线目标估计（Gaze Target Estimation）是预测场景中人物注视的目标位置，对于理解人类行为、社交互动和人机交互具有重要意义。以往方法通过复杂的多分支架构融合场景特征、头部特征和多模态信号（如深度、姿态）来实现这一目标，但这些方法依赖于小规模数据集，训练复杂且效率低下。
问题：能否利用大规模自监督预训练模型（如DINOv2）来简化视线目标估计的架构，并提升性能？

2 Gaze-LLE框架

核心思想：提出了一种基于大规模预训练编码器（DINOv2）的新型架构Gaze-LLE，通过冻结预训练编码器并引入轻量级解码器来实现视线目标估计。该方法仅使用单一流程，避免了传统多分支架构的复杂性。
架构组成：
冻结的场景编码器：使用DINOv2提取场景特征，不进行微调。
头部位置提示（Head Position Prompting）：通过在场景特征中注入与头部位置相关的提示，使模型能够针对特定人物进行视线解码。
轻量级解码器：包含几个Transformer层和预测头，用于将场景特征解码为视线热图，并判断视线是否在画面内。
难点：如何有效地将大规模预训练模型的特征应用于视线目标估计任务，同时避免复杂的数据融合和多任务训练。

3 关键技术挑战与解决方案

挑战1：直接将DINOv2替换为传统方法中的场景编码器会导致性能下降。
解决方案：设计了专门的解码器架构，通过头部位置提示和全局特征更新来适应视线估计任务。
挑战2：如何在不微调预训练编码器的情况下，有效利用头部位置信息。
解决方案：在场景特征提取后注入头部位置嵌入（embedding），而不是作为输入通道添加到编码器中。
挑战3：传统卷积解码器在处理大规模特征时效果不佳。
解决方案：采用Transformer解码器，利用其全局注意力机制更好地捕捉场景中的长距离视线目标。

4 实验与结果

数据集：在GazeFollow、VideoAttentionTarget、ChildPlay和GOO-Real等数据集上进行了实验。
性能指标：使用AUC（热图分类性能）和L2距离（预测目标与真实目标的欧几里得距离）进行评估。
关键结果：
Gaze-LLE在所有主要基准测试中均达到了SOTA（State-of-the-Art）性能，同时仅使用约5%的可训练参数。
在GazeFollow数据集上，使用ViT-L作为骨干网络的Gaze-LLE达到了$0.958$的AUC和$0.041$的最小L2距离。
在跨数据集测试中，Gaze-LLE展现出强大的泛化能力，无需针对特定数据集进行微调。
难点：如何在不同数据集之间保持性能的稳定性，尤其是在领域差异较大的数据集（如GOO-Real）上。

5 贡献与创新点

提出了首个基于冻结预训练编码器的视线目标估计方法，证明了大规模预训练模型在该任务中的有效性。
设计了一种轻量级解码器架构，显著简化了模型结构，减少了可训练参数数量。
在多个基准测试中达到了SOTA性能，同时训练效率更高（在单个RTX 4090 GPU上训练时间少于1.5小时）。
提供了广泛的实验分析，验证了设计选择的合理性，并展示了模型的泛化能力。

6 局限性与未来工作

局限性：模型性能依赖于预训练编码器的质量，且在处理头部背对相机或严重遮挡的场景时性能下降。
未来工作：探索更强大的预训练模型，以及利用时间信息来解决视频数据中的模糊和遮挡问题。

论文详细讲解

1 研究背景与动机

视线目标估计（Gaze Target Estimation）旨在预测场景中人物注视的目标位置，对于理解人类行为和社交互动具有重要意义。传统方法依赖于复杂的多分支架构，分别提取头部特征、场景特征和多模态信号（如深度、姿态），然后通过复杂的融合机制进行预测。然而，这些方法存在以下问题：

训练复杂且效率低下，依赖于小规模数据集。
需要多个辅助模型，增加了计算开销。
多分支架构难以优化，收敛速度慢。

本文提出了一种基于大规模预训练编码器（如DINOv2）的新型架构 Gaze-LLE，通过冻结预训练编码器并引入轻量级解码器，简化了模型架构，同时提升了性能。

2 Gaze-LLE框架

Gaze-LLE 的核心思想是利用预训练的视觉特征提取器（如 DINOv2）作为冻结的场景编码器，并通过轻量级解码器进行视线目标估计。整体架构包括以下部分：

冻结的场景编码器：
使用预训练的 DINOv2 模型作为场景编码器，提取输入图像的特征表示。
特征图尺寸为 $d_F \times H \times W$，通过线性层投影到目标维度 $d_{\text{model}}$，得到特征图 $x_F \in \mathbb{R}^{d_{\text{model}} \times H \times W}$。
头部位置提示（Head Position Prompting）：
将头部位置信息以提示的形式注入到场景特征中，而不是作为输入通道添加到编码器中。
构建一个二值化掩码 $M$，表示头部在特征图中的位置，并将一个可学习的位置嵌入 $p_{\text{head}}$ 添加到包含头部的场景特征中：

\[S = x_F + (M \ast p_{\text{head}})\]

这种设计避免了对预训练编码器的微调，同时保留了头部位置信息。
轻量级解码器：
包含几个 Transformer 层，利用自注意力机制更新场景特征。
输入为场景特征 $S$ 和可选的辅助任务标记（如判断视线是否在画面内）。
输出为视线热图和辅助任务的分类结果。
预测头（Prediction Heads）：
将更新后的场景特征解码为视线热图，使用卷积层上采样到目标尺寸 $H_{\text{out}} \times W_{\text{out}}$。
对于辅助任务（如判断视线是否在画面内），使用 MLP 进行分类。

3 关键技术与设计选择

预训练编码器的选择：
实验表明，直接将 DINOv2 替换为传统方法中的场景编码器会导致性能下降。Gaze-LLE 的关键在于设计轻量级解码器，使其能够适应预训练特征。
使用 DINOv2 的冻结特征，避免了复杂的多任务训练和特征融合。
头部位置提示的设计：
将头部位置信息注入到场景特征中，而不是作为输入通道添加到编码器中。这种设计在冻结预训练编码器的情况下表现更好。
实验表明，头部位置提示对于多人物场景至关重要，但在单人物场景中，模型仍能通过场景特征预测视线目标。
解码器的设计：
传统方法使用卷积层解码特征，但 Gaze-LLE 使用 Transformer 层，利用全局注意力机制捕捉场景中的长距离视线目标。
Transformer 解码器在性能上优于卷积解码器，尤其是在处理复杂场景时。

4 实验与结果

数据集：
GazeFollow：包含约 10 个注释的图像，用于视线目标估计。
VideoAttentionTarget：视频数据集，包含人物注视目标的注释。
ChildPlay：专注于儿童视线行为的数据集。
GOO-Real：零售环境中的视线目标数据集。
性能指标：
使用 AUC（热图分类性能）和 L2 距离（预测目标与真实目标的欧几里得距离）进行评估。
关键结果：
在 GazeFollow 数据集上，Gaze-LLE 使用 ViT-L 骨干网络达到了 0.958 的 AUC 和 0.041 的最小 L2 距离，超越了所有现有方法。
在 VideoAttentionTarget 数据集上，Gaze-LLE 达到了 0.937 的 AUC 和 0.103 的 L2 距离，表现出色。
在跨数据集测试中，Gaze-LLE 展现出强大的泛化能力，无需针对特定数据集进行微调。
训练效率：
Gaze-LLE 的训练时间显著缩短，仅需 1.5 小时（单个 RTX 4090 GPU），而传统方法需要数小时甚至数天。

5 贡献与创新点

提出了首个基于冻结预训练编码器的视线目标估计方法，证明了大规模预训练模型在该任务中的有效性。
设计了一种轻量级解码器架构，显著简化了模型结构，减少了可训练参数数量（仅约 5% 的传统方法参数）。
在多个基准测试中达到了 SOTA（State-of-the-Art） 性能，同时训练效率更高。
提供了广泛的实验分析，验证了设计选择的合理性，并展示了模型的泛化能力。

6 局限性与未来工作

局限性：
模型性能依赖于预训练编码器的质量，且在处理头部背对相机或严重遮挡的场景时性能下降。
对于视频数据，当前模型无法利用时间信息来解决模糊和遮挡问题。
未来工作：
探索更强大的预训练模型，进一步提升性能。
利用时间信息（如视频帧）来解决视频数据中的模糊和遮挡问题。
将 Gaze-LLE 应用于更多实际场景，如人机交互和自动驾驶。

7 总结

Gaze-LLE 通过利用大规模预训练编码器和轻量级解码器，简化了视线目标估计的架构，提升了性能，并显著提高了训练效率。这一方法为视线估计领域带来了新的思路，证明了预训练模型在密集预测任务中的潜力。

论文方法部分详细讲解

1 问题定义

给定一张RGB图像 $x_{\text{img}} \in \mathbb{R}^{3 \times H_{\text{in}} \times W_{\text{in}}}$ 和特定人物头部的边界框 $x_{\text{bbox}} \in \mathbb{R}^4$，目标是预测一个热图 $H \in [0, 1]^{H_{\text{out}} \times W_{\text{out}}}$，其中每个像素值表示该像素是视线目标的概率。部分数据集还要求预测一个值 $y \in [0, 1]$，表示人物的视线目标是否在画面内。

2 模型架构

Gaze-LLE 的整体架构由两部分组成：冻结的大规模通用场景编码器和轻量级的视线解码器模块。具体如下：

2.1 场景编码器（Scene Encoder）

使用预训练的视觉特征提取器 $F$（如 DINOv2）作为场景编码器，输入图像 $x_{\text{img}}$，输出低分辨率的特征图 $x_F \in \mathbb{R}^{d_F \times H \times W}$。
通过线性层将特征图投影到目标维度 $d_{\text{model}}$，得到特征图 $x_F \in \mathbb{R}^{d_{\text{model}} \times H \times W}$。

2.2 头部位置嵌入（Head Position Embedding）

构建一个二值化掩码 $M$，表示头部在特征图中的位置，并将一个可学习的位置嵌入 $p_{\text{head}} \in \mathbb{R}^{d_{\text{model}}}$ 添加到包含头部的场景特征中：

\[S = x_F + (M \ast p_{\text{head}})\]

这种设计允许模型在不微调预训练编码器的情况下，利用头部位置信息进行视线预测。

2.3 Transformer 层

使用一个小型可训练的 Transformer 模块 $T$，利用自注意力机制更新场景特征。
将特征图 $S$ 展平为场景标记列表 $[s_1, s_2, \dots, s_{H \times W}]$，并添加绝对二维正弦位置嵌入 $P$：

\[T(S + P)\]

默认情况下，Transformer 模块包含 3 层标准 Transformer 编码器。

2.4 预测头（Prediction Heads）

将更新后的特征图 $S’$ 重构为 $d_{\text{model}} \times H \times W$，并通过热图解码器 $D_{\text{hm}}$ 上采样到目标尺寸 $H_{\text{out}} \times W_{\text{out}}$，输出每个像素是视线目标的概率。
对于辅助任务（如判断视线是否在画面内），使用一个 2 层 MLP $D_{\text{in/out}}$ 输出分类结果。

3 训练目标

使用像素级二值交叉熵损失函数 $L_{\text{hm}}$ 训练热图预测。
对于辅助任务，使用二值交叉熵损失函数 $L_{\text{in/out}}$，总损失为：

\[L = L_{\text{hm}} + \lambda L_{\text{in/out}}\]

预训练的编码器 $F$ 在训练过程中保持冻结，模型的可训练参数主要集中在解码器部分。

4 关键技术决策

4.1 头部位置的注入时机

传统方法将头部位置作为额外通道输入到场景编码器中，但这种方法在冻结预训练编码器时效果不佳。
Gaze-LLE 在特征提取后注入头部位置嵌入，显著提升了性能。

4.2 特征解码方式

传统方法使用卷积层解码特征，但这种方法在处理大规模预训练特征时效果有限。
Gaze-LLE 使用 Transformer 层解码特征，利用全局注意力机制捕捉长距离视线目标，性能优于卷积解码器。

4.3 是否需要头部分支

传统方法使用单独的头部编码器提取头部特征，但 Gaze-LLE 证明，大规模预训练编码器已经能够捕捉足够的头部信息。
通过 Transformer 解码器，Gaze-LLE 在不使用头部分支的情况下达到了与使用头部分支相当的性能，进一步简化了架构。

5 总结

Gaze-LLE 通过冻结预训练的 DINOv2 编码器和轻量级的 Transformer 解码器，实现了高效的视线目标估计。该方法在多个基准测试中达到了 SOTA 性能，同时显著减少了可训练参数和训练时间。

k053 Gaze-LLE, Gaze Target Estimation via Large-Scale Learned Encoders

论文链接

论文重点与难点

1 研究背景与问题

2 Gaze-LLE框架

3 关键技术挑战与解决方案

4 实验与结果

5 贡献与创新点

6 局限性与未来工作

论文详细讲解

1 研究背景与动机

2 Gaze-LLE框架

3 关键技术与设计选择

4 实验与结果

5 贡献与创新点

6 局限性与未来工作

7 总结

论文方法部分详细讲解

1 问题定义

2 模型架构

2.1 场景编码器（Scene Encoder）

2.2 头部位置嵌入（Head Position Embedding）

2.3 Transformer 层

2.4 预测头（Prediction Heads）

3 训练目标

4 关键技术决策

4.1 头部位置的注入时机

4.2 特征解码方式

4.3 是否需要头部分支

5 总结

评论