k053 Gaze-LLE, Gaze Target Estimation via Large-Scale Learned Encoders

Zhangwenniu 于 2025-03-13 发布

论文链接

Arxiv Link

Github Link

发表时间(Arxiv):

[v1] Thu, 12 Dec 2024 18:55:30 UTC (10,240 KB)

论文重点与难点

1 研究背景与问题

2 Gaze-LLE框架

3 关键技术挑战与解决方案

4 实验与结果

5 贡献与创新点

6 局限性与未来工作

论文详细讲解

1 研究背景与动机

视线目标估计(Gaze Target Estimation)旨在预测场景中人物注视的目标位置,对于理解人类行为和社交互动具有重要意义。传统方法依赖于复杂的多分支架构,分别提取头部特征、场景特征和多模态信号(如深度、姿态),然后通过复杂的融合机制进行预测。然而,这些方法存在以下问题:

本文提出了一种基于大规模预训练编码器(如DINOv2)的新型架构 Gaze-LLE,通过冻结预训练编码器并引入轻量级解码器,简化了模型架构,同时提升了性能。

2 Gaze-LLE框架

Gaze-LLE 的核心思想是利用预训练的视觉特征提取器(如 DINOv2)作为冻结的场景编码器,并通过轻量级解码器进行视线目标估计。整体架构包括以下部分:

\[S = x_F + (M \ast p_{\text{head}})\]

3 关键技术与设计选择

4 实验与结果

5 贡献与创新点

6 局限性与未来工作

7 总结

Gaze-LLE 通过利用大规模预训练编码器和轻量级解码器,简化了视线目标估计的架构,提升了性能,并显著提高了训练效率。这一方法为视线估计领域带来了新的思路,证明了预训练模型在密集预测任务中的潜力。

论文方法部分详细讲解

1 问题定义

给定一张RGB图像 $x_{\text{img}} \in \mathbb{R}^{3 \times H_{\text{in}} \times W_{\text{in}}}$ 和特定人物头部的边界框 $x_{\text{bbox}} \in \mathbb{R}^4$,目标是预测一个热图 $H \in [0, 1]^{H_{\text{out}} \times W_{\text{out}}}$,其中每个像素值表示该像素是视线目标的概率。部分数据集还要求预测一个值 $y \in [0, 1]$,表示人物的视线目标是否在画面内。

2 模型架构

Gaze-LLE 的整体架构由两部分组成:冻结的大规模通用场景编码器和轻量级的视线解码器模块。具体如下:

2.1 场景编码器(Scene Encoder)

2.2 头部位置嵌入(Head Position Embedding)

\[S = x_F + (M \ast p_{\text{head}})\]

2.3 Transformer 层

\[T(S + P)\]

2.4 预测头(Prediction Heads)

3 训练目标

\[L = L_{\text{hm}} + \lambda L_{\text{in/out}}\]

4 关键技术决策

4.1 头部位置的注入时机

4.2 特征解码方式

4.3 是否需要头部分支

5 总结

Gaze-LLE 通过冻结预训练的 DINOv2 编码器和轻量级的 Transformer 解码器,实现了高效的视线目标估计。该方法在多个基准测试中达到了 SOTA 性能,同时显著减少了可训练参数和训练时间。

评论