012 Vision Transformer for Dense Prediction

Zhangwenniu 于 2022-10-02 发布

Vision Transformer for Dense Prediction Proceedings of the IEEE/CVF International Conference on Computer Vision; 2021; Citation 284 (Till 2022年10月4日)

解决问题

对图像稠密预测。论文中有两个分支,深度图预测和语义分割。

解决方法

用Vision Transformer解决稠密预测的问题,此前多使用卷积神经网络做此类问题。

输入输出

输入是图像。深度图预测问题时候,输出是每个像素的深度,以及可视化的深度图;语义分割问题的时候,输出是每个像素的语义。

优点

缺点