多看paper，勤敲代码。

再分享几篇CVPR2024有代码的工作。

第一篇是facebook和苏黎世大学的，3D人体动作重建的，对于做虚拟AI教练有很大帮助

第二篇是南洋理工和阿里的工作。基于指令的视频生成的。用人类反馈指导文本到视频的扩散模型。

第三篇是浙大的，做行人ReID的。行人ReID跟AGI有些距离，但这个方向我之前关注了很久，因此也分享给大家。

第四篇是普渡大学的。做大模型应用到自动驾驶的。引入了LaMPilot基准测试，专门设计用于量化评估大型语言模型（LLMs）将人类指令转换为可执行驾驶策略的有效性。

第五篇是加州大学洛杉矶分校的。讲的是对视频字幕进行优化扩充的。一个生成性视频-语言模型使用VideoCon进行微调，以评估视频-语言蕴含并生成解释。我们基于VideoCon的对齐模型显著优于当前模型。

第六篇是中山大学的。做虚拟人Avatar的。提升渲染效果的。

第七篇是中科院的。提出了一个新的扩散模型结构：残差去噪扩散模型（RDDM），这是一种新颖的双重扩散过程。

第八篇是腾讯和加州大学合作的。提出了一种统一扩散模型表示法，用于图像生成和分割。

第九篇北京理工大学工作。这个工作是在空洞卷积基础上优化的，空洞卷积我一直很感兴趣，也放在这里了。提出了频率自适应扩张卷积（FADC），它根据局部频率分量动态地空间调整扩张率。

1、

RoHM: Robust Human Motion Reconstruction via Diffusion

Siwei Zhang (None) Bharat Lal Bhatnagar (Eberhard-Karls-Universit t Tbingen) Yuanlu Xu (Meta Reality Labs Research) Alexander Winkler (Meta) Petr Kadlecek (Meta) Siyu Tang (ETH Zurich) Federica Bogo (Meta)

我们提出了一种名为RoHM的方法，用于在存在噪声和遮挡的情况下，从单目RGB(-D)视频中鲁棒地重建3D人体运动。大多数先前的方法要么训练神经网络直接回归3D运动，要么学习数据驱动的运动先验，并在测试时与优化结合。前者无法恢复全局一致的运动，在遮挡下会失败；后者耗时、容易陷入局部最小值，并且需要手动调整。为了克服这些缺点，我们利用了扩散模型的迭代去噪特性。RoHM是一种基于扩散的运动模型，它在嘈杂和遮挡的输入数据条件下，重建出完整、合理的运动，并保持一致的全局坐标。鉴于问题的复杂性——需要在不同的解决方案空间（局部和全局运动）中解决不同的任务（去噪和填充）——我们将问题分解为两个子任务，并学习两个模型，一个用于全局轨迹，一个用于局部运动。为了捕捉两者之间的相关性，我们随后引入了一个新颖的条件模块，并将其与迭代推理方案结合起来。我们将RoHM应用于各种任务——从运动重建和去噪到空间和时间填充。在三个流行的数据集上的广泛实验表明，我们的方法在定性和定量上都优于最先进的方法，同时在测试时速度更快。代码将在https://sanweiliti.github.io/ROHM/ROHM.html上提供。

2、

InstructVideo: Instructing Video Diffusion Models with Human Feedback

Hangjie Yuan (Nanyang Technological University) Shiwei Zhang (Alibaba Group) Xiang Wang (Huazhong University of Science and Technology) Yujie Wei (Fudan University) Tao Feng (Tsinghua University) Yining Pan (Singapore University of Technology and Design) Yingya Zhang (Alibaba Group) Ziwei Liu (Nanyang Technological University) Samuel Albanie (University of Cambridge) Dong Ni (Zhejiang University)

扩散模型已成为视频生成的事实上的范式。然而，它们依赖于不同质量的网络规模数据，通常产生的结果在视觉上不吸引人，并且与文本提示不一致。为了解决这个问题，我们提出了InstructVideo，通过奖励微调，用人类反馈指导文本到视频的扩散模型。InstructVideo有两个关键要素：1）为了改善通过完整的DDIM采样链生成引起的奖励微调成本，我们将奖励微调重新定义为编辑。通过利用扩散过程来破坏采样的视频，InstructVideo只需要DDIM采样链的部分推断，降低了微调成本，同时提高了微调效率。2）为了缓解缺乏专门针对人类偏好的视频奖励模型的问题，我们重新利用了已建立的图像奖励模型，例如HPSv2。为此，我们提出了基于片段稀疏采样的Segmental Video Reward机制，以及在微调期间减少时间建模退化的Temporally Attenuated Reward方法。广泛的实验，包括定性和定量的实验，验证了在InstructVideo中使用图像奖励模型的实用性和有效性，显著提高了生成视频的视觉质量，同时不损害泛化能力。代码和模型将公开提供。

3

Instruct-ReID: A Multi-purpose Person Re-identification Task with Instructions

Weizhen He () Yiheng Deng (Zhejiang University) SHIXIANG TANG (The Chinese University of Hong Kong) Qihao CHEN (Liaoning Technical University) Qingsong Xie (OPPO) Yizhou Wang (None) Lei Bai (Shanghai AI Laboratory) Feng Zhu (SenseTime Group LTD) Rui Zhao (Qing Yuan Research Institute, Shanghai Jiao Tong University) Wanli Ouyang (University of Sydney) Donglian Qi (Zhejiang University) Yunfeng Yan (Zhejiang University)

人类智能可以根据视觉和语言描述检索任何人。然而，当前计算机视觉社区分别研究不同场景下特定的个体再识别（ReID）任务，这限制了在现实世界中的应用。本文通过提出一个新的指导ReID任务来解决这个问题，该任务要求模型根据给定的图像或语言指令检索图像。我们的指导ReID是一个更通用的ReID设置，通过设计不同的指令，现有的6个ReID任务可以被视为特殊情况。我们提出了一个大规模的OmniReID基准测试和一种自适应三元损失作为基线方法，以促进这种新设置下的研究。实验结果表明，我们提出的多用途ReID模型，在没有微调的情况下，使用我们的OmniReID基准测试进行训练，可以在Market1501、MSMT17、CUHK03上提高传统ReID的+0.5%、+0.6%、+7.7% mAP，在PRCC、VC-Clothes、LTCC上提高衣物变化ReID的+6.4%、+7.1%、+11.2% mAP，在COCAS+ real2上使用仅RGB图像提高衣物模板基础的衣物变化ReID的+11.7% mAP，在COCAS+ real2上提高我们新定义的语言指导ReID的+24.9% mAP，在LLCM上提高可见红外ReID的+4.3%，在CUHK-PEDES上提高文本到图像ReID的+2.6% mAP。数据集、模型和代码将在https://github.com/hwz-zju/Instruct-ReID上提供。

4

LaMPilot: An Open Benchmark Dataset for Autonomous Driving with Language Model Programs

Yunsheng Ma (Purdue University) Can Cui (Purdue University) Xu Cao (University of Illinois Urbana-Champaign) Wenqian Ye (University of Virginia) Peiran Liu (Purdue University) Juanwu Lu (Purdue University) Amr Abdelraouf (None) Rohit Gupta (Toyota Motor Corporation) Kyungtae Han (Toyota Motor North America) Aniket Bera (Purdue University) James Rehg (None) Ziran Wang (Purdue University)

我们提出了LaMPilot，这是一个用于自动驾驶领域规划的新颖框架，将任务重新思考为一个代码生成过程，利用已建立的行为基元。这种方法旨在解决解释和执行如“超车”等自发用户指令的挑战，这些指令通常对现有框架构成困难。我们引入了LaMPilot基准测试，专门设计用于量化评估大型语言模型（LLMs）将人类指令转换为可执行驾驶策略的有效性。然后，我们在LaMPilot基准测试的任务上评估了广泛的最先进的代码生成语言模型。实验结果表明，GPT-4在人类反馈的帮助下，实现了92.7%的惊人任务完成率和0.9%的最小碰撞率。为了鼓励在这一领域的进一步研究，我们的代码和数据集将公开提供。

5

VideoCon: Robust Video-Language Alignment via Contrast Captions

Hritik Bansal (University of California, Los Angeles) Yonatan Bitton (Google) Idan Szpektor (Google) Kai-Wei Chang (University of California, Los Angeles) Aditya Grover (University of California, Los Angeles)

尽管最先进的视频-语言对齐模型已经在大量数据上进行了（预）训练，但它们对视频字幕中语义上看似合理的对比变化并不鲁棒。我们的工作通过识别一系列广泛的对比错位来解决这个问题，例如替换实体、动作和翻转事件顺序，这些对齐模型应该能够抵御。为此，我们引入了VideoCon，这是一个由大型语言模型构建的视频-语言对齐数据集，该模型生成看似合理的对比视频字幕和解释原始与对比视频字幕之间差异的说明。然后，一个生成性视频-语言模型使用VideoCon进行微调，以评估视频-语言蕴含并生成解释。我们基于VideoCon的对齐模型显著优于当前模型。它在人类生成的对比字幕的视频-语言对齐任务中，AUC提高了12个百分点。最后，我们的模型在时间范围广泛的视频-语言任务中，如文本到视频检索（SSv2-Temporal）和视频问答（ATP-Hard），设定了新的零样本性能。此外，我们的模型在新视频和人工制作的视频字幕和解释方面也表现出色。我们的代码和数据可在https://github.com/Hritikbansal/videocon上获得。

6

NECA: Neural Customizable Human Avatar

Junjin Xiao (School of Computer Science and Engineering, Sun Yat-sen University) Qing Zhang (SUN YAT-SEN UNIVERSITY) Zhan Xu (None) Wei-Shi Zheng (SUN YAT-SEN UNIVERSITY)

人类化身已成为具有各种应用的新型3D资产。理想情况下，一个人类化身应该是完全可定制的，以适应不同的设置和环境。在这项工作中，我们介绍了NECA，这是一种能够从单目或稀疏视图视频中学习多功能人类表示的方法，从而实现在姿势、阴影、形状、照明和纹理等方面进行细粒度定制。我们方法的核心是在互补的双空间中表示人类，并预测几何、反照率、阴影以及外部照明的解耦神经场，从而我们能够通过体积渲染导出具有高频细节的真实感渲染。广泛的实验表明，我们的方法在逼真渲染以及诸如新姿势合成和重新照明等各种编辑任务中优于最先进的方法。代码可在

https://github.com/iSEE-Laboratory/NECA上获得。

7

Residual Denoising Diffusion Models

Jiawei Liu (Shenyang Institute of Automation, Chinese Academy of Sciences) Qiang Wang (Shenyang University) Huijie Fan (None) Yinong Wang (University of Hong Kong) Yandong Tang (Shenyang Institue of Automation) Liangqiong Qu (The University of Hong Kong)

我们提出了残差去噪扩散模型（RDDM），这是一种新颖的双重扩散过程，它将传统的单一去噪扩散过程分解为残差扩散和噪声扩散。这种双重扩散框架通过引入残差，将最初无法解释图像恢复的去噪基础扩散模型扩展为一个统一且可解释的模型，用于图像生成和恢复。具体来说，我们的残差扩散代表了从目标图像到降级输入图像的方向性扩散，并明确指导了图像恢复的反向生成过程，而噪声扩散代表了扩散过程中的随机扰动。残差优先考虑确定性，而噪声强调多样性，使RDDM能够有效统一具有不同确定性或多样性要求的任务，如图像生成和恢复。我们展示了我们的采样过程通过系数转换与DDPM和DDIM的采样过程一致，并提出了一个部分径独立的生成过程以更好地理解反向过程。值得注意的是，我们的RDDM使得一个通用的UNet，仅使用L1损失和批量大小为1进行训练，就能与最先进的图像恢复方法竞争。我们提供了代码和预训练模型，以鼓励对我们创新框架的进一步探索、应用和发展（https://github.com/nachifur/RDDM）。

8

UniGS: Unified Representation for Image Generation and Segmentation

Lu Qi (University of California, Merced) Lehan Yang (University of Sydney) Weidong Guo (Tencent) Yu Xu (University of Waterloo) Bo Du (Wuhan University) Varun Jampani (Google Research) Ming-Hsuan Yang (University of California at Merced)

本文介绍了一种新颖的统一扩散模型表示法，用于图像生成和分割。具体来说，我们使用颜色图来表示实体级掩码，解决了实体数量变化的挑战，同时将表示与图像RGB领域紧密对齐。我们提出了两个新颖的模块，包括位置感知调色板和渐进式二分模块，以支持我们的掩码表示。一方面，位置感知调色板保证了颜色与实体位置的一致性。另一方面，渐进式二分模块可以有效地将合成的颜色图解码为高质量实体级掩码，采用深度优先的二分搜索，无需知道聚类数量。为了解决缺乏大规模分割训练数据的问题，我们采用了一种修复管道，然后提高了扩散模型在各种任务中的灵活性，包括修复、图像合成、引用分割和实体分割。全面的实验验证了我们方法的效率，展示了与最先进的分割掩码质量相当的性能，以及对多个任务的适应性。代码将在

https://github.com/qqlu/Entity}{https://github.com/qqlu/Entity}上发布。

9

Adaptive Dilated Convolution from Frequency View

Linwei Chen (Beijing Institute of Technology) Lin Gu (RIKEN / the University of Tokyo) Dezhi Zheng (None) Ying Fu (None)

扩张卷积是一种通过在其连续元素之间插入间隔来扩展接受域的方法，在计算机视觉中被广泛采用。在这项研究中，我们提出了三种策略，从频谱分析的角度改进扩张卷积的各个阶段。与将全局扩张率作为超参数固定的做法不同，我们引入了频率自适应扩张卷积（FADC），它根据局部频率分量动态地空间调整扩张率。随后，我们设计了两个插件模块，直接增强有效带宽和接受场大小。自适应核（AdaKern）模块将卷积权重分解为低频和高频分量，并在每个通道的基础上动态调整这些分量之间的比例。通过增加卷积权重的高频部分，AdaKern捕获了更多的高频分量，从而提高了有效带宽。频率选择（FreqSelect）模块通过空间变化的重新加权，在特征表示中最佳地平衡了高频和低频分量。它抑制背景中的高频，以鼓励FADC学习更大的扩张，从而扩大了接受场的范围。在分割和目标检测上的广泛实验一致验证了我们方法的有效性。代码已在https://github.com/Linwei-Chen/FADC公开提供。

线下技术分享会预告：

Agent 的潜意识计划组织线下（地点暂定南京，只在南京找到了免费的会议场所）技术分享会。聚焦一线实战，聚焦技术，聚焦code。希望以讲促学，多看paper ，勤敲代码。互联网时代，线上单兵自己琢磨的时间越多，线下群讨会就显得更加珍贵。希望一线技术一起广结善缘。

主题聚焦在AGI领域。学术与工程，算法和工程优化均可。有感兴趣的讲者可以跟我联系啊。

CVPR2024 paper with code 集锦4