本来是整理一些关于sora 视频合成的有代码的顶会论文的,后来粉丝们强烈要求希望把所有的顶会有代码的论文都帮忙整理一下。为满足大家需求特整理。
这个系列你可以当成一个学术情报感知器来看,这个是泛读部分。如果你感兴趣就可以自己下载paper和代码精读。
整个cvpr2024应该是有四千多篇论文。其中有代码(或声明会公开代码和数据集)共300来篇。欢迎大家关注。所有材料都会在文末的git链接上整理好。
今天共6篇文章。都比较有代表性。
第一篇是港科大、微软亚研和商汤他们的。讲的是一个有时间感知的隐式转换器提升视频压缩的保真度的;
第二篇是上交卢策吾老师他们的工作,就视频中的动作物理空间跟文本的语义空间进行对齐,把一些孤立的数据集构建统一的标签融合到一起,这个对于视频生成是非常重要的。长视频之所以难就是因为视频动作到文本语义的连贯性差,视频一长,视频里表达的内容就跟文本语义断勾了。
第三篇 是华科和华为诺亚方舟的工作。他们发布了一个新数据集,这个数据集中每张图片都有两个文本解释,因此图像的语义信息跟文本的语义信息更加能够对齐,这样的工作也是非常有利于生成式模型学习的,文本生成图像核心是文本语义要跟图像的语义对齐才让img具有表达力,否则就是散乱的语义杂糅。
第四篇 文章是做跨域目标检测的。我懂的不多哈
第五篇是 抖音和新加坡 show lab 的力作。他们提出了一个新的框架,在tiktok真实跳舞视频上实测,提升了动画生成中动作的真实度。新的框架关注了语义连贯性。
第六篇 是利兹大学的,这个是做虚拟人方向的。就是衣服布料仿真模型如何提升质感的问题。因为我们穿着会有自然的褶皱感,虚拟人要把衣服的这种感觉做出来是很难的。他用了贝叶斯的算法优化了这个仿真算法。
详细信息见下:
1、
Boosting Neural Representations for Videos with a Conditional Decoder,
XINJIE ZHANG (The Hong Kong University of Science and Technology) · Ren Yang (Microsoft Research Asia) · Dailan He (The Chinese University of Hong Kong) · Xingtong Ge (Beijing Institute of Technology) · Tongda Xu (Tsinghua University) · Yan Wang (Tsinghua University, Tsinghua University) · Hongwei Qin (SenseTime Co.) · Jun Zhang (The Hong Kong University of Science and Technology),
隐式神经表示(INRs)已成为视频存储和处理的一种有前景的方法,在各种视频任务中展现出显著的多功能性。然而,现有方法往往未能充分利用其表示能力,主要是因为在目标帧解码过程中中间特征的对齐不足。本文介绍了一种针对当前隐式视频表示方法的通用增强框架。具体来说,我们使用了一个带有时间感知仿射变换模块的条件解码器,该模块使用帧索引作为先验条件,有效地将中间特征与目标帧对齐。此外,我们引入了一个类似正弦NeRV的块来生成多样化的中间特征,并实现更平衡的参数分布,从而增强了模型的容量。通过保持高频信息的重建损失,我们的方法成功地提升了多个基线INRs在视频回归的重建质量和收敛速度,并展示了卓越的修复和插值结果。进一步地,我们整合了一种一致的熵最小化技术,并基于这些增强的INRs开发了视频编解码器。在UVG数据集上的实验证实,我们增强的编解码器显著优于基线INRs,并且与传统的和基于学习的编解码器相比,提供了有竞争力的率失真性能。代码可在https://github.com/Xinjie-Q/Boosting-NeRV上获取。
2、
From Isolated Islands to Pangea: Unifying Semantic Space for Human Action Understanding,
Yonglu Li (Shanghai Jiaotong University) · Xiaoqian Wu (None) · Xinpeng Liu (Shanghai Jiao Tong University) · Zehao Wang (None) · Yiming Dou (University of Michigan - Ann Arbor) · Yikun Ji (Shanghai Jiaotong University) · Junyi Zhang (Shanghai Jiao Tong University) · Yixing Li (Shanghai Jiao Tong University) · Xudong LU (The Chinese University of Hong Kong) · Jingru Tan (Central South University) · Cewu Lu (Shanghai Jiao Tong University),
作为迈向智能代理的关键一步,动作理解对于智能代理至关重要,并且已经吸引了长期的注意。它可以形成从动作物理空间到语义空间的映射。通常,研究人员根据特定的选择来构建动作数据集,以定义类别,并分别推动基准的极限。因此,由于语义差异和各种类别粒度,数据集之间彼此不兼容,就像“孤立岛屿”一样,例如,在数据集A中做家务,在数据集B中洗盘子。我们认为,一个更有原则的语义空间是一个迫切需要集中社区努力的地方,使我们能够一起使用所有数据集来追求可推广的动作学习。为此,我们设计了一个结构化的动作语义空间,考虑到动词分类层次结构,并涵盖大量动作。通过将先前数据集的类别与我们的语义空间对齐,我们将(图像/视频/骨架/动作捕捉)数据集汇集到一个统一的数据库中,使用统一的标签系统,即,将“孤立岛屿”连接成一个“泛大陆”。相应地,我们提出了一个新颖的模型,从物理空间映射到语义空间,以充分利用泛大陆。在广泛的实验中,我们的新系统显示出显著的优越性,特别是在迁移学习方面。代码和数据将公开提供。
3、
UFineBench: Towards Text-based Person Retrieval with Ultra-fine Granularity,
Jialong Zuo (Huazhong University of Science and Technology) · Hanyu Zhou (Huazhong University of Science and Technology) · Ying Nie (Huawei Noah's Ark Lab) · Feng Zhang (Huazhong University of Science and Technology) · Tianyu Guo (Peking University) · Nong Sang (Huazhong University of Science and Technology) · Yunhe Wang (Huawei Noah's Ark Lab) · Changxin Gao (Huazhong University of Science and Technology)
现有的基于文本的人员检索数据集通常具有相对粗粒度的文本注释,这阻碍了模型理解实际场景下查询文本的细粒度语义。为了解决这个问题,我们贡献了一个新的基准测试名称为UFineBench的基于文本的人员检索与超细粒度。
首先,我们构建了一个新的数据集名为UFine6926。我们收集了大量的人员图像,并手动注释每张图像两个详细的文本描述,平均每个80.8个单词。单词数是先前数据集的三到四倍。除了标准的在域内评估,我们还提出了一种更能代表实际场景的特殊评估范例。它包含一个新的评估集合于跨域,跨文本粒度和跨文本风格,命名为UFine3C,以及一个新的评估指标来准确测量检索能力,命名为mean Similarity Distribution (mSD)。此外,我们提出了CFAM,一个为基于文本的人员检索与超细粒度文本特别设计的更有效的算法。它通过采用共享的跨模态粒度解码器和硬负面匹配机制来实现细粒度挖掘。
通过标准的在域内评估,CFAM在各种数据集上建立了竞争力的性能,尤其是在我们的超细粒度UFine6926上。此外,通过对UFine3C的评估,我们证明了在我们的UFine6926上训练相比其他粗粒度数据集显著提高了泛化到实际场景的能力。数据集和代码将在https://github.com/Zplusdragon/UFineBench上公开提供。
4
D3T: Distinctive Dual-Domain Teacher Zigzagging Across RGB-Thermal Gap for Domain-Adaptive Object Detection,
Dinh Phat (None) · TAEHOON KIM (None) · JAEMIN NA (None) · Jiwon Kim (Hyundai Motor Company) · Keonho LEE (Hyundai Motor Company) · Kyunghwan Cho (Hyundai Motor Company) · Wonjun Hwang (Ajou University),
目标检测的领域适应通常涉及从一个可见领域向另一个可见领域转移知识。然而,从可见领域适应到热成像领域的研究相对有限,因为可见领域和热成像领域之间的领域差距比预期要大得多,传统的领域适应方法无法成功促进在这种情况下的学习。为了克服这一挑战,我们提出了一个独特的双领域教师(D3T)框架,该框架为每个领域采用不同的训练范式。具体来说,我们分离源领域和目标领域的训练集,构建双教师,并逐步将指数移动平均部署到学生模型中,以适应每个领域的个别教师。该框架进一步结合了双教师之间的锯齿形学习方法,在训练过程中促进从可见领域到热成像领域的逐步过渡。我们通过使用众所周知的热成像数据集(即FLIR和KAIST)设计的新的实验协议来验证我们方法的优越性。
5、
MagicAnimate: Temporally Consistent Human Image Animation using Diffusion Model,
Zhongcong Xu (national university of singaore, National University of Singapore) · Jianfeng Zhang (NUS) · Jun Hao Liew (ByteDance) · Hanshu Yan (ByteDance) · Jia-Wei Liu (National University of Singapore) · Chenxu Zhang (Bytedance) · Jiashi Feng (ByteDance) · Mike Zheng Shou (National University of Singapore),
本文研究了人类图像动画任务,其目标是生成一个特定参考身份跟随特定动作序列的视频。现有的动画作品通常采用帧变形技术来使参考图像朝向目标动作进行动画化。尽管取得了合理的结果,但这些方法由于缺乏时间建模和对参考身份的保留不足,在维持动画的时间一致性方面面临挑战。在这项工作中,我们引入了MagicAnimate,这是一个基于扩散的框架,旨在增强时间一致性,忠实地保留参考图像,并提高动画的真实度。为了实现这一目标,我们首先开发了一个视频扩散模型来编码时间信息。其次,为了保持帧之间的外观一致性,我们引入了一个新颖的外观编码器来保留参考图像的复杂细节。利用这两个创新,我们进一步采用了一个简单的视频融合技术,以鼓励长视频动画的平滑过渡。实证结果表明,我们的方法在两个基准测试上优于基线方法。值得注意的是,在我们的方法在具有挑战性的TikTok舞蹈数据集上的视频真实度方面,比最强基线方法高出38%以上。代码和模型将会公开提供。
6、
Bayesian Differentiable Physics for Cloth Digitalization,
Deshan Gong (University of Leeds) · Ningtao Mao (University of Leeds) · He Wang (None),
我们提出了一种新的布料数字化方法。与现有方法不同,现有方法通常从相对随意的环境中捕获的数据中学习,您提议从严格测试的测量协议中捕获的数据中学习,并找到布料的合理物理参数。然而,目前这样的数据还不存在,因此我们首先提出了一个新的数据集,其中包含了精确的布料测量数据。此外,由于数据捕获过程的特性,数据规模远小于当前深度学习中的数据规模。为了从小规模数据中学习,我们提出了一个新的贝叶斯可微分布料模型,以估计真实布料的复杂材料异质性。它能够从非常有限的数据样本中提供高度准确的数字化。通过详尽的评估和比较,我们展示了我们的方法在布料数字化方面的准确性、从小规模数据样本中学习的效率性,以及在捕获材料变化方面的普适性。代码和数据可在以下链接获取:https://github.com/realcrane/Bayesian-Differentiable-Physics-for-Cloth-Digitalization。
后续材料整理在
https://github.com/scalaboy/AIpaper_with_code。
