今天,官方公布了12篇获奖论文候选名单。(占接受论文的0.51%和提交论文的0.13%)
根据官网统计,本届 CVPR 共接受论文 9155 篇,其中录取 2359 篇,录取率为 25.8%。
其中 235 篇经过评级。(占已接受论文的 10% 和已提交论文的 2.6%)
1. 通过自我头部姿势实现自我身体姿势
作者:Li, Karen Liu, Wu
院校:斯坦福大学
论文地址:
在本文中,研究人员提出了一种新方法,通过自我头部姿势估计来进行自我身体姿势估计(Ego-Body Pose ),将问题分解为以头部运动作为中间表示连接的两个阶段。首先,结合SLAM和一种学习方法来估计准确的头部运动。
随后萨里大学,利用条件扩散,使用估计的头部姿势作为输入,生成多个合理的全身运动。头部和身体姿势的分离消除了对以自我为中心的视频和 3D 人体运动的配对训练数据集的需求,使研究人员能够分别利用大规模以自我为中心的视频数据集和动作捕捉数据集。
此外,为了对该系统进行基准测试,研究人员开发了一个合成数据集 AMASS-Ego-Syn (ARES),其中包括成对的自我中心视频和人体动作。在 ARES 和真实数据上,研究人员的模型表现明显优于目前最先进的方法。
2. 3D 和
作者:张希宇、杨嘉琪、张、张
3. :大型 3D ,和
作者:吴童、张、付晓、王雨馨、任、潘亮、吴、杨雷、王嘉琪、陈茜、林大华、刘紫薇
机构:上海人工智能实验室、香港中文大学、商汤科技、香港科技大学、南洋理工大学
论文地址:
由于缺乏大规模真实扫描 3D 数据库,3D 对象建模的最新进展都依赖于合成数据集。
为了推动现实世界 3D 感知、重建和生成的最新技术,我们提出了一个大词汇量的 3D 对象数据集,其中包含大量高质量的真实扫描 3D 对象。
它有几个吸引人的特点:1)数据量非常大:包括190个日常类别的6000个扫描物体,与流行的2D数据集(如和LVIS)共享共同类别,有利于追求通用的3D表示。2)注释丰富:每个3D物体都由2D和3D传感器捕获,提供纹理网格、点云、多视图渲染图像和多个真实捕获的视频。3)逼真的扫描:专业扫描仪支持高质量的物体扫描,形状精确,外观逼真。
利用提供的广阔探索空间,研究人员精心设立了四个评估基准:a) 强大的 3D 感知、b) 新颖的视图合成、c) 神经表面重建和 d) 3D 物体生成。
4. :for Field 上的
作者:陈,,Peter,
机构:谷歌、西蒙弗雷泽大学、多伦多大学
论文地址:
神经辐射场 (NeRF) 在从新视角合成 3D 场景图像方面表现出了令人印象深刻的能力。然而,它们依赖于专有的体积渲染算法,而这些算法与广泛部署的图形硬件的能力不匹配。
本文介绍了一种基于纹理多边形的新型 NeRF 表示,可用于使用标准渲染管道高效合成新图像。NeRF 表示为一组多边形,其纹理表示二进制不透明度和特征向量。使用 Z 缓冲区对多边形进行传统渲染会产生每个像素都具有特征的图像,这些特征由片段着色器中运行的小型、视图相关的 MLP 进行解释,以产生最终的像素颜色。
这种方法使得 NeRF 能够使用传统的多边形光栅化管道进行渲染,从而提供大量像素级并行性并实现足以在包括移动电话在内的各种计算平台上进行交互使用的帧速率。
5. :基于图像
作者:Li, Wang, Cole, Noah
组织:、康奈尔科技
论文地址:
在本文中,研究人员提出了一种基于体积图像的渲染框架,该框架通过以场景运动感知的方式聚合附近的视点特征来合成新的视点。
研究人员的系统保留了以前方法的优势,即能够模拟复杂场景和视点相关效果,但也能够从具有复杂场景动态和不受约束的相机轨迹的长视频中合成照片般逼真的新视点。
结果表明,新方法在动态场景数据集上比 SOTA 有显著改进。此外,它还可以应用于具有挑战性的体育视频,而之前的方法无法在这些视频中产生高质量的渲染。
6.-
作者:胡一涵、杨、陈力、李克宇、司马、朱、柴思齐、杜、林、王、卢乐伟、贾、刘强、戴、乔宇、李
单位:上海市人工智能实验室自动驾驶团队、武汉大学、商汤科技
论文地址:
在本文中,研究人员提出了一种新的综合框架——统一自动驾驶(UniAD)。通过将全栈驾驶任务整合到一个网络中,该框架可以利用每个模块的优势,并从全局视角为代理交互提供互补的功能抽象。任务通过统一的查询接口进行通信,从而促进彼此的规划。
研究人员在具有挑战性的基准上实例化了 UniAD。消融实验表明,新方法在各方面均显著优于之前的 SOTA。
7. :精细文本转图像 -
作者:Ruiz、Li、Varun、Yael、Kfir
组织:、波士顿大学
论文地址:
在这项工作中,研究人员提出了一种“个性化”文本到图像扩散模型的新方法。
只需输入几张主题图片,预先训练好的文本转图像模型就可以进行微调,学习将唯一标识符绑定到特定主题。一旦主题嵌入到模型的输出域中,唯一标识符便可用于合成该主题在不同场景中的新照片级逼真图像。
通过利用模型中嵌入的语义先验以及新颖的自生成的类特定先验保留损失,新方法能够合成参考图像中不存在的各种场景、姿势、视点和光照条件下的主体。
8. 关于
作者:孟罗宾、高瑞琪、Ermon、Ho、Tim
机构:斯坦福大学、AI、慕尼黑大学、谷歌
论文地址:
没有分类器指导的扩散模型的一个缺点是它们在推理时计算成本很高,因为它们需要评估两个扩散模型(一个是类条件的,一个是无条件的),数十到数百次。
为了解决这一限制,研究人员提出了一种方法,将没有分类器指导的扩散模型细化为快速采样模型。
给定一个没有分类器指导的预训练模型,我们首先学习一个单一模型来匹配组合条件和非条件模型的输出,然后逐渐将该模型细化为需要更少采样步骤的扩散模型。
9. :
作者:古普塔,
机构:艾伦人工智能研究所
论文地址:
研究人员提出了一种神经符号方法,根据自然语言指令解决复杂和组合的视觉任务。
我们利用大型语言模型的非文本学习能力来生成类似于的模块化程序,然后执行这些程序以获得解决方案和全面、可解释的理由。
生成的程序的每一行都可以调用几个现成的 CV 模型、图像处理子程序或函数之一来产生中间输出。
研究人员在四项不同的任务上展示了它们的灵活性:组合视觉问答、图像对的零样本推理、事实知识对象标记和语言引导的图像编辑。
研究人员表示,像这样的神经符号方法是一种令人兴奋的途径,可以轻松有效地扩展人工智能系统的覆盖范围,以服务于人们可能想要执行的长期复杂任务。
10. 人类能做什么?
作者: Nath、Ayan Kumar、Sain、Koley、Tao Hong、宋一哲
院校:萨里大学
论文地址:
素描具有极强的表现力,能够捕捉主观且精细的视觉线索。然而,目前对素描这种固有属性的探索仅限于图像检索领域。
在论文中,研究人员试图利用草图的表现力,而不是物体检测的基本视觉任务。
研究人员首先独立提示了SBIR模型的素描和照片分支,基于CLIP的泛化能力,构建了高度可泛化的照片编码器。
随后,研究人员设计了一个训练范例,以使编码器适应物体检测,使得检测到的边界区域的嵌入与 SBIR 草图和照片的嵌入对齐。
通过在标准对象检测数据集(例如 -VOC 和 MS-COCO)上评估最新框架,结果表明它们在零样本设置中优于监督(SOD)和弱监督对象检测器(WSOD)。
11. 事件数据
作者:Nico Fang
机构:苏黎世大学
论文地址:
现有的事件相机特征跟踪方法要么是手工制作的,要么是从第一原理推导出来的,但需要大量的参数调整,对噪声敏感,并且由于未建模的影响而无法推广到不同的场景。
为了解决这些缺陷萨里大学,研究人员引入了第一个数据驱动的基于事件的相机特征跟踪器,该跟踪器利用低延迟事件来跟踪在灰度帧中检测到的特征。
通过无缝地将合成数据直接转换为真实数据,新的数据驱动跟踪器在相对特征年龄方面的表现比现有方法高出 120%,同时还实现了最低的延迟。通过使用新的自监督策略将跟踪器调整到真实数据,这一性能差距进一步扩大到 130%。
12.
作者:Azim, Irina, Yury, Dehua Song,
机构:华为诺亚方舟实验室
论文地址:
研究人员引入了一个新的深度神经网络家族。研究人员不再使用传统的 N 维权重张量来表示网络层,而是使用沿滤波器和通道维度的连续层表示。研究人员将这种网络称为积分神经网络 (INN)。
具体来说,INN 的权重表示为在 N 维超立方体上定义的连续函数,而每层输入的离散变换相应地由连续积分运算取代。
在推理过程中贝语网校,可以通过数值积分和求积将连续层转换为传统的张量表示。这种表示允许网络以任意大小和各种离散化间隔离散化积分核。
该方法可用于直接在边缘设备上修剪模型,无需任何微调,即使在高修剪率下也只会造成很小的性能损失。
为了评估所提出方法的实际效果,研究人员使用各种神经网络架构在多项任务上进行了实验。
报告的结果表明,所提出的 INN 实现了与传统离散 INN 相同的性能,同时能够在高修剪率(高达 30%)下保持大致相同的性能(准确度损失 2%)而无需微调,而传统修剪方法在相同条件下会遭受 65% 的准确度损失。
参考: