CVPR 2018十大论文!:亚博yabo888vip官网

本文摘要:2018年计算机视觉和模式识别会议(CVPR)上周在盐湖城举行。

2018年计算机视觉和模式识别会议(CVPR)上周在盐湖城举行。这次聚会是计算机视觉领域的世界顶级聚会。今年,CVPR收到了3300篇主要论文,最终吸收了979篇论文。超过6500人参加了这次集会,这是一个史诗般的规模!6500人参加了下面的会议厅:CVPR 2018会议厅每年,CVPR都会带来杰出的人才和他们的伟大研究;我们总是可以看到和学习一些新工具。

诚然,每年都会有一些论文揭示新的突破性成果,给这个领域带来一些有用的新知识。这些论文往往会带来计算机视觉很多子领域最先进的前沿技术。最近那些开箱即用的创意论文大行其道!随着深度学习在计算机视觉领域的不断应用,我们仍在探索各种可能性。

许多论文将展示深度网络在计算机视觉中的新应用。他们可能不是开创性的作品,但他们很有趣,可以在这个领域提供创造性和启发性的视角,新的想法往往可以从他们的新角度引发。

总而言之,他们很酷!在这里,我将向你展示2018年CVPR最酷的10份报纸。我们将看到最近才使用的深度网络实施的新应用,以及提供新的使用方法和技能的其他应用。你可能会从这个过程中获得一些新的想法。

)。话不多说,开始吧!1.用合成数据训练深度网络:通过领域随机化弥合现实差距本文来自英伟达,使用合成数据训练卷积神经网络(CNN)。

他们为虚幻引擎4设置了一个插件,这个插件会生成全面的训练数据。真正的关键是,它们随机化了许多可以包含在训练数据中的变量,包括:工具的数量和类型、讨厌的数量、类型、颜色和比例、感兴趣的工具和纹理虚拟相机相对于场景的位置、相机相对于场景的角度以及点光源的数量和位置。

它们显示出一些有希望的效果,这证明了合成数据的预训练的有效性;取得了前所未有的成绩。这也为在没有重要数据源的情况下生成和使用合成数据提供了思路。用合成数据训练深层网络:通过领域随机化弥合现实差距2。

WESPE:数码相机弱监控照片增强器这个很微妙!研究人员训练了一个生殖电阻网络(GAN),可以自动美化图片。最酷的部门就是监控弱,不需要输入输出图像对!训练网络,你只需要有一组“赏心悦目”的图片(用于输出的正确标记)和一组“粗糙”的图片(用于输入图像)。

生成的电阻网络经过训练,输出更具美感的输入图像,通常会创新图像的颜色和对比度。这个模型简单,可以快速使用,因为你不需要精确的像对,最终你会得到一个“通用”的像增强器。我也喜欢这篇论文的地方是它是一种弱监控的方法,无监督学习似乎很遥远。然而,对于计算机视觉领域的许多子类来说,弱监控似乎是一种更可靠、更有前途的偏见。

WESPE:数码相机的弱监控照片增强器。3.利用多边形RNN对分割数据集进行高效的交互式标注。深度网络运行良好的主要原因之一是有大量标记的可用数据集。

然而,对于许多机械视觉任务来说,获取这样的数据既费时又费钱。尤其是图片中的每个像素都需要分类标注。

所以对于一个大数据集,你可以想象.贴标签的任务永远不会完成!多边形-RNN使你可以在图片中的每个目标物体周围粗略地画出多边形,然后网络会自动标记物体!论文表明,这种方法非常好,能够在支持任务中快速生成简单标签!利用多边形RNN实现分割数据集的高效交互式标注。用时尚图片打造胶囊衣柜“嗯.我今天应该穿什么?”如果每天早上都能有人或者一个工具来给你解答这个问题,你不用再问这个问题了不是很好吗?所以你不需要了?那么让我们向胶囊衣柜问好。

在本文中,作者设计了一个模型,并给出了一个候选服装和配饰的列表,可以组合单个项目,提供最大可能的混淆和匹配方案。它基本上使用目标函数进行训练,目的是捕捉视觉兼容性、多功效和用户特定偏好的关键元素。有了胶囊衣柜,你可以很容易地从衣柜里得到最合适的衣服!从时尚图片打造胶囊衣柜V. Super SloMo:视频插值中多个中间帧的高质量预测你有没有想过用超慢的动作拍出超酷的工具?超级SloMo,Nvdia的研究,可以帮你实现!在研究中,他们使用CNN预测视频的中间帧,可以将30fps视频的比例转换为240fps慢动作!该模型预测视频中间帧之间的光流信息,并在这些信息之间插入视频帧,使慢动作视频也能看起来清晰锐利。

子弹穿过鸡蛋,超级慢!6.谁把狗放出来的?利用视觉数据建立狗的行为模型可能是有史以来最酷的研究论文了!这项研究的想法是试图模拟狗的思想和行为。研究人员在狗的四肢上安装了许多传感器,以收集它们的运动和行为数据。此外,他们在狗的头上安装了一个摄像头,以狗的第一人称视角来观察同一个世界。然后,使用一组CNN特征提取器从视频帧中获取图像特征,并将其与传感器数据一起上报给一组LSTM模型,从而学习和预测狗的动作和行为。

这是一项新颖而富有创造性的应用研究,其总体任务框架和奇特的执行方式是本文的亮点!我希望这项研究能给未来收集数据和应用深度学习技术的方式带来更多的创造性。用可视化数据VII构建狗的行为模型。学会解决一切在过去的几年里,何团队(原微软研究院,现就职于Facebook AI Rese,arch) 提出了许多重大的盘算机视觉研究结果。

他们的研究最棒之处在于将缔造力和简朴性相联合,诸如将 ResNets和 Mask R-CNN 相联合的研究,这些都不是最疯狂或最庞大的研究思路,可是它们简朴易行,并在实践中很是有效。这一次也不破例。该团队最新的研究 Learning to Segment Every Thing 是 Mask R-CNN 研究的扩展,它使模型准确地支解训练期间未泛起的种别目的!这对于获取快速且廉价的支解数据标注是很是有用的。

事实上,该研究能够获得一些未知目的的基准支解效果,这对于在自然条件中部署这样的支解模型来说是至关重要的,因为在这样的情况下可能存在许多未知的目的。总的来说,这绝对是我们思考如何充实使用深层神经网络模型的正确偏向。

学习支解一切 八、桌上足球 本文的研究是在 FIFA 世界杯开幕时正式揭晓的,理应获得最佳时机奖!这简直是 CVPR 上在盘算机视觉领域的“更酷”应用之一。简而言之,作者训练了一个模型,在给定足球角逐视频的情况下,该模型能够输出相应视频的动态 3D 重建,这意味着你可以使用增强现实技术在任何地方检察它! 本文最大的亮点是联合使用许多差别类型的信息。使用视频角逐数据训练网络,从而相当容易地提取 3D 网格信息。在测试时,提取运发动的界限框,姿势及跨越多个帧的运动轨迹以便支解运发动。

接着你可以轻松地将这些 3D 片段投射到任何平面上。在这种情况下,你可以通过制作虚拟的足球场,以便在 AR 条件下寓目的足球角逐!在我看来,这是一种使用合成数据举行训练的智慧方法。

无论如何它都是一个有趣的应用法式!桌上足球 九、 LayoutNet:从单个 RGB 图像重建 3D 房间结构 这是一个盘算机视觉的应用法式,我们可能曾经想过:使用相机拍摄某些工具,然后用数字 3D 技术重建它。这也正是本文研究的目的,特别是重建 3D 房间结构。研究人员使用全景图像作为网络的输入,以获得房间的完整视图。

网络的输出是 3D 重建后的房间结构,具有相当高的准确性!该模型足够强大,可以推广到差别形状、包罗许多差别家具的房间。这是一个有趣而好玩、又不需要投入太多研究人员就能实现的应用。LayoutNet:从单个 RGB 图像重建 3D 房间结构 十、学习可迁移的结构用于可扩展的图像识别任务 最后要先容的是一项许多人都认为是深度学习未来的研究:神经架构搜索 (NAS)。

NAS 背后的基本思想是我们可以使用另一个网络来“搜索”最佳的模型结构,而不需要手动地设计网络结构。这个搜索历程是基于奖励函数举行的,通过奖励模型以使其在验证数据集上有良好的体现。此外,作者在论文中讲明,这种模型结构比起手动设计的模型能够获得更高的精度。

这将是未来庞大的研究偏向,特别是对于设计特定的应用法式而言。因为我们真正关注的是设计好的 NAS 算法,而不是为我们特定的应用设计特定的网络。

经心设计的 NAS 算法将足够灵活,并能够为任何特定任务找到良好的网络结构。学习可迁移的结构用于可扩展的图像识别任务 谢谢您的阅读! 希望您学到了一些新的有用的工具,甚至可能为你自己的事情找到了一些新的想法! 如果您以为不错,请分享给更多人可以看到这篇文章,并与我们一起跳上学习列车!领取红包。

本文关键词:亚博yabo888vip官网

本文来源:亚博yabo888vip官网-www.haomeng321.com