沭阳网首页   |   手机沭阳网   |   网站地图  
您的位置:沭阳网首页 > 科技频道 > 数码|家电>正文

恢复图像和视频的“丢失尺寸”

2020-02-03 19:04:33    来源:    我来说两句()
字号:TT

 麻省理工学院的研究人员开发了一种模型,该模型可以恢复从“折叠”成较小尺寸的图像和视频中丢失的宝贵数据。

该模型可用于从运动模糊的图像或新型摄像机中重新创建视频,这些摄像机捕获人在拐角处的运动,但只能作为模糊的一维线。尽管需要更多的测试,研究人员认为这种方法有朝一日可以用于将2D医学图像转换为内容更丰富(但价格更高)的3D身体扫描,这可以使贫穷国家的医学成像受益。

“在所有这些情况下,视觉数据都在时间或空间上具有一个维度-完全丢失了,”计算机科学和人工智能实验室(CSAIL)的博士后,同时也是描述该模型的论文的第一作者Guha Balakrishnan说。 ,将在下周的计算机视觉国际会议上进行介绍。“如果我们恢复丢失的尺寸,它将具有许多重要的应用。”

捕获的视觉数据通常会将时间和空间的多个维度的数据折叠为一维或二维,称为“投影”。例如,X射线将有关解剖结构的三维数据折叠成平面图像。或者,考虑长时间曝光的恒星在天空中移动的镜头:位置随时间变化的恒星在静止镜头中显示为模糊的条纹。

同样,最近在麻省理工学院发明的“转角摄像机”可以检测到拐角处的人。例如,这些对于消防员在燃烧的建筑物中找到人可能有用。但是这些相机并非完全用户友好。目前,它们仅产生类似于人的轨迹和速度的模糊,弯曲的线条的投影。

研究人员发明了一种“视觉投影”模型,该模型使用神经网络来“学习”将低维投影与其原始高维图像和视频相匹配的模式。给定新的投影,该模型将使用所学知识从投影重新创建所有原始数据。

在实验中,该模型通过从与角落摄像机产生的相似的单维线中提取信息来合成显示人走动的准确视频帧。该模型还从流行的“移动MNIST”数据集中,从屏幕周围移动的单个运动模糊数字投影中恢复了视频帧。

加入Balakrishnan的论文是:电气工程与计算机科学系(EECS)和CSAIL的研究生Amy Zhao;EECS教授John Guttag,Fredo Durand和William T. Freeman;哈佛医学院放射学系教员艾德里安·达尔卡(Adrian Dalca)。

线索像素

Balakrishnan说,这项工作开始于“酷反转问题”,旨在重现造成长时间曝光摄影中运动模糊的运动。在投影的像素中,存在有关高维光源的一些线索。

例如,捕获长时间曝光的数码相机基本上会在一段时间内在每个像素上聚集光子。在捕获对象随时间的运动时,相机将获取运动捕获像素的平均值。然后,将那些平均值应用于静止图像的相应高度和宽度,从而创建对象轨迹的特征性模糊条纹。通过计算像素强度的一些变化,理论上可以重新创建运动。

正如研究人员所意识到的那样,该问题在许多领域都涉及到:例如X射线捕获解剖结构的高度,宽度和深度信息,但他们使用类似的像素平均技术将深度折叠成2D图像。角相机-由弗里曼,杜兰德和其他研究人员于2017年发明-捕获隐藏场景周围的反射光信号,该图像承载有关人与墙壁和物体的距离的二维信息。然后,像素平均技术会将数据折叠成一维视频-基本上是在一行中随时间变化的不同长度的测量值。

研究人员基于卷积神经网络(CNN)构建了一个通用模型-一种机器学习模型,该模型已成为图像处理任务的强大动力-可以捕获有关平均像素中任何尺寸损失的线索。

合成信号

在训练中,研究人员为CNN提供了成千上万对投影及其高维信号,称为“信号”。CNN会学习与信号中的像素图案匹配的投影中的像素图案。为CNN供电的是一个称为“变量自动编码器”的框架,该框架可评估CNN输出在某种统计概率上与输入的匹配程度。由此,模型学习了可能已经产生给定投影的所有可能信号的“空间”。本质上,这为如何从投影变为所有可能的匹配信号创建了一种蓝图。

当显示以前看不见的投影时,模型会记录像素图案并遵循蓝图显示可能已经产生该投影的所有可能信号。然后,它将合成新图像,这些图像将来自投影的所有数据和来自信号的所有数据进行组合。这将重建高维信号。

对于一个实验,研究人员收集了一个由35个视频组成的数据集,其中有30个人在指定区域中行走。他们将所有框架折叠成用于训练和测试模型的投影。该模型从一组六个看不见的投影中脱颖而出,准确地重新创建了人的步态的24帧,直至他们的腿部位置和人朝向或离开相机时的大小。例如,该模型似乎了解到,随着时间而变暗和变宽的像素可能对应于一个人靠近相机。

Balakrishnan说:“我们能够恢复这个细节几乎就像魔术一样。”

研究人员没有在医学图像上测试他们的模型。但是,他们现在正在与康奈尔大学的同事合作,从2D医学图像(例如X射线)中恢复3D解剖信息,而无需增加费用-这可以在较贫穷的国家进行更详细的医学成像。医生大多喜欢3D扫描,例如用CT扫描捕获的3D扫描,因为它们包含有用得多的医学信息。但是,CT扫描通常很难且昂贵。

Balakrishnan说:“如果我们能够将X射线转换为CT扫描,那将在一定程度上改变游戏规则。” “您只需拍摄X射线,然后将其推入我们的算法中,然后查看所有丢失的信息。”

责任编辑:

相关新闻
    无相关信息