MIT researchers have developed a model that recovers valuable data lost from images and video that have been “collapsed” into lower dimensions.
该模型可用于从运动模糊图像重建的视频,或者新类型的捕捉一个人的运动周围的角落,但只是作为含糊一维的线摄像机。同时,还需要更多的测试,研究人员认为这种方法可能有一天可以用来2D医学图像转换成更多的信息 - 但更昂贵 - 三维人体扫描,这可能在贫穷的国家受益医疗成像。
“在所有这些情况下,可视化数据具有一名维 - 时间或空间 - 这是完全丧失,”古哈维文,在计算机科学和人工智能实验室(CSAIL),并在论文的第一作者博士后描述模型,说这在计算机视觉下周的国际会议上被提出。 “如果我们恢复失去的尺寸,它可以有很多重要的应用。”
捕获的视频数据常常崩溃的时间和空间的多个维度的数据转换成一维或二维,称为“突起”。x射线,例如,关闭关于解剖结构的三维数据为平坦图像。或者,考虑的星星在天空中移动的长曝光拍摄:星星,它的位置随时间变化的,出现在仍投篮不作为模糊的条纹。
同样,“角落相机”最近发明了在澳门太阳城最新网站,侦测移动在角落的人。这些可能是,比方说有用,消防队员发现人们燃烧的建筑物。但相机是不完全的用户友好。目前他们只产生类似于模糊,波浪线,对应于人的轨迹和速度的预测。
The researchers invented a “visual deprojection” model that uses a neural network to “learn” patterns that match low-dimensional projections to their original high-dimensional images and videos. Given new projections, the model uses what it’s learned to recreate all the 要么iginal data from a projection.
在实验中,模型合成的准确的视频帧表示人行走,通过提取从单一的,一维线类似于由角摄像机所产生的信息。该模型还回收从数字绕屏幕移动单,运动模糊的突起的视频帧,从流行 移动MNIST 数据集。
Joining Balakrishnan on the paper are: Amy Zhao, a graduate student in the Department of Electrical Engineering and Computer Science (EECS) and CSAIL; EECS profess要么s 约翰·加塔, FREDO杜兰德, and William T. Freeman; and Adrian Dalca, a faculty member in radiology at Harvard Medical School.
在像素线索
The w要么k started as a “cool inversion problem” to recreate movement that causes motion blur in long-exposure photography, Balakrishnan says. In a projection’s pixels there exist some clues about the high-dimensional source.
数码相机拍摄的长曝光拍摄,例如,将基本骨料光子超过上的每个像素的一段时间。在随着时间的推移捕获对象的运动,相机将采取的运动捕获的像素的平均值。然后,它适用那些平均值对应的高度和静止图像,创建对象的轨迹的签名模糊条纹的宽度。通过计算像素强度一些变型中,该运动可以在理论上被重新创建。
作为研究人员意识到,这一问题是在许多领域相关:x射线,例如,捕获高度,宽度和解剖结构的深度信息,但是它们使用类似的像素平均技术塌陷深度成2D图像。角落相机 - 弗里曼,杜兰德,和其他研究人员在2017年发明了 - 捕捉反射周围隐藏的画面光信号携带一个人的墙壁和物体距离的二维信息。像素平均技术然后折叠该数据转换成一维视频 - 在一个单一的线路长度不同随时间的基本上,测量。
The researchers built a general model, based on a convolutional neural network (CNN) — a machine-learning model that’s become a powerhouse f要么 image-processing tasks — that captures clues about any lost dimension in averaged pixels.
合成信号
在训练中,研究人员供给的CNN数千对凸起和它们的高维的来源,被称为“信号”。的的CNN获悉在匹配在信号使突起像素图案。供电的CNN是一个叫做框架“变自动编码器”,它评估CNN输出如何过一些统计概率匹配其输入。从该模型学习一个可能已经产生给定的投影的所有可能的信号的“空间”。这造成的,在本质上,如何从投影到所有可能的匹配信号的类型蓝图。
Internal Server Err要么
The server encountered an internal error and was unable to complete your request. Either the server is overloaded or there is an err要么 in the application.
对于一个实验中,研究人员收集的走在指定区域的30人35个视频的数据集。他们崩溃所有帧到他们用来训练和测试的模型预测。从保持出一套六个看不见的预测,模型准确地重建了人的步态的24帧,下到自己的腿和人的大小的位置,因为他们朝向或远离相机走去。该模式似乎学习,例如,这是变暗和更广泛的使用时间可能像素对应于一个人走更接近摄像机。
“It’s almost like magic that we’re able to recover this detail,” Balakrishnan says.
研究人员没有在医学图像测试他们的模型。但是它们现在康奈尔大学的同事合作,以恢复从2D医学图像,如X射线,不增加成本的3D解剖信息 - 这可以在贫穷的国家使更详细的医学成像。医生大多喜欢3D扫描,如与CT扫描拍摄的,因为它们含有有用得多的医疗信息。但CT扫描一般是困难和昂贵的收购。
“If we can convert X-rays to CT scans, that would be somewhat game-changing,” Balakrishnan says. “You could just take an X-ray and push it through our algorithm and see all the lost inf要么mation.”