杨净 发自 凹非寺量子位 报道 | 公众号 QbitAI
小时刻,有没有玩过一个叫做立体图游戏。
就是那种给你一张二维图,让你看图背后有啥器材。
好比,像这张图。
这实际上是一张六角星。
在好比这张。
实际上是一个女人在画口红。
好吧!真·眼睛看瞎还看不出是甚么器材。
而今,如许一小我都看不懂的图,AI可以看懂了。
来自密歇根大年夜学、网易伏羲AI尝试室、北航的团队配合研发了一款AI项目——Neural Magic Eye,就专门从2D图象中辨认3D物体来。
还可所以动图的那种。
AI是若何做到的?先来一睹为快吧。
主动立体图的生成道理
简单来讲,颠末历程演习一个深度卷积神经收集(CNN),以自看管进修的体式格局对大年夜型3D对象数据集进行充分演习,即可让AI很好的是辨认出2D纹应傍边的3D立体图。
演习AI之前,先得体会一下主动立体图的生成道理。
主动立体图其实与通俗立体图差不多,只是它们是在没有3D眼镜的环境下旁不雅的。
3D眼镜从稍微分歧的角度向左眼和右眼显现同一物体的二维图象,使我们可以或许颠末历程双目不同重建原始物体。
当以适合的视野旁不雅时,主动立体图也是如此,双眼不同存在于反复2D图案的相邻部分。反复图案之间的距离决意了立体影象的远近。
遵照如许的道理,给定一个3D图象和一个条纹图案,即可以分娩主动立体图了。
起首,将条纹平铺到布满全部输出图象。然后,扫描输出图象中的每一个像素,并按照所需的距离遵照程度轴移动。
判定出反复2D图案之间的距离,正是此次AI演习的关头。
AI是若何做到的?
简单概述,本次演习方式主要包孕三个根基模块。
1、图形衬着器GR,从三维物体模子中衬着深度图象。
给定一组3D物体模子(如3D网格),引入一个图形衬着器GR。
2、主动立体生成器GA。
对深度进行编码并合成主动立体图。
3、解码收集,恢复深度。
最近几年来,深度CNN被普遍利用于像素猜测义务中,本文则是将收集被演习为进修从像素到差距的映照。但在这类环境下,大年夜多半图象区域将失落去空间对应关系。
为体会决这个问题,本文提出了“不同卷积”的方式。
根基思惟是较量争论出每一个特点图中的特点向量与其程度邻域,并将其值留存到响应的特点通道中。
就像如许。
为了加速较量争论速度,可先将特点图沿其程度轴进行圆周移动,然后用其输入进行元素减法。
与标准卷积层比拟,不同卷积不会引入任何额外的参数。
本次解码收集连络了两种流行的收集架构,resnet18和unet。在这两种收集的输入端插入了一个不同卷积层和ReLU层,在不同卷积层中,研究团队将最大年夜移位距离设置为输入图象高度的1/4。
随后,研究人员在ShapeNetCore演习解码收集——一个大年夜型3D外形数据集,涵盖了55个常见的对象类别,个中有逾越50000个怪异的3D模子,并随机将数据集拆分为一个演习集(90%)和一个测试集(10%)。
别的,团队还在线搜集了718张2D纹理图 (585张用于演习,133张用于测试),用于主动立体图的生成。
在解码精度的定量较量中,本文供应的方式显现出了很好的后果。
北航校友又一新作
本次项目来自密歇根大年夜学、网易伏羲AI尝试室、北航配合完成。
个中第一作者是邹征夏,今朝在密歇根大年夜学做博士后研究,他曾于2013年和2018年划分获得北航学士和博士学位。
研究标的目标是较量争论机视觉及其在遥感,主动驾驶汽车和视频游戏中的利用。
在北航进修时期,他曾获北航优异博士论文奖,北航十佳博士研究生、北京市优异卒业生,师从史振威传授。
前不久,他打造的SkyAR,打造片子级别的「天空之城」,在AI圈儿里激起了不小的颤抖。
还有美术生都跪拜的AI,分分钟将照片酿成艺术画。
One More Thing
最后,分享一个小Tips。
连AI都可以辨认出立体图,我们人可不克不及输!
起首,放松眼睛肌肉。
然后,让左眼看到左上方的点、右眼看到右上方的点。
最后,渐渐调剂视角。
当你能在图象的顶部看到三个点后,再渐渐地调剂眼睛焦距,你将会看到图象里面的3D物体。
来尝尝手吧!
So,这张图是啥?(手动狗头)
论文地址:https://arxiv.org/pdf/2012.15692.pdf
项目地址:https://jiupinjia.github.io/neuralmagiceye/
GitHub网址:https://github.com/jiupinjia/neural-magic-eye
参考链接:http://www-personal.umich.edu/~zzhengxi/https://levir.buaa.edu.cn/news_events_cn.htm