火车到站:利用神经网络技术将经典电影提升到21世纪的4K高清水平

新知榜官方账号

2023-11-12 18:33:22

《火车到站》是电影史上最著名的电影之一。该片由法国导演奥古斯特和路易·卢米埃拍摄,在当时达到了前所未有的质量水平。今天,卢米埃尔兄弟的杰作看起来充满颗粒状,浑浊,破旧。但一个名叫DenisShiryaev的大神利用神经网络技术,将这部经典电影提升到21世纪的4K高清水平。这个升级版的视频让以前的世界变得栩栩如生,火车的细节、衣着和乘客面部的模糊细节也清晰可见。

1895年的电影《火车进站》1895年拍摄的这部老电影采用了35mm格式胶片制作,由于当时的放映机由手摇进行驱动,其原始帧率大概在16帧到24帧之间。而且当时的胶片技术尚未成熟,我们可以看到画面景物都是比较模糊的。但经过了神经网络的画面分辨率增强和插帧之后,这部老电影获得了4k~60fps的画质。

画面分辨率增强将老电影秒变4K高清,Shiryaev又是怎么做到的呢?实际上,他使用了GigapixelAI的商业图像编辑软件,该软件内嵌专有的插值算法,可以将图像放大600%,在分析图像的同时还能识别图像的细节和结构。我们知道图像是由一格一格的像素组成的,单位英寸中所包含的像素点数越高,自然画面会更加清晰。普通高清是1920×1080,总像素为2073600,而4K高清是3840×2160,总像素为8294400,因此只是把普通图像提升到4K高清,就需要额外补充600万个像素。因此这里就需要插值算法,它基于周边的像素来计算新像素,通常的方法有最近邻、双线性插值、双三次插值。最近邻方法是利用与它们的最近邻相同的颜色填充空白像素,它虽然简单而有效,但会产生锯齿状、明显像素化的图像。双线性插值需要更多的处理能力,但它可以根据最近的两个像素来分析空白像素,并在它们之间产生梯度,从而使图像更加清晰。双三次插值从其16个最近邻像素进行采样。与原始图像相比,通过结合双线性和双三次插值的结果,图像可以准确着色,但仍然模糊。而这一过程,由GigapixelAI利用深度卷积神经网络来完成。正如它的产品页面介绍的那样,它运用了神经网络,对成千上万对照片进行分析,来了解图片细节是如何丢失的,算法会根据所学的知识在新图像中填充信息,有效为照片添加新细节。一般来说,神经网络生成细节是人像生成网站和类似生成对抗网络所使用的技术。当向神经网络显示一张人脸的低分辨率图像时,它会识别出这是一张脸,并向图像中的眼睛、鼻子和嘴巴填充正确的细节,让图片更加清晰。正因为如此,原始胶片才会充满栩栩如生的细节。

视频插帧解决了像素低的问题,还需要解决视频卡顿问题,因此Shiryaev还使用了DAIN(Depth-AwareVideoFrameInterpolation)这个软件,它可以对电影中的帧进行预测,然后插入视频中。为了让老电影放映效果达到与4K同样的效果,Shiryaev将足够多的图像添加到电影中,而DAIN每秒会自动生成36个图像添加到电影中。

为电影上色受Shiryaev视频的启发,有网友将他的视频中的一帧放到安卓的彩色图像应用程序中,来自动给图像着色。同样是利用神经网络,从一堆彩色照片开始,将它们转换成黑白照片,然后训练一个神经网络来重建颜色原稿。可以看到树木是绿色的,砂石是棕色的,旁边一路人的外套是黑色的。

AI助力视频修复去年,英伟达发布了一个叫SuperSloMo的神经网络,它能从普通的视频“脑补”出高帧率的画面,从30fps插帧到240fps,即使放慢8倍也不会感到卡顿。这个项目使用深度神经网络,对视频中缺失的帧进行预测并补全,从而生成连续慢速回放的效果。除此外,还能排除原视频中被遮挡的像素,从而避免在生成的内插中间帧里产生模糊的伪象。该论文的第一作者是本硕毕业于西安交通大学、现在在马萨诸塞大学阿默斯特分校读博士的HuaizuJiang。第二作者DeqingSun是英伟达学习与感知研究小组的高级研究员。论文发布时并没有将代码和数据集公开,于是有人在Github上开源了他对SuperSloMo的PyTorch实现,地址:https://github.com/avinashpaliwal/Super-SloMo有兴趣就试一试吧!

本页网址:https://www.xinzhibang.net/article_detail-19808.html

寻求报道,请 点击这里 微信扫码咨询

关键词

火车到站 神经网络技术 4K高清

分享至微信: 微信扫码阅读

相关工具

相关文章

相关快讯