三分钟读懂《超分辨率技术》

2022.03.25

内容概述：超分辨率技术是指从观测到的低分辨率图像重建出相应的高分辨率图像，随着深度学习技术的发展，超分辨率技术在电影、医疗影像、游戏等领域的应用，也愈发广泛。本文将深入探讨超分辨率的背景及原理，解释超分辨率的配置和训练模型。

关键词：超分辨率、插值算法、深度学习

何为图像超分辨率？

图像一般是指用有限数值表示的像素组成的数字图像。

像素是影像的一个最小的抽象取样。每个像素通常对应于空间中一个特定的“位置”，并且有一个或者多个与那个点相关的采样值组成数值。

图像分辨率是图像的大小

一般用图像纵向（高）和横向（宽）的像素数目表示

图像超分辨率，顾名思义就是放大图像的分辨率。将图像或影片从低分辨率转化为高分辨率，恢复或补足丢失的细节，往往需要用到超分辨率技术。

左图为原始图像

右图为经过AI技术修复后的高分辨率图像

现有主流的图像超分辨率的方法通常可以分为2种：基于图像插值和基于深度学习的方法

基于图像插值

插值算法是指通过在图像原有的像素周围插入新像素来加大图像的尺寸，插入像素后还要给这些像素赋值，从而恢复图像内容，达到提高图像分辨率的效果。

一、基于线性插值

常用的线性插值包括：最近邻插值、双线性插值、双三次插值。

最近邻插值

最近邻插值实现起来运算量最小，只需要直接使用离它最近的原有像素点的值，作为新像素点的值即可。但是这样没有考虑周围像素点的影响，采样后有明显的不连续性，会出现锯齿和马赛克块效应。

左图为松鼠原图，右图为像素等比例扩大1.5倍后

将左图进行最近邻插值后，出现很多锯齿和马赛克

双线性插值

双线性插值使用了相邻2x2区域的像素值，根据与新像素的距离加权求和。

双线性插值的运算过程稍稍复杂一些，克服了不连续性，但是未考虑相邻像素的相互影响，边缘会变模糊，还是会有轻微马赛克块效应。

双三次插值

双三次插值与Lanczos和双线性插值类似，只是分别使用了4x4和8x8区域的像素。

双三次插值算法更为复杂，克服了不连续性、考虑了相邻像素的影响，它输出的图像边缘比双线性插值更为平滑和精准。

总的来说，线性插值方法是在图像插值过程中采用同一种插值内核，不考虑待插像素点所处的位置，但是这种做法会使图像中的边缘变得模糊不清，达不到高清图像的视觉效果。

（Tip：图像中平坦纯色的区域叫做低频区域，图像中凹凸不平有纹理的地方叫做高频区域。边缘是高频区域和低频区域的分界。）

13线性插值对比.jpg

非线性插值方法运算更为复杂，但是图像边缘保护得更好。

二、基于非线性插值

基于边缘信息的插值算法

基于边缘信息的插值算法是对非边缘像素点采用无方向的线性插值方法进行插值，而对于边缘像素点则采用有方向的插值方法，这样做是为了保护边缘，让边缘更光滑。

基于小波系数的插值算法

基于小波系数的插值算法将图像的高、低频信息分离，单独对高频信息进行处理。若能准确地得到图像的高频细节，利用重构理论，将得到的高频与原有的低频相叠加，再通过离散小波逆变换就可以得到一幅高分辨率的图像。

基于深度学习的插值算法

基于深度学习的插值算法可以将低分辨率图像恢复出清晰的纹理，效果比之前的传统算法更好，特别是当上采率比较高的时候，传统算法不能很好的重构出所对应的高清图像，基于深度学习的算法优势明显，可以获得更好的图像恢复效果。

一般来说，我们所说的超分辨率都默认指代基于深度学习的插值算法。

线性插值和非线性插值效果的对比

基于边缘信息的算法边缘锯齿明显减少

基于深度学习

基于深度学习的超分主要利用对髙分辨率图像的先验知识和以混叠形式存在的高频信息进行复原，在视频中还会利用到相邻图像之间的互补信息。

超分利用深度神经网络通过训练，提前学习到了这些知识，训练好的深度神经网络就是超分模型。

将真实的低分辨率图像输入到训练好的超分模型中

利用模型习得的先验知识，重建图像的高频细节

从而获得较好的图像恢复效果

基于深度学习的算法步骤包括：

开始训练的时候用随机数初始化模型的权重。

将训练数据里面的低清图像输入到模型里面，正向计算得到输出重建的高清图像。

比较生成的重建高清图像和真实高清图像之间的差异，用损失函数衡量。

利用梯度下降法最小化损失函数，目的是使重建高清图像和真实高清图像尽量接近，利用梯度反向传播法更新模型的权重。

Tips：损失函数是用来评价模型的预测值和真实值不一样的程度。包括：像素损失（Pixel-wise Loss），内容损失（Perceptual Loss），纹理损失（Texture Loss），对抗损失（GAN Loss）

超分最常见的是像素损失，更强大的模型往往采用将多种损失函数相结合的方式。

通过大量数据的学习，模型的权重经过反复优化

可以得到一个训练好的超分模型

SRCNN

SRCNN是首次应用在超分上的卷积神经网络，它的网络结构非常简单，仅仅用了三个卷积层。

SRCNN 的网络结构，三个算法步骤分别为：

特征提取和表示、非线性映射、图像重建

对抗损失

对抗损失是让超分模型能够真正无中生有的生成纹理的关键。

使用对抗损失需要额外训练一个判别器模型，用来鉴别图像是真实的高分辨率图像还是超分重建的高分辨率图像。

超分模型的目标是尽可能生成更真实的图像，以此欺骗判别器，使判别器相信它们是真实的。

判别器的目标是尽可能的分辨出哪些是超分模型生成的图像。

训练过程中，超分模型和判别器模型的相互对抗和博弈，最终可以使超分模型生成逼真的图像，所以这种网络也叫生成对抗网络。

以上是使用对抗损失的一些效果

从左往右纹理的真实度和自然度都在不断的提升

帝视超分

帝视科技超分模型，使用了密集连接和残差的卷积神经网络，此外还组合了多种损失函数，能对低清画面中局部缺失信息进行精准还原。

帝视超分的效果和插值算法效果的对比

在图像纹理细节和清晰度上都有显著的提升

帝视超分针对不同的视频介质、场景和内容训练了大量的专用超分模型，视频的类型千奇百怪，单一模型无法拟合得好所有场景。而专用模型在各自的应用领域里能达到比单一通用模型更好的效果。

帝视超分步骤：

自动选择超分模型：进行视频介质分类、视频场景分类和视频内容检测（人脸检测和文字检测等）

运行超分模型，生成各部分内容的重建图像。

融合各部分内容的重建图像，得到最终的高分辨率图像。

背景超分

背景超分是一个较为通用的超分模型，对风景、建筑等常见背景的效果比较显著，擅长生成纹理细节。

单独划分以外的场景都归到这一类

文字超分

文字超分是专门应对各种文字的超分模型，可以消除锯齿，擅长处理线条边缘。

人脸超分

人脸超分擅长修复人脸五官，可以生成瞳孔、睫毛和牙齿等原来不存在的细节。

帝视科技已实现视频中最常出现的几大问题的AI算法模型，超分、去噪、插帧、去划痕等等，广泛应用于老片修复、影视、体育等领域。

帝视科技深耕人工智能与计算机视觉领域，持续引领AI视觉技术发展方向，致力于“让每位用户都能享受极致的超高清视频体验”。

添加售前客服微信

了解更多帝视科技AI算法

暂无

400-006-5266

总部热线(周一至周五9:00-18:00)

商务

bd@imperial-vision.com

招聘

hr@imperial-vision.com

行政

admin@imperial-vision.com

关于帝视

关注我们

公众号
视频号
帝视商城

集团总部：福建省福州市鼓楼区洪山园路华润万象城三期TB楼16层

三明子公司：福建省三明市尤溪县西城镇玉池村金鸡山18号

深圳分公司：深圳市宝安区新安街道67区大宝路中粮创智厂区2栋306号

香港子公司：香港湾仔湾仔道165-171号乐基中心15楼1512室

苏州子公司：江苏省苏州市相城区经济开发区澄阳路88号中亿丰大厦2层

帝视人工智能产业园：福建省福清市音西街道福俱路168号

三分钟读懂《超分辨率技术》

欢迎咨询