第一章 绪论
视频图像处理的概念
视频是一组图像在时间轴上的有序排列,是二维图像在一维时间轴上构成的图像序列,又称动态图像、活动图像、运动图像。不止包含了静止图像的内容,还包含了目标的运动信息和客观世界随时间变化的信息。
序列>帧>像素
视频图像处理系统的组成
- 图像采集
- 图像显示
- 图像存储
- 图像通信
- 图像处理和分析
图像处理和分析:
- 图像变换
- 图像编码压缩
- 图像增强复原
- 图像分割
- 图像理解和识别
第二章 视频图象的表示
图像的基本概念
- 光通量:光源辐射出来的光功率,单位流明(lm)
- 照度:单位面积上的光通量,单位勒克斯(lx,$1ls=1lm/m^2$)
- 亮度:观察者感觉光的量度,有主观性,又称辉度
- 视敏度:人眼对不同波长可见光的敏感程度
- 亮度适应级:一定条件下,人眼的亮度适应区间
分辨率
- 图像分辨率
图像中存储的信息,单位像素/英寸(pixel per inch, ppi) - 显示分辨率
构成画面像素点的多少,用宽高像素*像素表示 - 打印分辨率
又叫输出分辨率,决定打印机打印的惊喜程度,单位点/英寸(dot per inch, dpi)
人眼的视觉特性
||锥状细胞|柱状细胞|
|-
|结构|一个细胞连一个神经末梢|几个细胞连一个神经末梢
|功能|感光/感色,区分细节|感光,提供整体形象|
|作用时间|强光下、白天|弱光下、黑夜|
|视觉|亮视觉|暗视觉|
锥状细胞分为红敏、绿敏、蓝敏。
三基色原理。
影响人眼分辨力的因素:环境照度、景物相对对比度、被观察物体的距离和运动状态
- 人眼对亮度响应有非线性特性,对灰度误差不敏感
- 人眼对亮度信号的空间分辨率大于对色度信号的空间分辨率
- 人眼容易感觉到边缘位置的变化,而对于边缘部分的灰度误差不敏感
- 时间域的掩蔽效应,当视频图像序列中相邻画面的变化剧烈(如场景切换)时,人眼的分辨率会突然剧烈的下降
- 视觉惰性,人眼的亮度感觉总是滞后于实际亮度,视觉暂留
- 闪烁感觉,周期性光脉冲频率高到一定程度后人眼无法区分
颜色模型
||RGB|HSI|YUV|
|-
|主要用于|计算机显示器|描述人眼的视觉特性|电视信号,彩色兼容黑白|
|说明|分别表示红绿蓝三色的分解采样量|色调H,饱和度S,密度I(对应亮度和灰度)|亮度Y,色度U、V
真彩色:每个像素值都用三基色分量描述
伪彩色:每个像素颜色采用颜色查找表表现
直接色:每个像素点的RGB值分别用查找表表现
图像的数字化
视频图象数字化两种方法:
- 复合编码:先数字化再分离
先用高速模/数转换器对模拟视频(彩色全电视信号)进行数字化,再在数字域中分离 - 分量编码:先分离再数字化
从模拟视频(彩色电视信号)中分离出彩色分量的亮度和色度,得到YUV或YIQ分量,再用3个模/数转换器对3个分量分别数字化
采样方式:隔行采样
图像量化
- 有记忆量化和无记忆量化:取样点是否独立
- 均匀量化和非均匀量化:量化步长是否一致
- 标量量化和矢量量化:
标量量化:一维量化,所有取样使用同一个量化器进行量化,每个取样的量化都和其他所有取样无关(无记忆量化),常用均方误差量化器
矢量量化:多维量化,先将K个取样值序列形成K维空间中的一个矢量,然后将此矢量进行量化
非均匀量化:
- 基于人的视觉特性特点,对于亮度值急剧变化的部分,粗量化;对亮度值变化比较平缓的部分,细量化。
- 计算所有可能的亮度值出现的概率分布,对于出现概率大的那些亮度值,细量化;对于出现概率小的那些亮度值,粗量化
非均匀采样:在细节多区域采样密,在平滑区域采样少
空间分辨率:图像的大小,空间分辨率=最大行数*每行的最大像素数。
灰度分辨率:一个像素值单位幅度上包含的灰度级,用一个字节存储一个像素值,则灰度级数为256
图像格式
||矢量图形|位图图像|
|-
|定义|图形,指用一组绘图指令描述和记录的各种图形,包括直线、弧线、圆、矩形的大小形状等|图像,由一组计算机内存位组成,这些位定义了图像中每个像素点的亮度和颜色|
|文件内容|图形指令|图像点阵数据|
|生成|相应软件生成|用绘图软件生成;用彩色扫描仪扫描二维图片;用摄像机以及帧捕获设备获得数字化画面|
|所需磁盘空间|小|大|
|常用格式|WHF、DRW、CDR、DXF、EPS、FLI、FLC、CGM等|BMP、PCX、GIF、TIFF|
第三章 图像变换
傅里叶变换 FT
离散傅里叶变换 DFT
快速傅里叶变换 FFT (掌握)
离散余弦变换 DCT
K-L变换
均方误差(MSE)意义下的最佳变换。
连续小波变换 CWT
小波变换:把一个信号分解为将基本小波经过缩放和平移之后的一系列小波
小波变换
第六章 视频图像分割
视频图像分割的相关概念
从语义信息分析,视频由大量场景组成的,每个场景由一个或多个镜头组成,镜头由一系列的帧组成的。
视频对象分割:把视频序列中(一个镜头)人们感兴趣的或具有某种重要特性的一个或多个视频对象从视频场景中提取出来。
同一视频对象具有相似的属性,如亮度、色彩、纹理及运动特征等。
一个视频对象是指视频图像序列中的同一个物理对象。位于一个图像中的视频对象称为一个视频对象区。
为了表示用户感兴趣的区域 ,MPEG-4标准提出了视频对象的概念,其编码是基于对象的,由此,对比特率控制可以基于对象。为了实现高效压缩,每个视频对象用三类信息来描述:运动信息、形状信息、纹理信息,再根据这些信息完成视频的编码和解码。
视频分割基本理论
按照是否需要人工参与分:自动方式、半自动方式
按照视频分割过程中利用的信息分:
- 时域分割算法用来检测和分割物体的运动边缘;
- 空间域分割算法利用特定的判决原则将图像分割成区域集合;
- 时空联合分割算法结合了时域分割和空间域分割的优点。
按照是否提供压缩形式分:压缩域分割、非压缩域分割
按照用途分:用于视频压缩编码、用于内容交互多媒体应用
视频分割技术
空间域分割
视频帧内的分割,即图像分割,将图像分割为有意义的区域集合,这些区域之间通常具有明显的边界。
基于空间域的分割技术主要有:
- 基于灰度的空域分割;
- 基于区域的空域分割;
- 基于边缘的空域分割;
- 基于纹理的空域分割等
- 分水岭算法:基于数学形态学的图像分割算法
区域生长(Region Growing)(掌握)
将具有相似性质的像素集合起来构成区域
区域生长法的关键:
- 选择或确定一组能正确代表所需区域的种子像素;
- 确定在生长过程中能将相邻像素包括进来的准则;
- 制定让生长过程停止的条件或规则
常见区域生长算法种类:
- 以单像素为单位的区域生长法
- 以区域为单位的区域生长法(子图合并)
时间域分割技术
帧间差分的变化检测
时域中检测运动对象的基本方法,采用帧间差分法可消除视频数据的帧间冗余信息,提取变化检测掩模(Change Detection Mask)。
基本原理:通过检测前、后帧之间的帧差,从而把当前视频分割成相对于参考帧“变化的”和“未变化的”区域。
前后帧的偏移帧差:
$$d_{k,k+1}(x,y)=|f_{k+1}(x,y)-f_k(x,y)|$$
局限性:
- 阈值选取至关重要的,无通用阈值设定方法;
- 对某些视频序列无能为力的,如纹理不够充分、某些帧对象存在运动而另外一些帧没有运动;
- 对于对象间的相互遮挡区、显露区的判断是直接用亮度信号估算参数;
- 差分检测受噪声影响不敏感,还受运动估算精度的影响
块匹配的运动估计
基于对时间图像序列变化的检测。
运动物体特征:检测图像变化,可以在不同的层次上进行,如像素、边缘或区域
二维运动估计:估计运动前后相邻时刻两幅图像上对应点的坐标,以获取二维运动矢量。假设物体点的亮度在此运动和时间间隔保持不变。
几种匹配准则:
- 最大互相关函数
- 最小均方误差函数(MSE)
- 最小平均绝对差值函数(MAD)
- 最大匹配像素统计(MPC)
光流法
运动场:给图像中每一像素点赋予一个速度向量,就形成了图像运动场(motion field),对应于物体的三维运动
光流定义:视频序列空间坐标关于时间的变化率,对应于像素的瞬时速度矢量,也是运动物体在一帧图像到下一帧图像相对应像素点间的位移量
光流:图像亮度模式的表观(视在)运动,“可察觉”的二维运动,依赖于光照条件和物体表面的纹理。假设光流就是真实的二维运动,估算二维运动矢量。