计算机视觉在广义上是和图像相关的技术总称,包括图像采集获取,图像压缩编码,图像存储和传输,图像合成,三维图像重建,图像增强,图像修复,图像分类和识别,图像目标检测、跟踪、表达和描述,图像特征提取,图像显示和输出等。并随着图像技术的发展,计算机视觉在各种场景下得到广泛应用。

计算机视觉

计算机视觉定义

计算机视觉是人工智能(AI)的一个领域,是指让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息,并根据该信息采取行动或提供建议。 如果说人工智能赋予计算机思考的能力,那么计算机视觉就是赋予发现、观察和理解的能力。[1](参考IBM官网定义)

计算机视觉应用

计算机视觉与人工智能

计算机视觉中的大部分理论运用了人工智能的技术。人工智能的发展离不开计算机视觉,计算机 视觉中的很多应用问题给人工智能技术提供了研究方向。人工智能在计算机视觉中最成熟的技术方向是图像识别,它实现了如何让机器理解图像中的内容。

图像处理基础

人眼成像VS计算机成像

人眼成像

总结了下,基本四步:物体光线 –> 人眼折射 –> 视网膜 –> 倒立成像[2],再通过大脑计算处理。

计算机成像

模仿人眼,若干光敏传感器获取图像信号,将获取的电压信号等转换为计算机能处理的数字形式。总结下分两个步骤:采样和量化。

图像采样与分辨率

图像采样

将空间上连续的图像变换成离散点的操作称为采样。采样是按照某种时间间隔或空间间隔,采集模拟信号的过程,即空间离散化。图像数字化的采样过程是将空间上连续的图像变化为离散的点。采样的效果由传感器的采样间隔和采样孔径决定,采样间隔和采样孔径的大小是两个很重要的参数。

图像分辨率

采样后得到离散图像的尺寸称为图像分辨率。分辨率是数字图像可辨别的最小细节。辨率由宽(width)和高(height)两个参数构成。宽表示水平方向的细节数,高表示垂直方向的细节数。如一副1920*1080分辨率的图像,表示这幅图像是由1920*1080=2073600个点组成。

采样间隔越小,所得图像像素数越多,空间分辨率高,图像质量好,但数据量大。

灰度级与灰度图像

灰度级(depth)表征了每个采样点的传感器输出中可分辨的最小变化。

灰度级通常是2的整数次幂。图像数据的灰度级越多视觉效果就越好。计算机中常用的是8位图像。如:一副8位的图像,表示每个采样点有2^8=256级,从最暗到最亮,可以分辨256个级别。

量化等级越多,所得图像层次越丰富,灰度分辨率高,图像质量好,但数据量大。下图展示了lena图的灰度级从256级依次降低到4级的图像效果。

单通道的数字图像被称为灰度图。通常,单通道记录了采样点的亮度信息,例如8位的图像,0表示最暗(黑色),255表示最亮(白色)。

彩色图像与色彩空间

RGB色彩空间

彩色图像,使用多通道数字图像。最普遍的方式是使用RGB颜色空间。RGB颜色空间中每个像素点有三个维度,分别记录在红(Red)、绿(Green)、 蓝(Blue)三原色的分量上的亮度。

注:图片来源ece.northwestern.edu

HSV色彩空间
HSV,该颜色空间可以用一个圆锥来表示。HSV表示色相(Hue)、饱和度(Saturation)和亮度 (Value)。
  • H,颜色的相位角,取值范围是0—360;
  • S,颜色的饱和度,范围从0到1,它表示成所选颜色的纯度和该颜色最大的纯度之间的比率;
  • V,色彩的明亮程度,范围从0到1;

注:图片来源ece.northwestern.edu

YUV色彩空间

YUV(YCrCb)是被欧洲电视系统所采用的一种颜色编码方法。YUV色彩空间是为了用亮度信号Y解决彩色电视机与黑白电视机的兼容问题,使黑白电视机也能接收彩色电视信号,与RGB视频信号传输相比,YUV只需占用极少的频宽。

亮度信号Y和两个色差信号R-Y、B-Y,最后发送端将亮度和色差三个信号分别进行编码。采用YUV色彩空间的重要性是它的亮度信号Y和色度信号U、V是分 离的。如果只有Y信号分量而没有U、V分量,那么这样表示的图就是黑白灰度图。

CMYK

CMYK颜色空间应用于印刷工业,印刷业通过青(C)、品(M)、黄(Y)、黑(BK) 四色油墨的不同网点面积率的叠印来表现丰富多彩的颜色和阶调。

Lab

Lab的色彩空间要比RGB模式和CMYK模式的色彩空间大,自然界中任何一点 色都可以在Lab空间中表达出来。

颜色空间变化

在计算机视觉中,尤其是颜色识别相关的算法设计中,各种颜色空间混合使用是常见的方法。RGB、HSV、YUV等常见颜色空间可以通过计算公式实现相互转化,这个过程叫做颜色空间变化。颜色变换的计算公式比较复杂,通常图像处理库会提供颜色空间变化的API给用户调用。

常用图像处理技术