基于Itti模型的视觉注意机制GUI工具箱
项目介绍
本项目是一个基于MATLAB开发的视觉注意机制仿真工具箱,完整复现了经典的Itti-Koch自底向上(Bottom-up)视觉注意模型。该模型模拟了灵长类动物视觉系统的早期处理阶段,通过模拟大脑皮层对光强、颜色和方向特征的敏感性,实现从复杂背景中自动探测并锁定显著性目标的功能。工具箱采用图形用户界面(GUI)设计,提供实时的特征图展示与动态注意转移轨迹模拟。
功能特性
- 多维度特征提取:同步提取图像中的亮度、色彩(红、绿、蓝、黄拮抗)和方向(Gabor滤波)三大视觉显著性维度特征。
- 多尺度空间分析:通过构造9层高斯金字塔,模拟视觉系统在不同空间分辨率下对目标的观察能力。
- 模拟自底向上注意机制:通过中心-四周差异算子增强图像中对比度明显的区域,利用非线性归一化模拟神经元间的竞争。
- 动态注意转移模拟:结合WTA(竞胜者全拿)和IOR(回返抑制)机制,模拟人类视觉焦点在不同显著区域间的跳转过程。
- 直观的可视化界面:分区域并行展示原始图、各维度特征图、综合显著图、最终标记图以及注意转移轨迹。
系统要求- 软件环境:MATLAB R2018b 或更高版本。
- 工具箱依赖:MATLAB Image Processing Toolbox(图像处理工具箱)。
核心功能模块与实现逻辑工具箱的运行核心由以下几个逻辑环节构成,每个步骤严格遵循Itti-Koch模型的数学定义:
1. 图像预处理与基础分量计算
系统在加载图像后,将其转化为浮点数进行处理。核心算子包括:
- 亮度提取:计算R、G、B三通道的平均值。
- 颜色通道构建:基于原图计算红色(R)、绿色(G)、蓝色(B)和黄色(Y)四个独立分量。
2. 9层高斯金字塔构造
系统为亮度、颜色和各个方向特征分别构建9层高斯金字塔。每层金字塔通过二分之一降采样获得,代表了从精细到粗略的不同空间尺度。
3. 多特征图计算
- 方向特征:在每个尺度上应用Gabor滤波器,分别提取0°、45°、90°、135°四个方向的边缘纹理特征。
- 中心-四周差异(Center-Surround Difference):选取金字塔中的中心尺度层(第2,3,4层)与四周尺度层(中心层跨度增加3或4层)进行差分计算。该方法能有效抑制大面积背景,突出局部突变区域。
4. 特征图归一化与融合
每个特征图都会经过一个特殊的归一化算子处理。该算子不仅将数值缩放到[0,1]区间,还会寻找图中局部最大值的平均值,并以此为权重对全图进行变换。这一步骤模拟了皮层内的侧抑制竞争机制:若图中仅存在少数极显著点,则该图权重增加;若图中布满噪声点,则该图权重被抑制。最后,亮度、颜色、方向三大维度的特征被合成为全局显著图。
5. 视觉注意焦点选择(WTA循环)
系统采用竞胜者全拿(Winner-Take-All)机制在显著图中寻找最大值点,将其定义为视觉焦点。根据用户设定的“注意焦点数量”,系统会循环执行探测过程。
6. 回返抑制(IOR)与轨迹生成
为了防止视觉焦点停留在最显著点不离开,系统引入了回返抑制机制。每当探测到一个焦点后,会以该点为中心产生一个高斯掩模,并在工作显著图中暂时扣除该区域的能量。这强制视觉系统转向图像中其他次显著的区域。系统会自动连接这些焦点,生成模拟人眼的视觉扫视轨迹。
关键函数与算法说明
- 加载关联:通过图像获取函数实现文件的交互式读入,并自动重置所有绘图区域,确保分析流程的独立性。
- Gabor滤波算法:利用正弦平面波与高斯核的乘积构造滤波算子,通过卷积运算模拟大脑初级视皮层(V1区)简单细胞的方位选择性。
- 中心-四周差分逻辑:通过不同层级金字塔的尺寸对齐与绝对值减法,捕捉不同空间频率下的视觉对比度变化。
- 归一化算子算法:其核心在于计算全图最大值与局部均值的差距。算法通过强化“孤立的高显著点”并削弱“处处显著”的图中信息,实现了跨模态特征的有效融合。
- 动态抑制逻辑:使用指数型衰减函数构建圆形抑制区域,通过与显著图的点乘运算实现对历史焦点的动态抑制。
使用方法- 启动程序后,点击“加载图像”按钮,在弹出的窗口中选择一张JPG、PNG或BMP格式的本地图片。
- 在控制面板中设置“注意焦点数量”(默认5个),该数值决定了视觉转移的步数。
- 设置“抑制半径”(默认40像素),该数值代表回返抑制对周围区域的影响范围。
- 点击“开始分析”按钮,系统将自动依次执行特征提取、显著图合成、轨迹追踪等计算逻辑。
- 在界面右侧和下方区域可查看分步处理结果,其中最后一栏会直观显示图像中的关键显著目标及注意转移的先后顺序。