格式塔理论¶
Info
这些理论,当时提出来的时候,只是 observation,并没有解剖学上的解释
格式塔理论有 6 点:
- Law of Proximity
- Law of Similarity
- Law of Good Continuation
- Law of Closure
- Law of Prägnanz (goodform)
- Law of Figure/Ground
Law of Proximity
人眼趋向于把相近的东西 perceive 成“一组”来进行 inference
Law of Similarity
人们趋向于把长得像的东西 perceive 成“一组”来进行 inference
Law of Good Continuation
人们趋向于把连续的东西 perceive 成“一组”来进行 inference
比如说,人们不会把下面这个东西当成上面一个 V 字形,下面一个倒 V 字形+两个圆圈,而是当成两把钥匙
Law of Closure
人们在 perceive 的时候,会“自动补全”——把轮廓线补全,忽略 gap
Law of Goodform
人们在 perceive 的时候,会尽量在分组的时候,让每一组都是 "goodform"
比如,分组的时候,就不会分成中间一个三角形和两边的奇怪多边形,而是分成一个三角形和一个正方形
Law of Figure/Ground
人们在 perceive 的时候,依靠背景和前景的反差,来把前景 segment 出来
Human Vision vs Computer Vision: Example 1
如下图,使用 VLM,那么两张都被识别为 pit/crater;但是对于人眼而言,第二章就是 hill
Human Vision vs Computer Vision: Example 2
如下图,如果近看,那么 Einstein 的轮廓线就会成为 foreground,而 Monroe 以及黑色背景就是 background;如果远看,由于 Einstein 的轮廓线太淡了看不清,因此 Monroe 就是 foreground,而黑色背景是 background。
以及自行车 vs 摩托车
人类视觉特性¶
两大特性:选择性、整体性
人类视觉的选择性
- 这是指观察者的注意力总是有目的地指向他最感兴趣的事物。一般生物最注意的是环境中时常变化的事物,忽略固定不变的事物。因为这样就可以迅速辨别出什么是对自己有益的,什么是对自己有害的。从而作出攫取或躲避反应。
人类视觉的整体性
- 人类具有对图像数据进行组织归纳的能力,也就是在多个层次上发现图像数据的规则性(regularity)、一致性(Coherence)、连续性(Continuity)等整体特性的能力。