格式塔理论¶

Info

这些理论，当时提出来的时候，只是 observation，并没有解剖学上的解释

格式塔理论有 6 点：

Law of Proximity

人眼趋向于把相近的东西 perceive 成“一组”来进行 inference

Law of Similarity

人们趋向于把长得像的东西 perceive 成“一组”来进行 inference

Law of Good Continuation

人们趋向于把连续的东西 perceive 成“一组”来进行 inference

比如说，人们不会把下面这个东西当成上面一个 V 字形，下面一个倒 V 字形+两个圆圈，而是当成两把钥匙

Law of Closure

人们在 perceive 的时候，会“自动补全”——把轮廓线补全，忽略 gap

Law of Goodform

人们在 perceive 的时候，会尽量在分组的时候，让每一组都是 "goodform"

比如，分组的时候，就不会分成中间一个三角形和两边的奇怪多边形，而是分成一个三角形和一个正方形

Law of Figure/Ground

人们在 perceive 的时候，依靠背景和前景的反差，来把前景 segment 出来

Human Vision vs Computer Vision: Example 1

如下图，使用 VLM，那么两张都被识别为 pit/crater；但是对于人眼而言，第二章就是 hill

Human Vision vs Computer Vision: Example 2

如下图，如果近看，那么 Einstein 的轮廓线就会成为 foreground，而 Monroe 以及黑色背景就是 background；如果远看，由于 Einstein 的轮廓线太淡了看不清，因此 Monroe 就是 foreground，而黑色背景是 background。

以及自行车 vs 摩托车

人类视觉特性¶

两大特性：选择性、整体性

人类视觉的选择性

这是指观察者的注意力总是有目的地指向他最感兴趣的事物。一般生物最注意的是环境中时常变化的事物，忽略固定不变的事物。因为这样就可以迅速辨别出什么是对自己有益的，什么是对自己有害的。从而作出攫取或躲避反应。

人类视觉的整体性

人类具有对图像数据进行组织归纳的能力，也就是在多个层次上发现图像数据的规则性（regularity）、一致性（Coherence）、连续性（Continuity）等整体特性的能力。