把**“人眼/视觉系统”按从前端硬件(眼球)→后端处理(视网膜+视神经+脑)**拆开来的“功能能力清单”。
严格说:一部分是眼球本身的功能,很大一部分是“眼+脑”组合能力;对应到“摄像头到底能不能复刻”。
1)眼球作为“光学采集器”的基本功能
- 自动对焦(动态变焦):睫状肌调晶状体曲率,让不同距离目标成像在视网膜上(带一定滞后/像差)。
- 光圈自动调节(瞳孔对光/对认知状态反应):强光缩瞳、弱光扩瞳(还有情绪/注意力相关成分)。
- 像差形成与部分被动校正:角膜+晶状体组合、非球面、梯度折射率大致抑制球差/彗差,但不完美。
- 光谱选择入口(色滤波前置):晶状体会吸收部分短波(UV被挡掉),形成人眼“可见光谱窗口”。
- 物理屏障与保护:眼睑、泪膜、角膜上皮、眨眼清洁、反射性闭眼/瞬目保护机制。
2)视网膜(光电转换层)的核心“传感能力”
- 明视觉/锥细胞通道(细节+色):三类L/M/S锥体负责彩色与高分辨中心视觉(主要集中在黄斑/中央凹)。
- 暗视觉/杆细胞通道(夜视/高灵敏):无色彩信息,但对极低光子更敏感(主要在外周)。
- 空间采样不均匀(中心 vs 周边):中央凹分辨率极高,越往周边越稀疏——你会“扫视”来弥补。
- 时间响应分通道:有“持续型/瞬态型”通路分工(大致对应你能看到慢变化 vs 快速变化)。
- 局部自适应预处理(视网膜级):侧抑制/周边抑制带来边缘增强(类似“看起来更锐”的轮廓效应)。
- 动态范围极宽(但瞬时窗口有限):从星光到烈日,靠的是可变的灵敏度状态+多通道拼接,而不是同一瞬间线性覆盖全部。
- 对运动的局部检测(视网膜层面):视网膜神经节细胞里已有方向/变化选择性雏形(可理解为“早期运动线索”)。
3)“适应/校准”能力(让眼睛能在极端光环境下工作)
- 明适应/暗适应:进入亮处或暗处后敏感度随时间重新标定(暗适应需要更久)。
- 局部亮度适应(同时对比):同一画面里,不同区域会按周围亮度各自“自动调基准”,所以你会觉得阴影里细节还能看。
- 色适应/白平衡(整体):在不同光源下你仍能把白纸“看成白的”(色貌恒常性的前端来源之一)。
4)眼动与“采样策略”(这是人眼跟普通摄像头最不一样的地方)
- 快速跳转注视(扫视/saccades):眼球高速跳到新兴趣点,中间视觉被大幅抑制(你感觉不到“运动模糊的跳跃”)。
- 中央凹锁定(固视):把最高分辨的小区域对准你要细看的目标。
- 平滑追踪(smooth pursuit):眼睛跟着运动目标平稳走(不是纯跳)。
- 前庭-眼反射(VOR):头转动时眼球反向转,保持世界在视网膜上相对稳定(稳定像)。
- 微眼动/微颤(microsaccades等):极小抖动防止感光细胞“适应锁死”,让你能持续看清纹理细节(这点常被低估)。
- 眨眼/瞬目节律:保湿同时也会短暂中断输入(大脑会“插值缝合”)。
5)“看距离/三维”这件事的能力集合(深度并非单一传感器指标)
- 双眼视差(stereopsis):两眼图像微小错位 → 脑算近距离深度(最强在几米内,随距离衰减)。
- 辐凑/聚散(vergence):看着近处时两眼向内转,这个“转动量/肌肉信号”也给距离信息(并与调节耦合)。
- 调节线索(accommodation):晶状体对焦距离给一定的“我在看多远”线索(尤其在很近时更明显)。
- 单眼/伪深度线索(哪怕一只眼也能估距):
- 遮挡、相对大小、透视收敛、纹理梯度
- 已知物体大小( familiar size)
- 运动视差(你自己动,远近物体漂移速度不同)
- 景深线索(模糊梯度):离焦模糊的分布变化也能被解读为深度信息(尤其近距)。
- 头/身体运动带来的时变几何:人会下意识轻微摆头/移步来获取更多约束(“主动视觉”)。
换句话说:“看距离”对人来说不是单一指标,是“多线索融合 + 主动采样 + 经验先验”。
6)感知层面的“高级能力”(已经主要是脑,但属于“人眼系统输出你怎么用”)
- 边缘/轮廓提取与组织(格式塔式分组倾向):把碎片连成形状、表面、边界。
- 颜色恒常性与材质判断:把“光照变了”和“物体本身颜色/反光变了”拆开(近似但不完美)。
- 运动解析与预测:不光看到动,还能预判轨迹(抓飞盘那种)。
- 注意力引导(显著性):复杂场景里快速把资源压到“重要区”(再配合眼动去盯)。
- 缺损插值/填充(盲点补偿、轮廓补全):视神经出口没感光器,但你几乎感受不到盲点(脑在补)。
- 时间整合/去抖动(感知平滑):把离散采样缝成连续体验(你看到的“电影”很大程度是脑造的)。
- 情境化识别(语义闭环):看到“半遮住杯子”仍认成杯子;这不是光学的,是视觉系统的终极能力。
7)也要列一下:人眼“不强”的地方(方便对标摄像头别神话它)
- 空间分辨率只在中央一小块:周边很糊(你以为全高清,是因为你在不断扫)。
- 瞬时宽容度没你想象那么神:看向亮窗再转回暗处会暂时“瞎一会儿”( adaptation lag)。
- 运动期间并不是一直采样:扫视时会压制输入,靠预测补全。
- 绝对精度不靠“像素”:深度与尺寸判断会受错觉、语境、先验影响。
下一步把它翻译成“摄像头对标表”
- “看远近/深度”(要避障、建模、还是测距读数?)
- 还是**“动态范围/明暗/运动不清”**(像视网膜抗过曝、耐高速)
- “颜色/材质/白平衡像人”
目标场景(例如:机器人行走/手势交互/户外车/显微镜/AR眼镜),逐项对应成:现有传感器能否复刻、用什么方案、哪里仍需脑(AI)补。