背景
传统视觉流水线把感光(CMOS sensor)和计算(GPU / NPU)分成两端, 中间靠 MIPI 之类的接口把整帧像素搬来搬去。对低功耗、低延迟、 高隐私的应用(可穿戴、医疗影像、机器人前端),这一段搬运既是 电源预算的主消耗,也是延迟的主因。
这一研究方向问的问题是:能不能让最早的一层视觉处理就发生在 像素阵列上?例如:在每个像素里嵌入一个小算子,做空间滤波 / 事件检测 / 局部直方图统计,让传感器输出"已经处理过的特征" 而不是"原始帧"。SCAMP 视觉处理器是这条线上具有代表性的工作。
想搞清楚的问题
这是 PhD 第一年的研究方向,下面列的是我希望在接下来一两年里 逐步搞清楚的问题,而不是已经做出的结论:
- 像素级并行架构里,哪些算子(卷积、形态学、统计量)值得放进像素,哪些放在后级数字处理更划算?
- 面向 CNN 早期层的算子映射有哪些可行路径?哪些已有工作可以站在肩膀上?
- 功耗与精度之间的折中曲线在主流工艺节点上长什么样?
- 从仿真到 silicon 的工程化路径里,验证哪一步最容易出错?
在读的方向
目前在熟悉的几条阅读线:
- SCAMP 系列视觉处理器:架构、指令集、典型应用
- 近传感计算 (near-sensor / in-sensor compute) 的综述与近年代表工作
- 像素级混合信号设计的功耗与噪声分析
- 面向边缘视觉的轻量 CNN 与传感端协同设计
这一页等阅读笔记成型后会逐步补成"问题 → 现有答案 → 我的观察"的结构。