为什么放到边缘
把推理拉到设备端有三个明显好处:延迟(无需往返云端)、 隐私(数据不出设备)、可用性(断网也能用)。 代价是模型必须小、计算必须省。这条方向的核心问题是怎么把这个代价压到可接受。
典型应用场景包括可穿戴视觉、家居监控、机器人前端的视觉前置等。 如果传感端能再分担一部分计算(参见 并行像素阵列), 算法侧的压力还可以更小。
关注的子方向
下面是当前在熟悉的几条线,会随着阅读和实验逐步整理成笔记:
- 量化方法对比:PTQ vs QAT,INT8 / INT4 / 混合精度
- 稀疏化策略:结构化 vs 非结构化剪枝、动态稀疏
- 蒸馏与多教师融合
- 部署:TFLite / ONNX Runtime / Apple CoreML 在常见嵌入式平台上的实际表现
想搞清楚的权衡
这一段计划整理成"精度 × 延迟 × 功耗"的三轴权衡, 方法是先把几款实际硬件上的实测结果跑出来,再回头看哪条经验法则 真的成立、哪条只是直觉。目前还在搭实验环境,结果到位之前不放数字。