GK7206V1:从AI ISP到芯片,一颗百元级深度学习降噪芯片的诞生(下)

发布时间:2026/7/4 4:01:51

GK7206V1:从AI ISP到芯片,一颗百元级深度学习降噪芯片的诞生(下) 上篇讲了AI ISP为什么要在Bayer Raw域做降噪、为什么深度学习能解决传统算法无法逾越的噪声/信号分离问题。两条线索汇在一起指向同一个命题这些理论怎么变成一颗能跑在摄像头上、能在暗光下输出彩色画面、每帧不超过66毫秒的芯片。这篇我们从芯片工程的角度把这颗GK7206V1拆开看。一、一颗芯片的工程约束学术论文里的降噪网络GPU服务器上跑单帧推理几百毫秒不是问题参数量几百兆也不是事。但IPC芯片面对的是完全不在一个维度上的约束体系。算力池。 GK7206V1的NPU总算力1.0TINT8降噪和检测共享这一池。AI_NR如果吃掉0.8T检测模型就无算力可用——降噪不能把AI检测的活路堵死。所以AI_NR的算力消耗是硬线0.5T不多不少[1]。实时性。 视频流不是单帧照片。4M15fps意味着每帧只有66ms。降噪只是Pipeline的一环——后面还有3DNR、WDR、Demosaic、编码。AI_NR的单帧推理必须控制在30-40ms以内超了就堵死全链路[2]。模型轻量化。 U-Net在端侧NPU上推理延迟破百毫秒直接部署不现实。但小模型从头训练数据又不够。解法是大模型蒸馏小模型微调Teacher在云端用海量数据学会噪声分布将知识浓缩后教给StudentStudent再用目标Sensor的少量数据微调继承大模型能力但体积极小[2]。Sensor适配。 不同Sensor噪声分布不同换Sensor等于换噪声。如果AI_NR出厂固化每次换Sensor就得回原厂重训——脱离实际供应链节奏。工具链必须开放可复现让客户独立走完全流程[1]。功耗。 GK7206V1在AOV模式下整板42mW2Mp/1fps。关键不在芯片本身——传统方案夜间强制开红外补光灯补光灯功耗往往数倍于芯片。AI_NR做到无补光灯彩色输出夜间功耗不升反降[1]。二、GK7206V1的AI ISP架构搞清楚了工程约束再看GK7206V1的芯片架构设计每一步都是对上述约束的精准回应。NPU分工并行不是分时。 1.0T的NPU被设计成两个并行通道AI_NR固定占用约0.5T支持4M15fps实时降噪剩余约0.5T并行运行人形检测、人脸识别等推理任务。两路任务同时跑夜间彩色降噪和AI检测互不阻塞——这是NPU底层调度逻辑就设计好的不是在应用层做时间片轮转[1][2]。五档模型画质与帧率的平衡。 AI_NR提供五档网络规格2M_3g到8M_19g按Sensor分辨率就近选择。模型越大降噪越强但推理耗时也越高——不是选最大就行而是在画质天花板和帧率地板之间找自己产品的平衡点[2]。六阶段部署链路。 ①噪声标定标定五个高-泊参数采集全黑FPNDPC必须关。②数据预处理Teacher蒸馏生成Noisy-Clean训练对。③浮点微调Student两阶段训练60 epoch。④INT8量化量化后再微调10 epoch适应精度损失。⑤推理验证量化输出与浮点不得有肉眼差异。⑥TVM编译导出.xmm部署。六阶段每步有验证让Sensor适配从依赖原厂变成自己走完[2]。ISP Pipeline全貌。 芯片内部数据流Sensor → AI_NRBayer Raw域深度降噪→ 3DNR时域降噪→ WDR双帧宽动态→ LDC畸变校正→ Demosaic色彩重建→ 3A → 编码输出。AI_NR排在第一站——信号最干净的阶段上最强手段后续硬件ISP模块面对的都是已被清理过的数据。传统ISP是Demosaic在前、降噪在后——先扩散噪声再收拾残局。GK7206V1反过来而且不是用规则滤波是用深度学习网络在NPU上跑实时推理[1]。三、黑光全彩AI_NR的实战数据架构再好最终要用数据说话。黑光全彩是检验AI ISP能力的最极端考场。环境照度0.0001 Lux——比晴朗无月星空的星光级约0.001 Lux还暗一个数量级。在这个照度下Sensor接收到的光子数已经逼近读出噪声的量级。传统ISP的输出基本上只剩下噪声必须切换到红外模式、打开红外LED补光灯才能勉强辨认画面内容——代价是失去色彩信息输出变成黑白。AI_NR在GK7206V1上的实测数据0.5T算力驱动4M分辨率15fps实时处理。信噪比提升8dB以上。8dB是一个什么概念每3dB意味着噪声功率减半8dB换算过来噪声能量被压到了原来的约六分之一。这不是噪点少了一点的微调是噪声从填满画面到几乎不可见的量级跃迁。在0.0001 Lux的极暗环境下AI_NR输出的是彩色画面——不需要红外补光灯[1][2]。这是一个三重收益。第一层省了红外LED灯珠的BOM成本。第二层省了补光灯的持续功耗——前文说过补光灯往往是夜间最大的暗耗。第三层设备实现了真正的隐蔽——不发光、不亮红灯对于需要隐蔽部署的场景来说这是结构性的优势。更重要的是AI_NR只吃掉了0.5T的NPU算力。剩下的0.5T可以并行跑人形检测、车辆识别等AI推理——夜间彩色画面和AI检测同时在线。这不是开了一个就得关另一个的排班制而是两条线并发。0.0001 Lux下摄像头不仅看到彩色还能认出是谁——这在传统ISP架构下需要两颗芯片配合才能做到的事情在GK7206V1上单芯片完成。四、不止暗光AI ISP作为画质操作系统如果把AI_NR只理解成暗光增强功能就严重低估了它的架构意义。2F-WDR处理逆光——隧道口、黄昏逆光、夜间车灯直射长曝光短曝光双帧合成防止亮处过曝和暗处死黑。3DNR利用帧间时域信息做视频降噪——单帧降噪后偶尔残留的随机噪点在多帧间趋于平滑。LDC校正广角镜头的桶形畸变——门铃和全景监控的刚需图像几何校正后AI检测的准确率直接受益。这些模块和AI_NR共享同一个NPU计算引擎——它们不是各自独立的孤岛功能而是同一套算力资源在不同场景下按需调度的不同功能面。AI ISP真正的定位不是夜间增强而是整条ISP管线的画质操作系统——它决定了每一帧画面在每一个像素级别上被如何处理[1][2]。GK7206V1的这套AI ISP能力最终通过ShiMetaPi Pico-G1开发板落地。这块72×21mm的板卡集成了芯片的全部核心能力——AI_NR黑光全彩、1.0T NPU并行计算、完整ISP管线、H.265硬编码。SDK内置sample程序和8个已训练的AI检测模型面向安防厂商、方案商和个人开发者[1]。AI ISP从一篇论文里Bayer Raw域处理效果更好的结论到一片芯片上以0.5T跑通4M15fps的工程实现——中间的算力约束、实时性约束、模型轻量化、Sensor适配、功耗控制每一条都不是学术论文会讨论的问题但每一条都是芯片必须解决、而且必须在硅片层面解决好的问题。GK7206V1交出的答卷是用0.5T留0.5T用66毫秒的窗口跑通30-40毫秒的推理用六阶段工具链让Sensor适配不再依赖原厂用深度学习降噪让补光灯变成可选项。这不是论文验证了一个方向而是这个方向做进了一颗量产芯片。-----参考资料[1] ShiMeta-Pico-G1芯片与硬件平台介绍文档ShiMeta官方产品文档[2] AI降噪AI_NR技术文档ShiMeta官方技术文档

相关新闻