低功耗约束下端侧独立NPU本地推理的算力优化与性能提升研究

Authors

  • 阮煜鑫 Author
  • 黄欣欣 Author
  • 陆烨 Author
  • 潘自坚 Author
  • 张紫欣 Author
  • 卜子洋 Author

Abstract

随着端侧人工智能应用的快速发展,独立神经处理单元 (NPU) 已成为移动设备、物联网终端和嵌入式系统的核心计算组件。然而,端侧设备严格的功耗约束与日益增长的 AI 推理算力需求之间的矛盾日益突出。本文针对低功耗约束下端侧独立 NPU本地推理面临的“算力墙”、“内存墙”和“功耗墙” 三大核心挑战,系统研究了从硬件架构、软件算法到软硬件协同设计的全栈式优化方法。首先,分析了端侧独立 NPU 的架构演进与性能瓶颈;其次,提出了基于混合精度量化与结构化剪枝的模型压缩优化策略,以及基于算子融合与流水线调度的推理引擎优化方法;再次,设计了一种基于动态电压频率调节 (DVFS) 与任务感知的低功耗协同调度机制;最后,在瑞芯微RK3588开发板上搭建了实验平台,通过ResNet50、MobileNetV3和YOLOv5n 等典型模型进行了性能验证。实验结果表明,本文提出的综合优化方案在保持模型精度损失小于2%的前提下,实现了推理速度提升3.2倍,能效比提升4.7倍,为低功耗端侧AI应用的部署提供了技术支撑。

Downloads

Published

2026-04-30