瑞萨:面向嵌入式部署的神经网络优化:模型压缩深度解析

发布时间:2026-03-13 09:48
作者:AMEYA360
来源:瑞萨
阅读量:722

  01 为什么需要神经网络模型压缩?

  神经网络已经成为解决复杂机器学习问题的强大工具。然而,这种能力往往伴随着模型规模和计算复杂度的增加。当输入维度较大(例如长时序窗口、高分辨率特征空间)时,模型需要更多参数、每次推理需要更多算术运算,使其难以部署在嵌入式硬件上。

  对于嵌入式系统而言,资源极其有限。内存空间受限,因此在桌面或云平台上轻松运行的模型可能无法放入芯片内的闪存。此外,较高的运算量(MACs/FLOPs)和推理延迟要求往往超出低功耗MCU或边缘设备所能承受的范围。

  我们要解决的核心挑战是:如何在保持模型性能的前提下,大幅压缩神经网络模型,降低模型大小、推理时间和计算成本,从而实现其在资源受限的嵌入式系统上的部署。

  我们要解决的核心挑战是:如何在保持模型性能的前提下,大幅压缩神经网络模型,降低模型大小、推理时间和计算成本,从而实现其在资源受限的嵌入式系统上的部署。

  02 神经网络模型压缩是如何工作的?

  神经网络模型往往比实际需要的更大。在训练和验证之前,我们很难准确判断架构规模是否合理。模型压缩的目标就是识别模型中的冗余和未充分利用的权重并将其移除。

  我们使用专有的数学方法来寻找并压缩这些冗余,对网络进行重新整理,使其更加简洁、小巧和高效。同时,我们会严格控制精度损失,确保不会丢弃过多关键信息。

  03 实例:紧急尖叫声检测

  (Emergency Scream Detection)

  为了更直观地解释这一挑战,我们以“紧急尖叫声检测(ESD)”演示为例。ESD系统是一种机器学习模型,用于区分求救尖叫声和其他环境声音。该任务是一个二分类问题:Scream vs Not Scream。

  模型使用Google’s Audioset database公共数据集中的音频信号进行训练。训练数据集规模大且多样化,而验证数据集由团队采集的小规模现场录音构成。模型在训练集的k-fold验证中表现中等,但在新的现场数据上表现非常好。

  基线模型性能:

  我们使用基于全连接层的神经网络,并以STFT频谱图作为输入特征。该模型取得了最佳效果,达到:

  k-fold验证精度:82%

  现场数据测试精度:98%

  从性能角度看,该模型表现优秀。然而,它有一个关键问题:

  ROM占用:552kB

  该大小超过目标嵌入式平台(Voice RA6E1)的内存限制,导致无法部署。

  压缩模型性能:

  为了解决这一问题,我们应用了Renesas为嵌入式部署优化的专有神经网络压缩技术。

  压缩结果非常显著:

  模型大小从552kB降至117kB(减少约79%)

  k-fold验证精度保持82%

  现场测试精度保持98%

  MAC从129,68降至21,001(降低83%)

  也就是说,在几乎不影响模型性能的前提下,显著减少了模型规模和计算成本。

  图1–5展示了该对比的详细信息。图1显示AI Explore™的对比结果;图2和图3的混淆矩阵确认精度保持一致;图4和图5的红框部分(Flash Parameters)展示了模型大小和复杂度的核心差异,该数值反映了实际编译后部署的模型,比Explore页面上的估算更准确。

  04 更多成功案例

  表1汇总了其他示例模型的结果——其中,资产移动跟踪模型使用加速度计数据来识别设备或包裹的搬运与移动状态;吸尘器地面类型检测模型通过电机信号判断清扫对象的地面材质;电机启动负载检测模型能够在开环控制下快速判断电机的启动负载,从而帮助控制器实现节能优化。

  从这些实验结果可以看到,模型在压缩后的准确率基本得以保持。两个项目在压缩前后完全没有精度损失(紧急尖叫检测:98%→98%,电机启动负载:99%→99%),其余两个项目的变化也仅为1%的轻微下降(资产移动:92%→91%,吸尘器地面类型:96%→95%)。

  在保持精度几乎不变的同时,模型体积显著减小。尤其是较大的基线模型,ROM使用量减少超过75%。同时,MAC(Multiply-Accumulate)运算量也呈现同等幅度的下降,与ROM节省情况高度一致。

瑞萨:面向嵌入式部署的神经网络优化:模型压缩深度解析

  Table 1: Comparison of baseline and compressed models

  05 使用Reality AI Tools®进行模型压缩

  在Reality AI Tools®中,对神经网络模型进行压缩、重新训练、使用新数据进行测试以及部署到目标板上,都非常简单。事实上,在AI Explore™阶段,工具会自动完成模型压缩——你甚至不需要额外关注这一步骤。

  下面是一段精简的流程说明,展示你将会看到的主要步骤。

  (1) 首先,在Data→Curate模块中创建你的训练集和测试集。

  (2) 在AI Explore™页面中训练模型,并探索不同的特征空间与决策结构。点击“Start Explore”后,系统会自动训练和测试多种模型,并根据性能对它们进行排序。在Explore的结果中,你会同时看到部分模型的基线版本与压缩版本。当某个基线模型在不降低准确率的情况下可以进一步缩小体积时,工具会自动生成其压缩版本。压缩模型会使用一个特殊符号标记(如图7中红色箭头所示)。相反,没有该符号的则是未压缩的原始基线模型。

  一旦你确定了需要进一步评估与部署的模型,可以从该模型创建一个Base Tool,以便继续开展后续工作。此时,压缩后的模型即可用于重新训练、测试、优化以及部署,使用方式与原始基线模型完全一致。

  对于用户来说,使用压缩模型是完全透明的。它在系统中会像其他任何Trained Tool模型一样工作,不需要额外步骤或特殊处理。

  (3) 你可以在Test&Optimize→Try New Data区域测试压缩后的模型。选择压缩版本的Trained Tool模型以及所需的测试数据集,然后运行Accuracy Test(准确率测试),即可评估该模型在未见过的数据上的表现。

  (4) 部署同样非常简单。在验证压缩模型并确认其性能符合预期后,你可以进入Deploy→Embedded完成部署流程。选择已经训练好的压缩模型,并根据目标嵌入式系统的约束条件创建新的部署包。随后,下载生成的可导出模型包,并将其部署到目标硬件板上。与Reality AI Tools®中其他模型的部署方式完全一致,使用压缩模型无需任何额外步骤或特殊处理。

  结论

  在部署机器学习模型时,仅有高准确率还远远不够。模型还必须满足严格的内存预算,并在资源受限的环境中高效运行。我们先进的神经网络模型压缩技术,使开发阶段的高性能模型能够轻松过渡为可部署于边缘设备的轻量化AI解决方案。

瑞萨:面向嵌入式部署的神经网络优化:模型压缩深度解析


(备注:文章来源于网络,信息仅供参考,不代表本网站观点,如有侵权请联系删除!)

在线留言询价

相关阅读
瑞萨丨适用于人形机器人的Ki无线对接与充电
  面向人形机器人的对接式充电模型  随着人形机器人从研究实验室走向实际部署,系统设计人员在各种环境中都面临着一系列新的期望。这些机器人正越来越多地被考虑用于家庭、工业设施以及餐厅、医院和仓库等商业场所。在其中每一种应用场景中,人形机器人都必须能够在人群周围安全运行,自然融入现有空间,并在尽可能少的用户干预下自主工作。  要实现真正的人形机器人自主性,最根本的挑战之一是如何在无人监督的情况下进行可靠、安全且可重复的充电。依赖裸露连接器和电缆的传统充电方法可能带来不便,容易发生机械磨损,且在灰尘、污垢或频繁人机交互的环境中难以得到有效的保护。对于可能需要无人值守定期充电的人形机器人而言,裸露的线缆还会引发安全和维护方面的隐患。  配备无线功率传输的固定式对接站,是一种可替代插拔式充电的可行方案。当人形机器人完成任务或电量不足时,它可以返回指定位置,自行对准,并在空闲期间开始充电。这种方法在固定对接点集中进行功率传输,无需再使用裸露在外的电缆。此方案还支持密封的机械设计,并能在消费级和工业级环境中实现更可预测且可重复的充电行为。  为何选择Ki®无线供电技术  用于人形机器人对接充电?  Ki无线供电技术由无线充电联盟(WPC)开发,旨在实现比传统低功率消费级充电更高功率的无线功率传输。Ki将感应式无线功率传输与近场通信(NFC)相结合,使发射器和接收器能够安全、动态地协调功率传输。  对于人形机器人对接站而言,这种方法具有以下优势:  01  可扩展的功率传输:瑞萨电子Ki无线供电架构支持广泛的无线功率传输范围,可从约20W扩展至2.2kW。许多人形机器人平台采用高电压电池系统(通常在24V至48V范围内),其电池容量能够充分满足充电能量需求。在这种情况下,2.2kW指的是可供充电和对接操作使用的充电站功率,通过在固定站点实现常规的自主充电,有助于减少对频繁更换电池组的依赖。由于Ki支持如此宽广的功率范围,通过按需降低功率输出,基于Ki的同一对接方案也可应用于更小型的机器人,例如割草机器人或医疗保健领域的辅助机器人。  接收端控制充电:功率传输由机器人端控制,使人形机器人能够仅请求获得所需的功率,并根据运行条件的变化调整充电行为。  集成识别与控制:NFC通信在大功率传输开始之前提供识别、验证、控制及安全门控功能。  由于以上这些特性,Ki无线供电技术非常适合基于对接技术的人形机器人充电。  系统级对接架构  基于Ki的人形机器人对接系统围绕两个协同工作的组件构建:  01  集成于对接站内的无线功率收发器  嵌入人形机器人内部的无线功率接收器  这些组件组合起来,可实现自主对接功能、受控功率传输功能以及密封充电接口,支持约20W至2.2kW的可用无线功率水平。  在此架构中,NFC通信会在任何功率传输开始前,建立对接站与人形机器人之间的识别与协调。一旦建立协调并完成对准,无线功率传输即开始。这种方法将功率转换和电池管理保留在机器人内部,从而实现了一个密封、无电缆的接口,同时不影响可用功率水平。  人形机器人对接站  该架构可通过我们的Ki无线功率收发器系统(Tx)和Ki无线功率接收器系统(Rx)设计来实现。这些解决方案能够将架构直接映射到完整的Ki无线对接系统上,使系统架构师能够集成无线充电功能,而无需从头设计电源、控制和通信协议栈。  Ki无线功率收发器系统(Tx)实现了对接站端的功能,并可充当Ki系统的固定基础设施端。该系统提供从已知物理位置传输能量所需的无线功率发射器和NFC通信。由于发射器固定在已知位置,人形机器人能够始终如一地自动对准,实现可重复的无线耦合。  此外,Ki无线功率收发器系统(Tx)还提供更多功能丰富的版本,支持高级交互和系统集成。这些功能更丰富的版本集成了带电容式触摸的图形用户界面,可直观显示充电状态、传输功率及系统状态。采用蓝牙®低功耗(LE)或Wi-Fi的集成式无线连接功能,支持远程监控、配置以及与更高层级控制系统的集成。  简化版去除了用户界面和无线连接功能,以支持完全隐藏的安装方式,使充电过程透明化,从而使同一发射器架构在不同充电站设计中得以重复使用。  Ki无线功率收发器系统  Ki无线功率接收器系统(Rx)在人形机器人内部实现了Ki系统的接收端。系统接收来自对接站的无线能量,调节输出的功率,并直接与机器人的内部电源及电池管理系统连接。  功能更丰富的版本具备本地图形界面和可选的无线连接功能,可进一步扩展这一能力。内置显示屏使人形机器人能够直接在机体上显示充电状态、功率流和诊断信息,而蓝牙低功耗技术或Wi-Fi连接则支持与外部监控工具或队列管理系统的集成。这种增强的可视性在开发、调试和维护期间非常有用,在需要了解机器人状态的部署环境中同样重要。  简化版去除了用户界面和无线连接功能,以支持需要最少交互的紧凑型、全密封设计,从而使相同的接收器架构能够适配不同的人形机器人平台。  Ki无线功率接收器系统  Ki无线功率收发器系统(Tx)与Ki无线功率接收器系统(Rx)共同构成了一套协调的Ki无线人形机器人对接系统。  通过利用这些优越的组合方案,系统设计人员可以基于经过验证的Ki无线供电实现方案展开工作。因为该方案已涵盖可扩展的功率传输、协调配合和安全要求,且关键的系统行为可通过软件配置,而非重新设计硬件。  这种方法  · 减少了开发工作量  · 简化了系统集成  · 使架构师能够专注于更高层次的机器人行为  随着人形机器人平台的发展,对接站和机器人端均提供多种可选版本,这也为系统升级提供了清晰的路径,无需对系统架构进行根本性更改。  除了硬件版本差异外,Ki架构内的软件配置还可实现功率调节、身份验证和协调等关键系统行为,而无需更改底层硬件。  人形机器人对接技术的关键工程考量  人形机器人旨在与人类协同工作,穿行于为人类设计的空间,并将自主充电作为日常运作的一部分。它们可能每天多次进行对接充电,通常无需人工监督,且所处的环境不允许出现硬件外露、长时间停机或不安全行为。对系统设计人员而言,这意味着对接和充电系统必须每次都能可靠运行,同时不增加机器人操作或维护的复杂性。可靠的对准能力使机器人能够自主完成对接;充电效率影响其恢复工作的速度;而在人员和日常物品附近进行大功率充电时,安全性至关重要。固定式对接站结合Ki无线供电技术,能够以实用且可扩展的方式满足这些需求。  01  对准:可靠的对准能力对人形机器人的自主对接至关重要,因为高效的无线功率传输依赖于发射器与接收器位置的一致性。与手动充电不同,对接是人形机器人在其整个生命周期中必须自主执行的重复性行为。固定式对接站提供了一个已知的物理目标,使机器人能够以可重复的方式接近、对准并完成对接。这种方式提高了耦合的一致性,降低了对位置偏差的敏感度,并使整个机器人队列的充电性能具有可预测性。  效率:虽然有线连接能提供更高的绝对效率,但Ki无线系统在效率与易用性、安全性和机械密封性之间实现了平衡。在实际对接条件下,只要对准得当,Ki系统就能在保持密封、无电缆接口的同时,实现约90%的无线功率传输效率。相比有线充电,绝对效率上的这点微小差异是值得的。  安全性:人形机器人在人类、工具和日常物品附近运行,因此安全性是基本的设计要求。Ki内置了异物检测(FOD)等安全机制,有助于防止线圈之间存在异物时发生意外的功率传输,从而确保在人群周围更安全地运行。Ki NFC通信还支持身份验证,使充电站能够在启用功率传输之前验证受信任的接收器。这有助于确保仅授权的机器人能获得充电或供电,这一点在共享或公共环境中尤为重要。  实现自主对接与充电  对于在人类共享环境中运行的人形机器人而言,最佳的充电体验是用户几乎察觉不到充电过程。支持Ki技术的对接站使人形机器人能够自主管理其能源需求,同时保持密封、无连接器的充电接口。  通过采用基于Ki无线供电技术的固定式对接站架构,系统设计人员无需从头设计充电系统,即可实现可靠的自主充电。经过验证的构建模块,例如Ki无线功率收发器系统(Tx)和Ki无线功率接收器系统(Rx),为对接接口的两端提供了现成的设计起点,涵盖从紧凑、隐藏的设计到具备可视性和连接性等更丰富功能的设计等多种版本。
2026-06-12 09:22 阅读量:404
焉知汽车年会演讲回顾:瑞萨电子第五代R-Car与RoX开发平台,赋能AI定义汽车
  近日,第六届焉知汽车年会于上海召开。本届年会通过主论坛与五大专场,聚焦AI大模型、L3/L4自动驾驶、舱驾一体等核心议题。  瑞萨电子高性能运算产品市场总监张朴受邀出席,并发表题为《瑞萨第五代R-Car SoC配合RoX开发平台赋能AI定义汽车的发展》演讲,展示了瑞萨在智能汽车领域的核心技术方案。  瑞萨电子高性能运算产品市场总监 张朴  张朴在演讲中表示,我们正步入AI定义汽车的新时代,中国汽车算力平台正快速从分布式向集中式进化,从多域专用SoC逐步走向单芯片跨域融合。这一变革的核心驱动力是成本优化与统一的AI基座模型,但同时也带来了系统复杂度提升、功能安全保障等多重挑战,汽车SoC需要同时解决算力、集成度与灵活性三大核心问题。  在AI定义汽车时代,汽车电子电气架构(EEA)正经历从传统的分布式ECU向集中式进化。架构形态也从分离的IVI、ADAS专用SoC,向One Board多域集成过渡,最终迈向One Chip单芯片跨域融合。  第五代R-Car SoC:  专为跨域融合打造的可扩展硬件  瑞萨第五代R-Car SoC采用车规3nm先进制程,专为多域融合设计,具备灵活可扩展的平台化设计,覆盖不同级别需求,满足各功能域最高ASIL-D安全等级,目前样品及评估板已向早期客户提供。  该系列SoC性能强劲,NPU单片稀疏算力超400TOPS,通过Chiplet芯粒技术可扩展至2000TOPS以上;同时集成高性能CPU、GPU与丰富外设,支持多摄像头处理与8K全景显示。基于自研FFI免干扰技术,芯片实现硬件级隔离,单芯片可同时运行IVI、ADAS等不同安全等级的域,无需外部MCU即可满足ASIL-D要求。  RoX开发平台:  加速AI定义汽车量产落地  为助力客户缩短产品上市时间,瑞萨针对第五代R-Car SoC推出RoX开放式开发平台。该开放平台包括两个部分:“白盒参考平台”和“量产级软件预集成参考平台”。  白盒参考平台由瑞萨提供,基于Linux、安卓操作系统及XEN虚拟机,为客户提供开源的系统参考方案,方便客户进行系统评估,及快速启动产品开发同时,瑞萨电子与生态合作伙伴紧密合作,共同提供了“量产级软件预集成参考平台”,包括AUTOSAR、QNX和SafeRTOS,以及众多国内外合作伙伴的量产级应用软件栈,全面支持现代车载软件架构的端到端开发。  瑞萨电子凭借第五代R-Car SoC与RoX开发平台,构建了从芯片到软件的完整解决方案,为车企提供高性能、高安全、可扩展的算力底座,大幅降低开发复杂度,助力行业快速实现从原型到量产的转化,推动智能汽车产业创新发展。
2026-06-10 09:28 阅读量:377
瑞萨|赋能未来:利用CSP MCU打造更小巧的智能传感器
  传感器日趋微型化,设计约束日益严苛  应用于医疗设备、可穿戴设备和工业系统的智能联网物联网传感器,不仅需要提供高性能,还需具备低功耗特性——且这一切都必须在不断缩小的外形尺寸内实现。设计人员不再仅受印刷电路板(PCB)面积的限制;封装高度、系统总重量和机械外形尺寸现在同样至关重要。随着传感器功能的扩展,传统的微控制器(MCU)封装技术可能会成为瓶颈。即使芯片本身尺寸很小,封装往往仍占据主要空间,从而难以实现紧凑的尺寸和厚度目标。工程师需要既能减小封装尺寸,又不会牺牲电气、热或制造可靠性的封装解决方案。  为什么传统MCU封装无法满足要求?  传统的MCU封装——例如薄型四边扁平封装(LQFP)、四边扁平无引线封装(QFN)和标准球栅阵列(BGA)——因其成熟可靠、坚固耐用且易于组装的特点而被广泛使用。然而,与实际芯片相比,此类封装形式均导致尺寸和厚度方面的开销明显增加。在空间受限的传感器设计中,这些额外的封装材料限制了进一步小型化的可能。当PCB上的每一平方毫米面积都至关重要时,就需要一种不同的封装方法,使封装尺寸更接近硅片本身。  晶圆级芯片尺寸封装(WLCSP)解决方案  芯片尺寸封装(CSP)解决了上述难题。瑞萨电子采用了一种名为晶圆级芯片尺寸封装(WLCSP)的特定CSP技术,即在晶圆阶段直接对器件进行封装,而非在芯片切割之后进行。这种方法产生的最终封装通常不超过芯片尺寸的1.2倍,具有超薄外形和极少的附加材料。  在WLCSP器件中,MCU芯片连接到一个再分布层(RDL),有时也称为中介层。RDL将芯片的连接焊点重新布线,形成适合表面贴装组装的焊球图案。随后形成无铅焊球,从而可以使用标准的BGA式工艺组装器件。有关WLCSP的内部结构,请参见下图。  图1:WLCSP封装的简化内部结构  芯片通常会被减薄以降低整体厚度,并涂覆保护性钝化层,以提供机械保护、紫外线屏蔽,并确保与标准贴片设备兼容。  WLCSP如何解决关键的传感器设计挑战  通过最大限度减少封装开销,WLCSP为紧凑型传感器和嵌入式设计带来了若干重要优势。  占板面积非常小且外形很薄,  非常适合空间和高度受限的应用场景  由于封装材料减少,  封装重量更轻  在非常小的占板面积内实现了高I/O密度  电气性能得到改善,  更短的互连线路降低了寄生电感和电阻  热阻更低,  能够将器件产生的热量通过焊球高效散发到PCB中  与裸芯片相比,操作和测试更简便,  同时仍保持接近芯片尺寸的尺寸  表1:封装规格对比  设计与制造注意事项  虽然WLCSP具有明显的优势,但也带来了一些新的设计注意事项。超细间距(通常为0.5mm或更小)要求比许多传统封装更严格的PCB布局规则。走线宽度、间距、过孔结构和PCB材料的选择都必须经过仔细规划。组装工艺也必须支持细间距的贴装和检测。通过早期规划以及与PCB和制造合作伙伴的密切协作,这些挑战可以得到有效管理,从而使设计人员能够充分受益于WLCSP技术。  用于RA4L1低功耗MCU的WLCSP封装  WLCSP的实际应用实例之一是RA4L1低功耗MCU。该产品搭载Arm® Cortex®-M33架构,专为高能效嵌入式和传感器应用场景而设计。RA4L1提供紧凑的72球WLCSP封装,尺寸仅为3.64mm×4.28mm,厚度为0.5mm,非常适合空间受限的设计。RA4L1配备80MHz CPU、512KB双区闪存,以及针对传感器系统而优化的丰富外设,包括片上SPI、I²C和I3C接口、低功耗模拟功能、多个低功耗UART以及一个全速USB接口。RA4L1兼具低功耗、高性能和接近芯片尺寸的WLCSP占板面积,因此可在PCB面积和封装高度受限的应用场景中实现先进的传感和连接功能。  图2:RA4L1 WLCSP封装  在什么情况下选择WLCSP  当传感器设计面临严苛的尺寸、重量和高度限制时,WLCSP技术是您的理想选择。凭借接近芯片尺寸的封装、出色的电气和热性能,以及与标准表面贴装工艺的兼容性,WLCSP有助于实现全新一类紧凑型、高度集成的传感器系统。借助RA4L1等具有WLCSP选项的MCU,设计人员可以为可穿戴设备、耳穿戴设备、光学模块、智能传感器、音频产品和数字成像系统构建功能强大且可靠的解决方案。
2026-06-09 10:11 阅读量:357
议程揭晓|6.14深圳见 · 瑞萨RA MCU开发者日
  • 一周热料
  • 紧缺物料秒杀
型号 品牌 询价
RB751G-40T2R ROHM Semiconductor
CDZVT2R20B ROHM Semiconductor
MC33074DR2G onsemi
BD71847AMWV-E2 ROHM Semiconductor
TL431ACLPR Texas Instruments
型号 品牌 抢购
ESR03EZPJ151 ROHM Semiconductor
IPZ40N04S5L4R8ATMA1 Infineon Technologies
BP3621 ROHM Semiconductor
BU33JA2MNVX-CTL ROHM Semiconductor
STM32F429IGT6 STMicroelectronics
TPS63050YFFR Texas Instruments
热门标签
ROHM
Aavid
Averlogic
开发板
SUSUMU
NXP
PCB
传感器
半导体
相关百科
关于我们
AMEYA360微信服务号 AMEYA360微信服务号
AMEYA360商城(www.ameya360.com)上线于2011年,现 有超过3500家优质供应商,收录600万种产品型号数据,100 多万种元器件库存可供选购,产品覆盖MCU+存储器+电源芯 片+IGBT+MOS管+运放+射频蓝牙+传感器+电阻电容电感+ 连接器等多个领域,平台主营业务涵盖电子元器件现货销售、 BOM配单及提供产品配套资料等,为广大客户提供一站式购 销服务。

请输入下方图片中的验证码:

验证码