Expedera的Origin Evolution NPU IP推动边缘设备生成式AI应用

2025年5月20日,美国加州圣克拉拉——全球领先的可扩展神经处理单元(NPU)半导体知识产权(IP)提供商Expedera公司今日正式推出其创新产品——Origin Evolution TM NPU IP。这一突破性技术旨在加速边缘设备上生成式人工智能(GenAI)的应用,满足在资源有限的边缘场景中高效运行大型语言模型(LLMs)以及传统神经网络的计算需求。

随着人工智能技术的快速发展,LLMs如GPT、Llama、Qwen等模型在许多应用中展现出了巨大潜力。然而,这些模型庞大的参数规模和高昂的运算需求也带来了极大的挑战。传统依赖云端服务器进行推理的方法存在延迟高、安全隐患,以及对网络带宽的巨大依赖等问题。而将这些模型直接部署在边缘硬件上,不仅可以极大地降低响应延时,还能增强数据隐私保护和系统稳定性。不过,边缘设备的资源限制——包括功耗、算力、存储空间和带宽——使得在终端设备上高效运行LLMs变得非常困难。

Expedera此次推出的Origin Evolution NPU IP正是针对这些挑战研发的方案。该IP采用公司独特的包(Packet)式架构,显著提升了神经网络硬件的效率。其硬件设计特别针对满足LLMs、卷积神经网络(CNNs)和循环神经网络(RNNs)等不同类型模型的计算需求,保证在保证高性能的同时优化功耗和面积(PPA),实现极致的能效比。

据了解,Origin Evolution单个核心的算力最高可达128 TFLOPS,若多个核心协作,则可达到拍(Peta)级别的算力,满足各种规模的应用场景。从智能手机到自动驾驶汽车,再到数据中心,适用范围广泛。其优势在于大幅度降低了存储带宽的需求——相比其他解决方案,在使用Llama 3.2 1B或Qwen 2 1.5B模型时,外部存储器的数据传输减少超过75%。这种架构极大地提升了处理效率,使得在存储有限或功耗敏感的设备上,也能部署复杂的AI模型。

此外,Origin Evolution支持多种网络结构,包括现有的主流模型如Llama3、ChatGLM、DeepSeek、Qwen、MobileNet、Yolo和MiniCPM等。用户无需重新训练已知模型,即可实现直接导入和高精度推理,极大地简化了边缘AI部署流程。这一功能得益于其支持的高度兼容性,确保模型的精准性不受影响。

设计上,Expedera的包式架构突破了传统大存储迁移的瓶颈,网络模型被切割成多个连续的“包”,每个包代表网络中的不同片段,经过专门的处理块(如Feed Forward、Attention和Vector模块)进行高效处理。这些多样化的处理单元能够同时或分别运行LLMs和CNNs,有效应对不同类型任务的复杂计算需求。同时,硬件还配备了支持最新DRAM和HBM(High Bandwidth Memory)标准的高速外部存储接口,确保数据传输不成为瓶颈。

软件层面,Expedera配备了完整的生态系统支持,包括对HuggingFace、Llama.cpp、TVM等流行框架的兼容,支持多种量化方式、模型融合与拆分、自动编译、性能估算和性能分析工具,从而帮助开发者高效优化模型性能和能耗。

更重要的是,客户无需担心模型的准确性或重训练问题,只需导入预训练模型,即可在硬件上直接实现高效推理。这大大降低了部署门槛,加快了AI应用落地的速度。

如今,Origin Evolution NPU IP已全面推向市场,已经在实际生产环境中经过验证,确保了其稳定性和可靠性。Expedera的目标是通过这一技术,将更智能、更快速、更安全的AI推理能力带入边缘设备,为智能手机、自动驾驶汽车、工业终端、智能摄像头、数据中心等众多场景提供强有力的硬件支持。

公司CEO兼联合创始人Siyad Ma表示:“Origin Evolution代表了我们在AI硬件创新中的一次重大突破。它能够与主流网络模型实现开箱即用的兼容,且在能效和性能方面都达到了理想水平。无论是在智能手机、汽车还是数据中心,都能发挥重要作用,为客户带来极大的价值。”

作为一家总部位于硅谷的公司,Expedera还在英国、印度、中国、台湾、新加坡等地设有研发和客户支持中心,持续推动全球AI硬件技术的发展和应用。展望未来,随着AI模型规模和应用场景的不断扩大,Origin Evolution的创新架构有望成为边缘和数据中心AI硬件的标杆,助力生成式AI在更多场景中落地,开启智能化新纪元。

如需了解更多关于Expedera的Origin Evolution NPU IP信息,详见公司官网博客。

[原始链接]