集微网消息,天眼查消息显示,昕原半导体(上海)有限公司于3月4日发生多项工商变更,新增PICOHEART(SG)PTE.LTD.等股东,同时注册资本增加4.64%,或完成新的融资。
昕原半导体(上海)有限公司成立于2019年,专注于ReRAM新型存储技术及相关芯片产品的研发,涵盖高性能工控/车规SoC/ASIC芯片、存算一体IP及芯片、系统级存储芯片等。其官网显示,作为国内ReRAM商业化领军企业,昕原半导体掌握一体化闭环技术能力,覆盖器件材料、工艺制程、芯片设计、IP设计和中试量产等诸多环节。昕原是中国唯一一家先进制程ReRAM实现量产的公司,也是国际上新型存储器产品商业化最快的企业之一。
集微网报道 过去十年,智能终端的AI能力逐步提升,特别是近年来受到生成式AI浪潮的推动,终端AI进入到全新的发展阶段,从早期的图像处理到手机助手,带来终端交互和体验上的颠覆式变革。
在这个过程中,NPU以及异构计算作为终端AI的算力基石底座,发挥了重要作用,有力地支持和推动了终端AI以及生成式AI的广泛规模普及,持续进化引领着智能手机行业创新的方向。
作为终端AI的赋能者,十余年来,高通始终致力于终端AI技术的创新,持续保持在传统AI以及生成式AI时代的行业领先地位。这家以让智能计算无处不在为愿景的创新公司,正通过NPU和异构计算,推动终端AI不断达到新的高度。
彼时,寒武纪发布全球首款商用终端AI处理器,在运行计算机视觉、语音识别、自然语言处理等智能处理关键领域,性能、能耗等均全面超越传统CPU和GPU,由此拉开终端AI的序幕。
出于商业等因素的考虑,形式上看,NPU并未成为厂商们的统一称谓,但实质上,通过设计专用硬件处理相关AI工作负载已经成为手机处理器设计中的趋势以及塑造差异化竞争力的显著标签。
随后,一些具有自研芯片优势的系统整机厂商迅速推出相关产品。2017年,通过和寒武纪的合作,华为Mate10中搭载的麒麟970中首次集成AI模块,苹果推出搭载AI仿生引擎的Iphone X,手机AI元年自此开启。
2018年,联发科推出AI平台NeuroPilot,整合了AI处理器APU。三星在推出的Exynos 9820中首次搭载NPU,智能手机全面进入AI时代,智能相册分类、APP预加载等功能出现,人脸识别、深度学习等AI技术开始广泛在智能手机应用中落地。
芯片、手机领域的快速发展和激烈竞争,大量的复制、营销和包装下的结果是很容易让人们忽视掉这个行业真正的原始创新者。
2013年,高通推出首款量产采用创新架构设计的处理器Zeroth。Zeroth的结构完全不同于当时的骁龙系列芯片,而是更接近于用电路对生物神经细胞进行模拟,从而在智能终端上实现近似生物神经网络的智能感知与判断操作。
彼时,高通便将这一新的处理架构称之为NPU。通过Zeroth,高通能够将机器学习等能力引入到移动平台,包括通过对人脸和物体识别进行图像自动分类,也可以通过传感器实现对周围环境的监控输入,同时终端运行也实现了对于用户隐私的保护。
2014年,高通收购AI图像识别技术公司Euvision,进一步探索AI在移动端的例,并在随后将源于Zeroth的AI加速架构引入到2015年推出的骁龙820移动平台的设计之中,支持图像,音频和传感器运算,以此奠定了骁龙系列高通AI引擎的基础,骁龙820也是首次集成高通“第一代AI引擎”的移动平台。
是的,如你所见,十年前高通的Zeroth,才是移动终端NPU的祖师爷。而在2007年,高通便启动了首个AI研究项目,首款Hexagon DSP在骁龙平台上正式亮相——DSP控制和标量架构成为高通未来多代NPU的基础。
此后,高通便始终主导和推动着NPU领域的创新,紧跟终端AI行业的技术演进方向和需求,不断提升和丰富NPU的特性和功能。
2018年,高通在骁龙855上中为Hexagon NPU增加了Hexagon张量加速器。2019年,高通在骁龙865的拓展了终端AI用例,包括AI成像、AI视频、AI语音和始终在线年,高通为Hexagon NPU带来了变革性的架构更新。融合了向量、张量、标量加速器,实现更好的性能功耗表现。同时还为加速器打造了专用大共享内存,让共享和迁移数据更加高效。这种融合AI加速器架构为高通未来的NPU架构奠定了坚实基础。
2022年,骁龙8Gen2中的Hexagon NPU实现了众多重要技术的加强。包括能够根据工作负载动态适配供电的专用电源传输轨道。最大化利用NPU中的标量、向量、张量加速器并降低功耗的微切片推理。提升能效和内存带宽效率的INT4;用于加快生成式AI的多头注意力机制的推理速度的Transformer网络加速;以及包括优化了的分组卷积、激活函数和张量加速器性能的其他特殊硬件等。
2023年,高通在骁龙8Gen3中,又进一步升级了NPU微架构以及相关能力,为持续AI推理带来98%性能提升和40%能效提升,从而实现对于生成式AI的更好支持。
十余年来,得益于NPU和异构计算领域的开拓性创新,高通构建起在终端AI侧的行业领导力,在生成式AI时代,这一优势进一步凸显。
生成式AI的快速发展,带来不同场景下用例的多样化计算需求,传统的以通用计算为目的的CPU、GPU难以满足。
对于上述用例,传统的通用CPU和GPU很难满足其所带来的功耗和热限制。此外,用例也将会不断拓展,在功能完全固定的硬件上部署并不实际。因此,需要以AI为中心定制设计全新的计算架构,包括面向生成式AI全新设计,专为实现低功耗加速AI推理而打造的NPU,并与AI行业的发展方向保持一致。
如何设计一个优秀的NPU产品?高通给出的答案是:系统级解决方案、定制化设计和快速迭代创新。这也是其Hexagon NPU的显著差异化竞争优势。
首先,系统级解决方案有助于构建起芯片设计的全局视角,考量每个处理器的架构、SoC系统架构和软件基础设施。从而能够发现当前和潜在的瓶颈,并在增加或修改硬件方面做出恰当的权衡和决策。通过跨应用、神经网络模型、算法、软件和硬件的全栈AI研究与优化全面实现。
第二,需要具备定制化设计的能力以及控制指令集架构(ISA),从而使架构师能够快速进行设计演进和扩展以解决瓶颈问题。
第三,上述迭代改进和反复循环,使得高通能够基于最新神经网络架构持续快速增强高通NPU和高通AI软件栈。基于高通的自主AI研究以及与广大AI社区的合作,使得能够与AI模型的发展保持同步。高通具有开展基础性AI研究以支持全栈终端侧AI开发的独特能力,可赋能产品快速上市,并围绕终端侧生成式AI等关键应用优化NPU部署。
因此,历经多代演进的NPU,利用大量的技术创新和迭代成果消除瓶颈。例如,在骁龙8Gen3中,进行了诸多用于支持生成式AI大模型的架构升级。
比如,内存带宽是大语言模型Token生成的瓶颈,这意味着其性能表现更受限于内存带宽而非处理能力。因此,Hexagon NPU的设计中特别注意了提高内存带宽效率,骁龙8Gen3中,高通将Hexagon NPU中的专用共享大内存的带宽翻倍,此外,骁龙8Gen3还支持业界最快的内存配置之一:4.8GHz LPDDR5x,支持77GB/s带宽,从而满足生成式A用例日益增长的内存需求。
高通认为,从DSP架构入手打造NPU是正确的选择,可以改善可编程性,并能够紧密控制用于 AL处理的标量、向量和张量运算。高通优化标量、向量和张量加速的设计方案结合本地共享大内存、专用供电系统和其他硬件加速,让高通的解决方案独树一帜。高通NPU能够模仿最主流模型的神经网络层和运算,比如卷积、全连接层、Transformer以及主流激活函数,以低功耗实现持续稳定的高性能表现。
以AI为中心,高通打造了行业领先的处理器异构计算架构——高通AI引擎,包括Hexagon NPU、Adreno GPU、Kryo CPU或Oryon CPU,高通传感器中枢和内存子系统。其中,Hexagon NPU是关键一部分,这些处理器为实现协同工作而设计,能够在端侧快速高效运行AI应用。
如今,适合在终端侧运行的生成式AI正变得更为复杂,参数规模也变得更加庞大,从10亿到100亿到700亿参数。他们正进入多模态阶段,意味着可以进行多样的输入,例如文本,语音,图像等,并生成多种输出结果。
这种带有复杂性、并发性和多样性的生成式AI负载,通常需要利用SoC中所有处理器的能力。因此,具备跨处理器和内核支持生成式AI的扩展能力,以及能够将生成式AI模型和用例映射至一个或多个处理器及内核的解决方案非常重要。
即异构计算系统解决方案需要针对不同负载的类型,选择合适的处理器。这其中涉及的因素包括用例、设备类型、终端层级、研发时间、关键性能指标、开发者专长等,系统设计方案需要在众多因素中间权衡。
如前所述,多数生成式AI用例能够分为按需,持续或泛在型。在按需型用例中,延迟是KPI,因为用户不想等待。当这些应用使用小模型时,CPU通常是最佳选择。当模型来到数十亿参数时,GPU和NPU更加合适。对于持续和泛在的用例,电池续航和能效往往是重要关键因素,此时NPU便成为最佳选择。
另一个关键区别在于AI模型为内存限制型(性能受到内存带宽的限制),还是计算限制型(性能受到处理器性能限制)。如今大语言模型在生成文本时都受到内存限制,因此需要关注CPU,GPU和NPU的内存效率。而对于大视频模型而言,更受计算和存储限制的,需要GPU和NPU支持,NPU能够提供最佳能效。
在2023年的骁龙峰会上,高通在搭载骁龙8Gen3的智能手机上,演示了语音控制的AI个人助手,支持手机屏幕上的虚拟化身实现实时动画效果。这个过程很好的展示了如何通过高通的异构计算解决方案实现针对AI用例和具体场景的设计。
1、当用户与AI语音助手交谈时,声音通过OpenAI的自动语音识别(ASR)生成式AI模型Whisper转换成文。