作为几乎所有智能移动终端及多数智能联网设备的计算核心设计者,全球最为著名芯片架构设计公司arm在这两年AI生态蓬勃发展的走势中一反常态,没有站在主导地位,甚至也没什么音量。
可以说,虽然arm的地位如今仍然重要,但却已经不再是众人眼光的焦点,当苹果、华为、高通等客户不断在AI技术与应用上进行创新时,arm基础架构似乎还是维持自己的步调,没有太多波澜起伏。

3月6日,arm在北京举办了人工智能新品发布会。面对市场的质疑,arm通过这次发布会正式向市场宣布进军AI方案,实际上解答了这两年来为何arm在AI领域没有太多作为的具体原因。在这次为期两天的发布会中宣布了两款针对中低端市场的GPU架构及多媒体方案,但本次发布会的重点还是在第二天关于人工智能方案布局的座谈,arm资深市场营销总监IanSmythe针对未来arm在AI应用领域的布局进行深入的探讨。

事实上,该行业巨头早在2016年就已经把触手伸进多个AI应用领域同时发展,包含号称针对机器学习优化的BifrostGPU架构,以及针对高端服务器芯片的SVE延伸指令集。随着相关方案陆续成熟,采用者也逐渐增加,arm终于在今年2月底推出ProjectTrillium,结合开发环境、算法与各大主流机器学习框架,要布局从终端到云端所有AI应用开发生态。

首先,各家使用的AI方案架构方面都有不小落差,且应用的兼容性可能也存在些问题,虽然都支持类似的框架,但毕竟没有一个标准的AI计算接口存在,在此情况下,应用开发商若要开发各类行应用,就必须针对不同厂商的设备个别支持,如此旷日废时,且可能会受限于不同架构的性能落差而使得应用的表现不如预期。

图丨IanSmythe
arm资深市场行销总监IanSmythe对此表示,他们正在做的就是提供业界更多的选择,其他使用自有AI计算架构的客户也同样能够得到好处。
但DT君认为这是个排他性很强的选择,以包含软硬件等大生态逼迫客户放弃未来开发自有AI芯片的打算,确保能持续主导整体计算架构发展走势,未来甚至要挑战服务器等其他专业AI计算架构——arm这步棋将为整个AI计算生态,尤其是相关芯片产业带来另一波荣景,还是一次大灭绝?恐怕是整个业界目前最关切的。
挑战高端AI计算,直取NVIDIA主场,甚至构筑排他性生态arm要用针对嵌入式市场的小GPU来挑战NVIDIA?乍看之下不大可能,但Ian对DT君展示了其AI计算方案的能效表现,以类似规模的架构来比较,其实arm的方案在能效方面都还是有一定的优势存在,加上arm架构原生就支持高效率的推理工作,配合已经相当成熟的开发套件,可以支持大多数主流机器学习框架,相信对开发者可具相当的吸引力。
当然,要以绝对性能对抗NVIDIA,DT君认为短期间之内还不大现实,但若以能耗、配合arm在边缘计算以及终端上的AI算布局构成完整的生态链,那么要在数据中心市场吃下一定的占比,也不是不可能的事情。
在终端市场方面,前两年AI热潮中,各家新创产业纷纷推出自有的AI芯片,尤其是主流CV方案,市场上可说群雄并起,连过去止做低价主控的公司也都陆续抢进,打造自己的AI方案。
然而,arm这次的作法则是建立了一套从端到云的完整体系,不论客户在市场中的定位如何,都能从arm拿到相对应的方案,且不只是硬件,就连开发工具包以及算法都能提供。DT君认为这将造成相当深远的影响,个别的AI芯片架构IP或者是算法IP供货商会先受到一定的冲击,甚或可能会被逐步逼出市场。
诸如寒武纪、深鉴等想要打进主流消费AI方案的供货商恐怕将成为首波受害者,arm自家方案拥有强大的生态优势,即便绝对性能可能还稍微落后寒武纪或深鉴的方案,但凭借极低的导入门坎,及对主流算法模型的完整支持,且额外增加的成本极低,客户会如何选择,其实已经不言可喻。
毕竟从arm生态的历史发展中,以嵌入式GPU为例,当初arm和Imagination两家英国IP公司关系紧密,相互提携,但后来arm决定要发展自有的GPU架构后,没错,市场有了更多的选择,但事实上,arm依靠包装行销与生态的优势,将Imagination打到落花流水。除少数如高通的Andreno自有GPU架构较不受影响外,目前嵌入式GPU的IP授权产业几乎也都被arm通吃,不复见以往竞争激烈的局面。
后续arm也进入多媒体与显示相关方案的IP市场,同样对相关产业的技术供应商造成相当大的影响,虽然扩大产品布局是arm避免在特定领域掉队,继而维持其市场霸业的最有效方式,而被其策略布局影响到的对手或客户可能就不是那么乐意了。
当然,arm的客户永远都有得选择,但依附在arm生态之下的第三方IP供应商就未必了。
早期从固定功能软件著手,后续补齐硬件与整体开发生态实际上,如果从当年arm进入GPU市场对市场所带来的影响观察,上面所描述结果或许就不那么让人惊讶了。“循序渐进”是arm近年来布局AI生态时很重要的遵循方向,Ian向DT君说道。
其实,arm早在NPU等AI加速芯片概念出现之前,就已经抢先在手机以及其他联网终端产品中引入AI计算概念,而且值得一提的是,虽然arm是提供计算架构硬件基础核心的公司,算法与软件生态环境通常都是跟著新架构发展,但是在AI生态方面,却反其道而行,算法和软件先行,后续才逐渐补上硬件设计与开发环境。
以华为公司的手机为例,其实虽然消费大众被其在Kirin970中采用的NPU设计抓住了眼光,认为此类硬件AI计算架构算是开创了手机产品的另一个新时代,但事实上,早在Kirin960时,ARM就已经提供华为不少关于物件侦测、语音加速以及照相处理等算法与AI软件功能,妥善利用了当时arm芯片基于GPU与CPU合作而来的AI计算能力,虽然没有真正的硬体加速方案,但在效率上已经相当受肯定。

图丨Kirin970
Ian对DT君表示,早期移动终端对AI概念还不明显,因此arm先提供功能有限的软件方案让市场尝鲜,等到市场看出更多应用潜力,不满于现有的软硬件搭配时,arm再推出更完整的硬件设计与开发环境,承接这些想要创造更多可性的客户的需求。
市场的需求总是会一直前进,且应用也会越趋复杂,Mate10的AI场景摄影功能由于进行了更多、更复杂的计算,华为因此选择在芯片中集成了专属的AI计算芯片,也就是NPU,期望在增加AI计算复杂度的同时也要能改善性能表现,苹果过去的AI方案主要也是基于GPU计算,但同样在其A11芯片中引入架构类似的神经网络芯片。
由于AI技术的革新速度超乎预期,众多芯片客户心中也开始有了疑惑:arm的AI方案呢?Ian对DT君表示,其实arm早在2016年发表基于Bifrsost架构的MaliG-71时,就已经希望借由该架构来推动AI在终端以及边缘计算的应用场景,但当初可和主流AI、机器学习框架紧密结合的整套软件开发环境还不够成熟,且arm也不希望揠苗助长,推出半生不熟的环境搞坏自己名声,因此在ProjectTrillium发布前,基本上也都没有太多动作。

这次虽然推出通用的AI开发平台,但首波针对的还是基于计算机视觉(CV)为主的OD(objectdetection)处理设计平台,以及机器学习等市场相对较成熟,且应用较广的方。Ian进一步表示,基于ProjectTrillium开发平台的AI应用将可针对几乎所有类型的AI应用,小到IoT设备,大至数据中心,只要是机器学习相关的应用开发需求,都可基于同一套可变规模的架构发展出来。
以GPU算力为核心,结合CPU生态优势,首波布局边缘计算GPU计算可说是arm未来要发展AI计算生态的主要角色,从第一代BiFrost架构开始,就已经针对AI计算所需要的各种场景,包含机器学习中的训练,以及推理加速等进行优化。
我们都知道,过去数据中心以及超算架构中所使用的GPU架构,其实只能应对训练,但是训练完,要利用模型推理的工作处理上,效率非常差,这主要是因为传统GPGPU擅长计算32bit甚至64bit的高精度整数或浮点计算,但是在深度学习所需要的数据处理而言,其实不需要这么高的精度,大部分场景下甚至只需要低精度的整数计算即可。目前,包含TPU、NPU等各种专用计算硬件都把8bit精度计算当作标准的数据处理宽度,也因此其每秒操作性能都可达数个TeraFlops。
arm早在数年前投入研发机器学习架构时,就已经把8bit宽度数据处理能力列为标准,不只在GPU,CPU中的NEONDSP单元也同样支持8bit宽度数据计算,因此基于arm机器学习平台,不仅可充分应对机器学习的训练需求,推理能力也能充分获得满足。

图丨arm推出面向机器学习和神经网络的ProjectTrillium
虽因这样的设计,过去arm的MaliGPU在芯片面积及功耗表现稍弱,但随著芯片工艺的改进,以及各种AI计算需求的带动,其设计的价值也逐渐被显现出来。
arm的AI计算平台规划同时也包括了数据中心等应用。Ian对此表示,由于数据中心等大型机器学习平台数据流通量极大,如果只是单纯把目前针对移动平台开发的arm架构规模等比例放大,核心算力虽足够与一线平台相提并论,但数据传输能力就会成为短板,即便核心算力再强大,数据来不及存取,那么芯片也只能空转,平白浪费能源。
因此,arm初期还是会以数据需求量较小的终端和边缘计算应用为主,着重在小规模的计算应用,2018年稍晚就会推出新版架构,补足总线与带宽方面的缺点,正式向目前主流的数据中心应用挑战。





