登录注册   忘记密码

麒麟970到底有多牛?

随着技术的发展,人工智能(AI)逐步深入到我们的生活,彻底改变我们的世界。智能手机圈已经掀起了人工智能处理器的浪潮,可以说是智能手机新一轮的重大革新。


今年九月份的2017德国柏林国际消费类电子产品展览会上,麒麟970引爆了全球的注意力,其创新的HiAI移动计算架构和领先的AI运算能力让未来手机有了更大的想象空间。


最近几年麒麟芯片表现强劲, 从2004年至今,看看华为,看看海思是怎样从零开始创造出麒麟系列芯片,成为传奇地在垄断的行业杀出自己的一片天空的。


麒麟芯片发展史

我们在价值平衡上,即使做成功了,(芯片)暂时没有用,也还是要继续做下去。一旦公司出现战略性的漏洞,我们不是几百亿美金的损失,而是几千亿美金的损失。我们公司积累了这么多的财富,这些财富可能就是因为那一个点,让别人卡住,最后死掉。……这是公司的战略旗帜,不能动掉的。

——任正非


2004年,任总高瞻远瞩,大手一挥,华为要做自己的手机芯片。于是创立于华为集成电路设计中心改制成为海思半导体有限公司。 如今华为和荣耀所获得的成功,有海思一半的功劳。


2009年,K3v1发布,这是海思成立以来,发布的第一款智能手机芯片。由于第一款产品还有一些不成熟,注重品质的华为最终没有让这款芯片走向市场。但是这款芯片无疑在关键的节点迈出了历史性的一步,要知道2009年iphone才出到3gs,智能手机市场方兴未艾。


2012年,华为发布了K3v2芯片。这款芯片采用了1.5GHz主频四核Cortex-A9架构,集成GC4000的GPU,并且使用了40nm的工艺制程制造。这款芯片用在了华为P6和Mate 1上,这是海思芯片第一次商用,也是第一次将自研芯片用在自家手机上。


当时的P6可以说是相当惊艳了,极轻薄的机身,极低的重量,极高的性价比造就了当年的神机。

640.webp (25).jpg

时间到了2014年初,经过多年的技术沉淀以及两年的商业磨砺,海思芯片迎来了爆发的两年。


那时,麒麟910发布。海思也终于确定了麒麟 数字的命名规则。


麒麟910采用了1.6GHz主频四核Cortex-A9架构和Mali-450MP4 的GPU,使用了28nm HPM制程,首次集成自研的Balong710基带,首次集成了华晶Altek的ISP。


麒麟910不仅放在了P6的升级版P6s中,还陆续成为华为Mate 2、惠普Slate 7 VoiceTab Ultra等设备上,成为他们强劲的心脏!


同年,麒麟910的升级版910T发布。搭载着这款升级心脏的华为P7一举斩获700万销量。


依旧是2014年,随着荣耀6的发布,我们看到了一个全新的麒麟系列芯片——麒麟920。这是全球首款LTE CAT.6的芯片,性能极其出众。


麒麟920采用4×A15 1.7GHz 4×A7 1.3GHz和Mali-T628MP4 GPU,以及使用28nm HPM工艺制造,集成了音频芯片、视频芯片、ISP,集成自研全球第一款LTE Cat.6的Balong720基带。这时候人们才惊叹,原来不可能的事,终于被华为做成了。

640.webp (27).jpg

同年9月,920的升级款,麒麟925发布。集成了被命名为“i3”协处理器的麒麟925,在华为Mate 7和荣耀6 Plus身上大放异彩,并帮助华为Mate 7在国产3000价位上高端旗舰的历史,全球销量超750万。


2014年的最后一个季度,不仅有高端市场的麒麟928,还有面向中端市场的麒麟620。这充分说明了海思的综合实力已经达到了一个极高的水准,不仅能飚性能,还能做出功耗更加平衡的中端芯片。


值得一提的是,麒麟620不仅是海思旗下首款64位芯片,更集成了集成自研Balong基带、音视频解码等组件。正是这些优秀的特质,让搭载了麒麟620的荣耀4X成为了整个华为系(华为 荣耀)第一款销量破千万的神机。随后,同样搭载这款芯片的荣耀4C和华为P8青春版销量也先后突破千万大关。


时间悄悄来到2015年,麒麟先后发布了930/935/950,散热、能耗比和时间差,是这一年海思的关键词。930/935时代,凭着极其精准的选择,海思避开了发热/不成熟的A57构架,选择了高能耗比的A53构架,获得了无数消费者的赞誉。


950时代,海思又毫不犹豫地作为第一个吃螃蟹的人,采用了A72构架和Mail-T880芯片。当然,收获的是性能飙升,和业界的一片赞誉。

 

2016-2017年上半年,是华为和荣耀进入王朝盛世的两年,麒麟955助力华为P9成为华为旗下第一款销量突破千万的旗舰手机;麒麟650作为一款中端芯片,是海思第一款集成了CDMA全球通基带的SoC芯片;麒麟960不仅解决了CDMA基带问题,还极大地提升了GPU性能,成就了荣耀V9的“性能怪兽”之名。

640.webp (28).jpg

一路走来,海思一步一个脚印,踏踏实实从无到有,在这个原本空白的领域创造了属于中国人的一片天空。


2017年9月,麒麟970闪耀登场, 划开人工智能大幕的手机芯片。


麒麟970

1、全球第一枚集成NPU神经网络单元的移动芯片


麒麟970是华为首款人工智能移动计算平台,并且是全球首个集成独立AI人工智能专用NPU神经网络处理单元的移动芯片,所采用的是创新的HiAI移动计算架构。


所谓的HiAI移动计算架构,主要有四部分组成,CPU、GPU、ISP/DSP和NPU。作为全球第一枚集成专用NPU的移动芯片, NPU神经网络单元在HiAI架构下AI性能密度大幅由于CPU和GPU,能够用更少的能耗更快的完成更多任务,大幅提升芯片的运算效率。

640.webp (29).jpg

更具体来说,在16位浮点数(即FP16)时,麒麟970内置的NPU运算能力达到1.92 TFLOPs,在AI人工智能深度学习下,所有硬件能够协调芯片内部的各个组件及手机硬件,如ISP、DSP,保持处理某些特定任务时,提升速度并低功耗运作。例如有了NPU的加成,在图像识别任务上,对比Cortex-A73 CPU 性能提升25倍,能效提升50倍之多,拍摄1000张照片仅仅消耗4000mAh电池手机0.19%的电量,图像识别速度可达到约2000张/分钟。


相比之下,三星S8使用CPU处理每分钟仅95张,苹果iPhone 7 Plus同时使用CPU和GPU,每分钟也仅能识别487张,华为完胜。


麒麟970有了NPU单元之后,至少在拍照和图像处理上,比之前单纯依赖CPU和GPU要快得多。而对于竞争对手,麒麟970最直接的就是保持高效率,并且更加的省电。未来AI独立单元内置于芯片一定是趋势,苹果也在做,只是华为抢先开了个头,据说拿到了中科院寒武纪授权的AI指令才加速了研发。当然了,所谓的AI加持提升多少运算处理效率,目前并没有统一标准进行衡量,只能听华为官方的举例来解释。


无论如何,在AI人工智能芯片领域,FP16和FP8已经变得越来越重要,因为神经网络使用十进制数作为计算矩阵的一部分,然而这些浮点数不需要那么精确,这意味着FP16和FP8比一个完整的32位或64位浮点数更重要。


按照华为的说法,AI芯片能够以人类的思考方式来理解人类诉求,具备高处理速度,高密度和高能效比,而麒麟970只是个开始,并超越竞争对手。余承东表示,麒麟970更快,更强,更聪明,更出色带来了人工智能时代下的崭新体验,展望智能手机的未来,我们正处于一个激动人心的新时代开端,“移动AI=设备AI 云AI”,未来智能终端将能够看懂、听懂,更了解你,能够思考更懂你,能够对话以更好的服务你。

640.webp (30).jpg


2、CPU无提升令人失望,GPU难得首发了Mali-G72


麒麟970采用的是台积电的10纳米工艺制程打造,在约100平方毫米的狭小体积内集成了55亿个晶管体。相比之下,竞争对手高通当下最强旗舰芯片骁龙835集成的晶体管数量是31亿,而苹果A10则是33亿。


CPU部分,麒麟970与上一代麒麟960一样为八核心设计,由4个主频为2.4GHz的Cortex-A73大内核与4个主频1.8GHz的Cortex-A53内核组成,性能上无变化,毕竟同样架构频率,传闻所说的2.8GHz主频吊打骁龙835并没能实现,但跑分上追平骁龙835应该没问题,并且得益于10纳米工艺的进步能效提升20%。


GPU图形处理器单元部分,华为麒麟970全球首发了ARM的Mali-G72 MP12,12个核心,这是华为首次上两位数核心的GPU了,图形处理性能相比960强很多,性能提升幅度达到20%,同时能效还降低了50%。


整体看完CPU和GPU,其实麒麟970在功耗方面进步不大,麒麟960高功耗的问题没有通过10纳米得到彻底解决。因为按照正常芯片的更新换代,必定有性能提升功耗下降的进步,而麒麟970的CPU性能未能得到提升的情况下,也仅降低了20%功耗。如此来看,加入NPU单元的确是华为本次升级工作的重点了,而不是抢先冒险用上ARM今年早些时候发布的A75和A55架构。

640.webp (31).jpg


3、全球领先的4.5G网络基带,还支持UFS 2.1


华为还全球首发了“4.5G,Pre 5G”调制解调器,支持LET Cat 18通信规格,下行峰值速度最高可以达到1.2Gbps,其他参数还包括有4X4 MIMO、5CC CA和256QAM,支持双卡双VoLTE。这一调制解调器能够在全球范围内实现各运营商的高速率组合,华为经过了40万公里的高铁测试,因此在高铁上也能保持稳定的下载速率,再也不用担心坐高铁掉网“失联”。 

640.webp (32).jpg

麒麟970提供双ISP图像处理单元和Image DSP信号处理单元,得益于更加强大的算法优化和AI神经网络辅助下,吞吐量增加25%,支持AI场景识别、人脸追焦、智能运动场景检测,同时夜拍效果提升。所以,发布会上余承东展示了搭载麒麟970芯片的设备,在拍照上日常吊打三星的Galaxy S8。


另外,麒麟970集成有最新的i7协处理器,视频解码支持4K HDR10格式,内建TEE和inSE安全引擎,拥有更高的安全性集成HiF级硬盘芯片,支持音频流高达384KHz/32bit母带级别音质。需要注意的是,华为官方参数标明,麒麟970不仅最高支持LPDDR4X内存,而且还支持UFS 2.1闪存储存,未来推出的麒麟970设备时候是否还混用eMMC闪存就不清楚了,毕竟上一代麒麟960也支持UFS 2.1。


华为麒麟970与苹果A11处理器的终极PK

华为和苹果在智能手机AI芯片领域上已经先行了一步。华为的麒麟970处理器拥有一个专门的神经处理单元(NPU)。苹果将自己最新的处理器命名为A11 Bionic,主要就是因为内置了人工智能“神经引擎”。这两家公司走在了智能手机AI芯片的应用前列。究竟智能手机AI芯片“双龙”的策略和布局又是如何的呢?

640.webp (33).jpg

华为麒麟970处理器先于苹果A11 Bionic发布,成为世界首款带有独立NPU专用硬件处理单元的手机芯片, 那么这两款先后诞生的AI手机芯片有何异同?

首先,从AI模块的部分来看,华为和苹果都选择了ASIC方式来实现。为了应对不同AI应用场景下的需求,目前AI芯片领域分为几个流派:并行计算能力和功耗一样高的GPU、可重新定义内部电路连接的FPGA、深度定制的ASIC。这几种技术流派各有优势之处。


相比之下,虽然设计的时间比较长,但ASIC加速器的速度会比用同样工艺FPGA加速器速度快5~10倍,在功耗上也远远优于GPU,而且一旦量产后,ASIC的成本会远远低于FPGA方案。华为和苹果在这一点上不谋而合,均选择了ASIC方式,可见双方规划、眼光均一致,也都早于同行发力AI。

640.webp (34).jpg

第二,在性能方面,麒麟970的HiAI架构首次集成了NPU专用硬件处理单元,带来领先的AI运算能力,让智能手机真正进入AI时代。苹果同样采用了专用的神经网络引擎(Neural Engine),但并非专用NPU。


对比来看,华为第一次在移动设备层面把神经网络模型的硬件计算加速能力融入芯片中。这也是业内第一次在手机芯片中出现了专门用于人工智能计算的处理单元。HiAI架构通过更高效灵活的异构计算来最大化发挥CPU/GPU/ISP/DSP/NPU的性能,其加速性能和能效比大幅优于CPU和GPU。例如,作为专门为深度学习定制的模块,麒麟970每分钟可以识别2005张图片,而如果用CPU每分钟只有95张,前者比后者多了20倍。 


第三,从芯片集成度来看,麒麟970采用了最新的TSMC 10nm工艺,集成了55亿个晶体管。苹果A11 Bionic同样采用TSMC 10nm FinFET工艺,集成了43亿个晶体管。但其只是AP,如果加上基带的约10亿个晶体管(以规格领先的高通基带X16为例),则是53亿个晶体管。


从晶体管数量来看,两者相差不大,但是麒麟970实现了更多的功能。例如在通信方面,这可谓是华为的看家本领,麒麟970实现了全球最先进的规格Cat18/Cat13,使用4*4MIMO、5CC CA以及256QAM等多种先进技术,将碎片化的频谱聚合成为最大带宽,聚合峰值能力最高可达到1.2Gbps的下载速率,再次刷新了移动互联网联接的最快速度;而iPhone8 和iPhone X的通信规格却无从知晓,有人说是Cat9, 峰值下载速率是450Mbps。即使是高通当前商用的最先进的基带X16,也只是Cat16,峰值下载速率是1.0Gbps。同时,麒麟970率先商用双卡双4G双VoLTE,成功实现了一部手机上两张SIM卡均支持4G VoLTE通话,提供主副卡一致的高清语音、视频通话体验。这方面麒麟970也要优于苹果A11。


因此相较而言,两者面积相当,晶体管数量相当,麒麟970性能更优、体验更佳。


第四,在应用和生态方面,分属安卓阵营和iOS阵营的麒麟970和苹果A11 Bionic也各有特色。

应用方面,苹果的AI技术更偏向酷炫,主要用于Face ID,拍照时的场景识别,以及Animoji等应用,应用面较窄,而且应用开发环境也相对封闭。华为则更注重务实,应用场景也相对更丰富。加入HiAI移动计算构架之后,使传统摄影进入智能摄影阶段,越用越聪明。在语音方面,利用人工智能的硬件与软件相结合,通实现实时文字交互翻译和识图翻译,也可方便地进行面对面的语音翻译,并且通过AI芯片加速具有学习能力,会越用越聪明。


虽说华为麒麟970和苹果A11 Bionic为AI芯片应用的落地奏响了号角,但是这一领域的创新涉及到人工智能算法、编程语言、计算机体系结构、集成电路、半导体工艺等多方面,绝不是一蹴而就的事情。


伴随着AI芯片市场多样化发展的,还要各种亟待解决的瓶颈。目前技术方面的挑战在于算力提升、算法优化、功耗降低以及更好地集成等方面,未来还将会遇到安全问题。衡量AI芯片计算性能的一个重要指标称为算力。通常而言,将每秒所执行的浮点运算次数(亦称每秒峰值速度)作为指标来衡量算力,简称为FLOPS。在本已寸土寸金的手机SoC中,再加入NPU或者其他AI模块,这对芯片架构设计复杂性、成本、系统集成带来的软件架构等方面都提出了更大的挑战。

您的评论:

0

用户评价

  • 暂无评论