原标题:AI“大跃进” 问题来了:芯片还够吗?
在ChatGPT带来的AI热潮中,继百度之后,360、华为、腾讯、阿里甚至是科大讯飞、商汤、创维等企业均表示将推出自己的大语言模型。
尽管ChatGPT及一众主流大模型背后的芯片主力仍是GPU,但严峻的挑战已经摆到眼前:生成式AI所需计算量不断增加,而算力增长空间却即将触顶。
4月5日,OpenAI暂停ChatGPT Plus的注册,随后又重新恢复,其中原因是算力需求量超载。此前,ChatGPT还因访问量过大而大规模封号,并禁止使用亚洲节点登录,主要还是算力不足造成的。
尽管OpenAI踩下“刹车”,但大洋彼岸的A股算力概念股依旧掀起巨浪,一时间炙手可热。业内称,如今AI的“iPhone时刻”已经来临,作为人工智能时代的底层基座,谁掌握了算力资源,谁就拥有了引领数字经济发展的“终极武器”。在这个历史性的变革时刻,中国不能缺席。
AI模型开启算力军备竞赛
作为人工智能三大核心要素(数据、算法、算力)之一,算力被誉为人工智能“发动机”。在AI风暴的催化下,浪潮中的AI大算力芯片公司面临着摩尔定律濒临极限之外的技术挑战:以更低的系统成本、更少的能源消耗,支撑起庞大且持续增加的参数量所带动的高算力需求。
根据OpenAI测算,自2012年以来全球头部AI模型训练算力需求每3-4个月翻一番,每年头部训练模型所需算力增幅高达10倍。AI深度学习正在逼近现有芯片的算力极限,也对芯片设计厂商提出了更高要求。
在技术架构层面,AI芯片可分为GPU(图形处理器)、ASIC(专业集成电路)、FPGA(现场可编程门阵列)和类脑芯片。随着现象级AI产品ChatGPT的走红,以大型语言模型为代表的前沿AI技术走向聚光灯之下,这类模型所需的数据量、计算量庞大,成本高昂。
例如,目前采购一片英伟达顶级GPU成本为8万元,GPU服务器成本超过40万元。对于ChatGPT而言,支撑其算力基础设施至少需要上万颗英伟达GPU A100,一次模型训练成本超过1200万美元。
根据浙商证券研报,ChatGPT背后的算力支撑主要来自GPU或CPU+FPGA。由于具备并行计算能力,可兼容训练和推理,GPU目前被广泛应用。
除了GPU以外,CPU+FPGA的方案也能够满足AI庞大的算力需求。FPGA全称为现场可编程门阵列,是一种可以重构电路的芯片。作为可编程芯片,FPGA芯片可以针对特定功能进行扩展。通过与CPU结合,FPGA能够实现深度学习功能,两者共同应用于深度学习模型。
近期,英特尔透露,计划将在今年推出15款新FPGA,这将刷新英特尔该品类的年度推新纪录。其实在3月初,英特尔就发布了Agilex7 FPGA F-Tile,并配备FPGA收发器,其每个通道的带宽都较上一代提升了一倍,在给产品提供更高的数据流量的同时也降低了功耗。
目前,FPGA领域的本土化程度较低。中国市场主要由赛灵思Xilinx(现已被AMD收购)和英特尔两大厂商主导,占据了超过70%的市场份额。国内厂商安路科技、紫光国微、复旦微电等总份额约为15%。
寒武纪作为科创板AI芯片第一股,是全球少数全面掌握AI芯片技术的企业之一。其产品矩阵涉及云端产品、边缘产品和IP授权及软件,前两者对标英伟达、AMD,IP授权则对应英国的ARM。云端芯片就是目前大语言模型最为需要的动能来源,在该领域,英伟达A100、H100系列占据金字塔顶尖位置。
作为追赶者,寒武纪推出了思元系列,思元290、思元370等已经进入浪潮、联想、阿里云等多家头部客户。去年3月,寒武纪正式发布新款训练加速卡“MLU370-X8”,其搭载了思元370,主要面向AI训练任务。
差距悬殊,弯道难以超车
作为当前唯一可以实际处理ChatGPT的GPU供应商,英伟达是当之无愧的“AI算力王者”。
6年前,黄仁勋亲自向OpenAI交付了第一台搭载A100芯片的超级计算机,帮助后者创造ChatGPT,并成为AI时代的引领者。
在2023年3月22日召开的GTC大会上,黄仁勋又展示了速度比现有技术快10倍的英伟达HGX A100,可将大语言模型的处理成本降低一个数量级。
目前,英伟达市值飙升到6678亿美元(约合4.6万亿人民币),几乎是传统芯片巨头英特尔市值的五倍,成为全球最大市值的芯片企业。英伟达在PC的GPU市场上占据了近70%的份额,在独显市场的份额更是高达70%-80%。
据TrendForce分析,运行1800亿参数的GPT-3.5大型模型需要2万颗GPU芯片,大模型商业化的GPT则需要超过3万颗。
然而,根据相关报道,国内目前拥有超1万颗GPU的企业不超过5家,拥有1万颗英伟达A100芯片的可能最多只有一家,绝大部分中国公司都只能采购英伟达的中低端性能产品。
即使国内头部公司,从算力上跟美国的英伟达等公司相比,差距也非常明显。
就GPU细分赛道而言,国内自研GPU的领军企业主要包括景嘉微、壁仞科技、芯动科技等。其中,其中,景嘉微是成立最早的一家,自2006年开始研发拥有自主知识产权的GPU产品,现在已经推出了一系列产品线,且均采用国内成熟制程工艺和自主架构。
景嘉微的主打产品是JH920独立显卡。根据行业专家的评测,从性能参数上来看,JH920的性能与英伟达2016年发布的GTX 1050相当,虽然两者仅相差6年,但由于GTX 1050是英伟达10系列显卡中的入门级产品,无法代表当时的整体水平。
要想找到与GTX 1050性能相当的英伟达产品,需要回溯到2010年推出的GTX 580,这意味着景嘉微JH920基本上达到了英伟达12年前的水平。
所以整体而言国产GPU的现状并不算乐观,虽然在特殊领域能够自给自足,但在中高端领域依旧捉襟见肘。
与此同时,中美地缘关系的博弈气息日渐浓厚,这给高度依赖先进制程的AI芯片创业公司提出了技术之外的新难题。
去年,在美国总统拜登正式签署芯片法案(《CHIPS and Science Act》)一个月之后,美国政府对华实施了高端GPU芯片的出口禁令。同时,国内GPU设计商壁仞科技的GPU芯片BR100在台积电的试产也被迫叫停并主动修改设计,以满足出口禁令的要求。
A100和H100被禁止后,中国企业只能奢望其替代品A800和H800。2022年11月7日,英伟达向中国的供应商提供其重新封装的A800芯片。据称,国内几家头部互联网企业都向英伟达下了1.5万左右的A800和H800订单。但即使是最佳替代品A800,也只是A100的“阉割版”,其传输速度和运算性能较A100下降了50%。
被美国等国联合封堵的我们,或许在较长时间内都无法制造出比肩英伟达等国际顶级公司的高水准AI芯片。面对一个新的时代,我们又该如何破局?
换道行驶,续命摩尔定律
一直以来,头部厂商通过不断提升制程工艺和扩大芯片面积推出算力更高的芯片产品。虽然GPU、CPU+FPGA等芯片已经对现有模型构成底层算力支撑,在应对生成式AI及大模型对算力基础设施提出的新要求,都多少显得有些捉襟见肘。
伴随着摩尔定律逼近物理极限,制程升级和芯片面积扩大带来的收益边际递减,架构创新或成为提升芯片算力另辟蹊径的选择。
Chiplet及先进封装方案能够弥补先进制程落后的劣势,通过将来自不同生产厂商、不同制程工艺的芯片组件“混搭”,降低实现目标性能所需的成本。研究数据显示,当5nm芯片的面积达到200㎜²以上,采用5Chiplet方案成本将低于单颗SoC,并将大幅降低因面积增加带来的良率损失。
除了成本和良率端的优势,Chiplet技术带来高速的Die to Die互连,使多颗计算芯粒得以集成在一颗芯片中,实现算力的大幅提升。
台积电是Chiplet工艺的领军者,目前其技术平台下有CoWoS、InFO、SoIC三种封装工艺。其中,早在2016年英伟达Tesla P100 AI数据中心GPU就已经应用CoWoS工艺,AMD的最新GPU、CPU也广泛采用了该工艺。此外,三星、Intel等龙头厂商亦推出了各自用于Chiplet的封装技术,如三星I-Cube(2.5D封装),X-Cube(3D封装),英特尔EMIB(2.5D封装),英特尔Foveros(3D封装)。
不止在国际,近几年Chiplet在中国大陆也非常火爆,特别是美国开始打压中国半导体业以来。Chiplet既能减少先进制程用量,同时又能带来先进制程的好处,这为国内芯片企业提供“换道行驶”的机会。
目前国内封测巨头相关技术积累已初显成效。例如长电科技的XDFOI Chiplet高密度多维异构集成系列工艺已进入稳定量产阶段;通富微电与AMD密切合作,已大规模生产7nm Chiplet产品;华天科技的Chiplet系列工艺也实现量产。
Chiplet设计主要用于大型CPU和GPU等处理器。虽然当下国产CPU特别是大芯片与国际大厂存在明显差距,但华为海思、寒武纪科技等少数企业正重点研发并采用7nm及更先进制程的服务器芯片和AI芯片。
在GPU方面,英伟达等国际GPU龙头企业已经构建了牢固的专利墙。无论是老牌企业如景嘉微和海光,还是新兴创业公司,如芯动科技、壁仞科技、摩尔线程、沐曦集成电路、天数智芯等,大多还处于发展初期,且所设计的芯片规模有限,采用Chiplet设计的还不多。
不过,一些GPU企业,特别是创业公司,虽然短期内难以在大芯片领域形成规模,但长期发展前景仍值得期待。例如,近几年天数智芯在云端GPGPU方面异军突起,其推出的7nm制程云端训练和推理GPGPU,能够为云端AI训练和HPC通用计算提供高算力和高能效比。类似这样的芯片成为中国本土Chiplet技术发展的希望。
近期,中国成立了自己的Chiplet联盟,由多家芯片设计、IP、以及封装、测试和组装服务公司组成,并推出相应的互连接口标准ACC 1.0。这一联盟的成立,颇有与由AMD、Arm、英特尔、台积电等主导的UCIe联盟分庭抗礼的意味,也反映出中国相关企事业单位要从底层做起,发展本土Chiplet的愿望。
通过标准的设立,可以将自己生产的芯片变成Chiplet企业使用的“标准产品”,被不断地集成到各种终端应用中,从而为芯片行业开辟出一片新天地。
结尾
算力的每一次提升,都掀起技术与产业变革的浪潮:CPU带领人类进入PC时代,移动芯片掀起移动互联网浪潮,而AI芯片打破了AI产业此前长达数十年的算力瓶颈。如今,“人工智能的iPhone时刻”已经来临,走向下一个时代的路,或许早已摆在我们眼前。
正如阿里巴巴集团董事会主席张勇所言,面向AI时代,所有产品都值得用大模型重新升级。过去一年消费电子的低迷使得一些GPU公司的产品找不到应用场景。但随着ChatGPT出现,相关芯片的应用场景开始增加,并发展成AI基础研究和产业化落地的一大趋势。
AI往前发展,超高算力需求毋庸置疑AI大算力芯片技术提供了一种可行的解决方案。未来几年,中美两国将成为大模型的主要诞生地,并不计成本地带动对算力芯片的需求。不管是弯道超车还是换道行驶,在这场AI的征途中,中国算力企业万象竞逐的画卷才刚刚展开。