旺盛的AI智算需求驱动下,越来越多GPU路线之外的AI芯片正获得更多市场关注。
从美股市场看,博通(Broadcom)水涨船高的订单量和股价大涨背后,少不了众多云服务厂商寻求英伟达GPU生态之外技术路线的支持,以谷歌(Google)为代表的TPU(张量计算单元)芯片、Groq为代表的LPU芯片都是其中典型。
在国内市场同样如此,立足于ASIC定制芯片的众多厂商正在快速发展。
对于目前市场中XPU广泛发展的情况,中昊芯英联合创始人兼CTO郑瀚寻接受21世纪经济报道记者专访时指出,“在计算技术发展迭代过程中,产业界持续追求更高费效比的路径,可能会逐渐向某个方向收敛,这是可以预见的趋势。”
他进一步表示,过去,业界普遍认为ASIC芯片从流片到最终落地应用过程中,需要付出较高成本,但随着专用芯片持续发展,其成本不再那么高昂时,会有越来越多厂商愿意借力自研专用芯片架构,探索推进个性化AI能力落地。这是ASIC芯片备受关注的原因。“好比在架构方面,天下大势,合久必分、分久必合。”
TPU跃起
寻找GPU芯片之外的发展机会早已是一种新趋势。
郑瀚寻对记者分析,近些年间硅谷涌现出的芯片新玩家,如Groq、SambaNova和Cerebras等,均没有选择GPU或类似GPU架构,而是致力于通过架构创新实现性能和能效突破。
“渐进式能力提升难以缩小与英伟达的差距,唯有求新求变,才有可能实现类似新能源汽车领域的‘弯道超车’。”他指出。此外,GPU芯片如今取得的成功,更大程度在于英伟达的成功,其多年来累积了深厚的工程化实验团队,这已经不是所有后来者可以直接照搬复制的路线。
在GPU之外,定制化ASIC芯片早已受到更大关注,无论是博通近期再度“炸裂”市场的百亿美元订单,还是谷歌持续对TPU自研芯片的演进,都显示出,市场的确对GPU之外的AI计算芯片同样有关注度。
中昊芯英选择的就是与谷歌类似的GPTPU路线。
郑瀚寻对21世纪经济报道记者分析,自从英伟达在旗下Tesla V100系列芯片中加入Tensor Core(张量处理单元)以来,其对CUDA Core在处理单元方面其实并没有呈现剧烈波动、功能实现也没有太大变化,反而是对Tensor Core的数量、支撑功能等方面,每一次迭代都有新亮点。
“因为对张量计算单元进行投资会很划算。”他进一步指出,尤其在大模型时代,随着处理数据规模的持续扩大,每多N倍数据传输量,张量运算单元就能够完成N²的计算量,意味着能实现相对划算的计算效果。
倘若简单类比的话,郑瀚寻指出,传统CUDA Core可以理解为是让一群大学生同时完成一道题目,其中CPU是博士生,可以处理很复杂的题目,但该群体中只有一位博士生;GPU由于是多人共同进行运算,看起来会比CPU更能胜任有较大计算量的工作;但TPU更像是一台3D打印机,能够把计算任务一次性打印成型。
换言之,也可以将TPU理解为是新能源车产业的发展,在车型内部设计过程中调整了传统燃油车的变速箱、传动装置等配置,由此虽然在物理空间方面有一定限制,但在同样算力数量级的前提下,可以实现更好的数据迁移和存储表现,同时实现更低的能源消耗。
“因此可以看到,TPU可以对计算效率和能耗方面都带来突破性变化,不仅在传统深度学习领域,甚至在AI for science和科学模拟等领域,也已经可以通过采用Tensor Core的计算架构受益。”他补充道。
生态加速度
大模型持续发展,Scaling Law仍未失效,这意味着运行模型对底层AI算力集群在提出更高要求。如何把“单点能效”持续放大到“集群能效”,是国产XPU芯片面对的进一步挑战。
为应对这些趋势,AI芯片产业链厂商分别针对芯片间、机柜间、数据中心间等不同维度,着力应对庞大规模的高速数据传输需求。
郑瀚寻对记者表示,很显然,未来数据传输会是AI基础设施面临的瓶颈之一。“一方面,在这里可以发挥Tensor Core的优势,通过传输N倍的数据量,完成N²的计算量;另一方面,在算力提升后,就要对互联能力发力。TPU芯片的优势在于,谷歌此前推出第三代产品时,已经支持多达千片芯片规模的片间互联。”
据介绍,中昊芯英能够支持千卡集群内1024片芯片直接光模块高速片间互联,并且有了千卡集群的落地实践也在探索借助OCS全光互联等新技术方案,来进一步增强自身互联能力。
从英伟达的路线来看,其是通过构建InfiniBand高速互联协议,形成公司的一条护城河,市场也一度有声音提到,InfiniBand是更适合大规模数据中心集群部署的连接协议。
但也因为英伟达相对封闭的态度,令其竞争对手更积极推进以太网协议的发展。这也是多数国产AI芯片厂商选择的方向。
“今天的以太网早就跟过去不同了。”郑瀚寻对记者分析道,近两年来,头部AI芯片厂商在积极构建以太网联盟,而该技术路线本身无论是物理介质还是带宽能力都实现大幅提升,已经十分具竞争力。“例如特斯拉基于以太网介质和底层推出的TTPoE(Tesla Transport Protocol Over Ethernet)连接协议,能够实现很低延迟。我们基于类似做法,对比特斯拉发布的论文后发现,中昊芯英的互联延迟已经做得比特斯拉表现更好。”
软件生态建设同样不容忽视。由于英伟达建设十余年的CUDA生态为闭源状态,国产芯片平台均绕不过自主建设软件栈和工具链的过程。
“类比手机生态来说,在安卓系统刚起步时,国产手机为了能顺畅运行一款大型游戏,各家也需要对自身系统投入大量精力进行具体优化。”他指出,未来国产AI芯片也将通过持续的工具链完善,实现不同平台间的兼容与流畅体验。
当然对于模型本身而言,Transformer架构自2017年提出以来,经历了各种优化和改进,如今,越来越多多模态大模型甚至世界模型也在探索落地。
郑瀚寻对21世纪经济报道记者指出,虽然目前大模型仍在迭代,但“万变不离其宗”。“今天市面上绝大多数大语言模型,本质上仍然脱胎于《Attention Is All You Need》论文,也就是以Transformer架构定义了今天大语言模型新范式的逻辑框架仍未改变。虽然后续有模型在某些细微环节提出优化方案,但整体结构并未出现根本性变化。”
他续称,这也给了AI芯片厂商发展机会,按照1-2年的产品迭代周期,有序推进研发进程。此外,公司团队也在持续关注模型的演进方向,如果有需要,会及时把相关功能落地到芯片中。