• 最近访问:
发表于 2025-12-09 09:24:01 股吧Android版 发布于 重庆
股市是反人性的
发表于 2025-12-08 19:46:23 发布于 重庆

$科德教育(SZ300192)$  $致尚科技(SZ301486)$ $创业板指(SZ399006)$


近日,谷歌母公司 Alphabet(NASDAQ:GOOGL)股价连续多日强势上涨,市值逼近 4 万亿美元,创下历史新高。截至 24 日收盘,Alphabet 市值约为 3.84 万亿美元,位列全球第三,仅次于英伟达和苹果。

这股推动 Alphabet 市值创新高的动力,不仅源于巴菲特旗下公司破圈大举买入谷歌所带来的市场信心,更来自谷歌TPU业务今年以来接连获得的全球关键客户背书:10 月 24 日 Anthropic 与谷歌共同宣布,双方达成价值数百亿美元、规模达百万片的 TPU 采购协议;11 月 23 日,马斯克披露特斯拉已在车辆控制系统与数据中心大规模部署自研 AI 芯片,数量达数百万颗;11 月 25 日 The Information 报道称,Meta 正计划于 2027 年将谷歌 TPU 部署至自有数据中心,并最早自明年起租用谷歌云 TPU 算力;而近期口碑爆棚的 Gemini 3 正是谷歌用深耕 10 年的自研 TPU 芯片训练的成果。

这些看似独立的动向,共同指向一个清晰的行业转折点:AI 算力市场正加速摆脱对英伟达 GPU 的单一依赖,寻求基础设施多元化,拥抱以 TPU 为代表的 AI 专用芯片的新架构方向。

Meta 加持:谷歌 TPU 从云服务到本地部署的战略升级

TPU 是谷歌专为机器学习定制的 AI 加速芯片,在性能、能效比和成本方面为 AI 计算提供了新的选择。与英伟达的通用 GPU 相比,TPU 采用脉动阵列等简化控制逻辑的设计,在执行大规模的矩阵乘加等神经网络核心运算时,能够实现极高的能效比和量。

2015 年始,TPU 在谷歌内部部署,并成功支撑了 AlphaGo 击败李世石等里程碑事件。多年来,谷歌始终将 TPU 严格限制于自家云平台(Google Cloud),通过出租接入权限的方式,向需要大规模 AI 训练和部署的企业提供算力。谷歌本次计划放开在客户本地部署,是其首次以英伟达替代方案的方式进入市场,标志着其战略的重大转变。

Meta 与谷歌的这笔潜在交易可能是谷歌十年 TPU 投入的一次关键性背书。按照讨论中的方案,Meta 将把谷歌的 TPU 部署到其自有数据中心,并最快从明年起租用 Google Cloud 的 TPU 算力,凸显了 Meta 构建和运行人工智能模型所需的高性能计算能力需求。

据 The Information 报道,Meta 正与谷歌洽谈 TPU 业务

随着模型参数规模从百亿向万亿迈进,Meta 面临的算力成本压力呈指数级增长。据公开计划,Meta 正在大幅增加其在 AI 基础设施上的投入,Meta 今年在 AI 基础设施方面的支出将高达 720 亿美元,以满足人工智能研发及业务运营的需求。当前,众多深度思考推理模型,多采用 MoE(混合专家)架构。这类架构虽激活参数量相对较少,但总参数量巨大,对大规模并行处理和高效内存访问需求迫切,单个芯片难以满足其计算需求。TPU v7 正是基于此设计,在执行大规模张量操作时,最大程度减少芯片上的数据移动和延迟。对于 Meta 这样每天需要处理数百万亿个 AI 模型的任务和操作的企业,TPU 在总拥有成本上的优势成为关键考量因素。

本次潜在合作可能会超越传统的供应商-客户关系。通过将 TPU 引入自有数据中心,Meta 实质上是在构建一个异构算力架构,为未来接入更多专用芯片奠定基础。同时,这一合作也将加速 TPU 生态的完善,推动其成为行业事实标准之一。对于年投入数百亿美元建设 AI 基础设施的 Meta 而言,与谷歌的深度合作不仅关乎成本节约,更关系到其在下一代 AI 竞争中的战略地位。

TPU VS. GPU,为 AI 大模型而生的天然优势架构

GPU 最初设计用于图形处理,尤其是实时渲染和图像处理,因此对其中体面结构的矩阵和向量运算做了专门优化,后来逐渐发展成为通用计算设备(GPGPU)。GPU 具有大量结构较为简单的并行处理单元,适合处理高度并行的任务,如图形渲染和科学计算,因此被广泛应用于计算机图形学、游戏开发、视频编码/解码、深度学习训练和推理。

TPU 是谷歌专为加速机器学习和深度学习任务而设计的专用芯片,特别是针对深度学习模型的训练和推理。TPU 针对张量运算进行了高度优化,单个的脉动阵列架构量和处理效率相较 GPU 有了更大提升,特别适合于处理矩阵乘法等常见于神经网络的操作,主要用于机器学习和深度学习模型的训练和推理,特别是使用 TensorFlow 框架的任务。

不同维度的计算单元

TPU 以强大的并行处理能力实现了模型训练速度和精度的双重提升,可以说是比 GPU 更适合进行大量部署或使用的深度学习计算单元:

多维度的计算单元提高计算效率:相较于 CPU 中的标量计算单元和 GPU 中的矢量计算单元,TPU 使用二维乃至更高维度的计算单元完成计算任务,将卷积运算循环展开的方式实现最大限度的数据复用,降低数据传输成本,提升加速效率;

更省时的数据传输和高效率的控制单元:冯诺依曼架构带来的存储墙问题在深度学习任务当中尤为突出,而 TPU 采用更为激进的策略设计数据传输,且控制单元更小,给片上存储器和运算单元留下了更大的空间;

设计面向 AI 的加速,强化 AI/ML 计算能力:定位准确,架构简单,单线程控制,定制指令集,TPU 架构在深度学习运算方面效率极高,且易于扩展,更适合超大规模的 AI 训练计算。

TPU 为代表的新架构冲击英伟达 GPU 主导的 AI 算力市场

当前,Meta 的选择折众多整个行业的战略转向——AI算力基础设施的构建已不再局限于通用 GPU 的堆砌,正向更具能效优势的 TPU 或者类 TPU 等定制化芯片深入。

今年 10 月 24 日,谷歌与 Anthropic 共同发布声明,宣布谷歌将向 Anthropic 供应至多 100 万块专用 AI 芯片 TPU 以及附加的谷歌云服务,这笔交易价值数百亿美元;谷歌在声明中称,这是 Anthropic 迄今为止规模最大的 TPU 扩容计划。至此,Anthropic 已与谷歌、亚马逊与英伟达三大芯片提供商达成合作。

Anthropic 发布声明宣布将使用至多 100 万块谷歌专用 AI 芯片 TPU 及附加的谷歌云服务

11 月 23 日,特斯拉首席执行官马斯克通过社交平台发布长文,特斯拉已组建一支全球顶尖的芯片研发团队,特斯拉已具备从芯片设计到量产的全链条能力,支撑起 FSD 自动驾驶、Dojo 超级计算机等核心业务。据马斯克介绍,特斯拉已在车辆控制系统与数据中心大规模部署自研 AI 芯片,数量达数百万颗。特斯拉当前车载芯片为 AI4(原HW4),其下一代产品 AI5 已完成关键设计,即将进入流片阶段,而第六代芯片 AI6 的研发工作也已正式启动。公司计划以“一年一代”的节奏推进芯片迭代。

特斯拉首席执行官马斯克通过社交平台发布长文,首次披露公司在人工智能芯片领域的战略布局及最新进展

不止如此,自 2019 年始,许多科技巨头已经开始探索非GPU算力解决方案:

早在 2019 年,英特尔就收购了来自以色列的 AI 芯片制造商 Habana Labs,并在 2024 年 4 月推出了专攻深度学习神经网络推理的类 TPU 芯片 Gaudi 3;预计2025 年初,IBM Cloud 将率先部署英特尔 Gaudi 3 AI 加速器;

2023 年 11 月,微软在其全球技术大会 Ignite 上宣布推出专为 Azure 云服务和 AI 工作负载设计的 ASIC 芯片 Maia 100,预计 2026 年正式发布;

2023 年 11 月底,AWS 在其“AWS re:Invent 2023”大会发布了为生成式 AI 和机器学习训练设计的云端 AI 算力芯片 Trainium 2;2024 年底,AWS 与 Anthropic 官宣共同打造名为 Project Rainier 的 EC2 UltraCluster,将使用数十万片 Trainium2 芯片;

2024 年 7 月 苹果公司使用谷歌 TPU 训练其人工智能系统“苹果智能”(Apple Intelligence)的 AI 模型 AFM,通过 2048 片 TPUv5p 芯片来训练拥有 27.3 亿参数的设备端模型 AFM-on-device ,以及 8192 片 TPUv4 芯片来训练其为私有云计算环境量身定制的大型服务器端模型 AFM-server。

2025 年 6月,据路透社报道,作为英伟达 GPU 长期以来的最大采购商之一的 OpenAI 已开始租用谷歌的 TPU 为其 ChatGPT 及其他 AI 产品提供算力支持。

······

国内唯一全自研、已量产 TPU 芯片的公司

核心创始团队组建于 2018 年,作为国内唯一一家掌握 TPU 架构 AI 专用芯片核心技术并实现全自研 TPU 芯片量产的公司,中昊芯英的创始人及 CEO 杨龚轶凡曾作为谷歌 TPU 芯片核心研发者,深度参与过 TPU v2/3/4 的设计与研发工作。当前,OpenAI 大规模租用 TPU 算力、Meta 广泛采购部署 TPU 芯片,特斯拉为特定场景研发专用 AI 芯片,共同标志着为 AI 负载优化的专用计算架构已成为行业演进的关键路径,也从产业层面验证了 TPU 技术方向的可行性与前瞻性。

TPU 为 AI 大模型而生的天然优势架构,使其在面向 AI 计算场景时,在同等生产制程下相较于 GPU 可以拥有 3-5 倍的性能提升。以中昊芯英历时近五年全自研的国内首枚已量产 TPU AI 芯片「刹那」为例,「刹那」在处理大规模 AI 模型运算时与海外知名 GPU 芯片相比,计算性能可以超越其近 1.5 倍,在完成相同计算任务量时的能耗降低 30%,将价格、算力和能耗综合测算,「刹那」的单位算力成本仅为其 42%。

中昊芯英自研的中国首枚高性能 TPU AI 芯片「刹那」

TPU 所引领的架构革新,正在重塑全球 AI 算力的竞争格局。在模型复杂度与算力成本双重攀升的背景下,以 TPU 为代表的专用芯片凭借其在能效、集群性能与总拥有成本上的综合优势,正逐步成为大规模 AI 基础设施的可靠选择。正是这些多元技术路径的探索,最终推动算力效率持续突破,进而为下一代 AI 模型的宏大未来构建起坚实而高效的算力基础。专注于 TPU 技术路线的中昊芯英为本土 AI 产业市场提供一个经过实践检验的高效算力选项。

关于中昊芯英

中昊芯英(杭州)科技有限公司成立于 2018 年,致力于为 AIGC 时代的超大规模 AI 大模型计算提供高性能 AI 芯片与计算集群,是国内唯一掌握 TPU 架构 AI 芯片核心技术并实现芯片量产的公司。中昊芯英以自研的专为 AI 大模型而生的高性能 TPU AI 芯片「刹那」为基石,打造支持 1024 片芯片片间高效互联、可支撑超千亿参数大模型的大规模 AI 计算集群 「泰则」,同时自研 AIGC 预训练大模型并携手行业合作伙伴进行金融、教育、医疗等垂直领域专业大模型的探索落地。通过「自研 AI 芯片 + 超算集群 + AIGC 预训练大模型」的三位一体化方案,为全球客户提供具备生产变革能力的 AI 创新技术方案,加速 AI 工程落地与产业化进程。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
温馨提示: 1.根据《证券法》规定,禁止编造、传播虚假信息或者误导性信息,扰乱证券市场;2.用户在本社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500