一、英伟达:ChatGPT背后的赢家
就在 ChatGPT 狂飙突进,引爆价值万亿美元 AIGC 这一赛道的同时,还有一个大型科技公司正在闷声发财,那就是英伟达。
2023年1月3日——美股新年第一个交易日,英伟达的收盘价为143 美元,一个月后的2月3日,英伟达的收盘价为211美元,一个月涨了 47%。华尔街分析师预计,英伟达在1月的股价表现预计将为其创始人黄仁勋增加了 51亿美元的个人资产。
半导体企业股价的起起伏伏本属常态,可今时不同往日,半导体市场正在经历罕见的下行周期。ChatGPT的火热之所以会带动英伟达的股价大幅上涨,是因为 ChatGPT 的成功背后离不开英伟达推出的硬件支持。
1.1AI芯片第一股
- 20 世纪 90 年代,3D游戏的快速发展和个人计算机的逐步普及,彻底改变了游戏的操作逻辑和创作方式。1993年,黄仁勋等三位电气工程师看到了游戏市场对于 3D 图形处理能力的需求,成立了英伟达面向游戏市场供应图形处理器。1999年,英伟达推出显卡GeForce256,并第一次将图形处理器定义为“GPU”,自此“GPU”一词与英伟达赋予它的定义和标准在游戏界流行起来。
- 自20世纪 50年代以来,CPU(中央处理器)就一直是每台计算机或智能设备的核心,是大多数计算机中唯一的可编程元件。CPU诞生后,工程师也一直没放弃让 CPU 以消耗最少的能源实现最快的计算速度的努力。即便如此,人们还是觉得CPU 做图形计算太慢。21世纪初,CPU难以继续维持每年50%的性能提升,而内部包含数千个核心的 GPU 能够利用内在的并行性继续提升性能,且 GPU 的众核结构更加适合高并发的深度学习任务。
- CPU 往往会串行执行任务。而 GPU的设计则与 CPU 完全不同它期望提高系统的吞吐量,在同一时间竭尽全力处理更多的任务GPU 的这一特性被深度学习领域的开发者注意到。但是,作为一种图形处理芯片,GPU难以像CPU一样运用C语言、Java等高级程序语言,极大地限制了 GPU 向通用计算领域发展。
- 为了让开发者能够用英伟达 GPU执行图形处理以外的计算任务英伟达在 2006年推出了CUDA平台,支持开发者用熟悉的高级程序语言开发深度学习模型,灵活调用英伟达GPU算力,并提供数据库排错程序、API接口等一系列工具。虽然当时的深度学习并没有给英伟达带来显著的收益,但英伟达一直坚持投资CUDA产品线,推动GPU 在 AI等通用计算领域前行。
- 6年后,英伟达终于等到了向 AI计算证明 GPU 的机会。21 世纪10年代,由大型视觉数据库ImageNet 项目举办的“大规模视觉识别挑战赛”是深度学习的标志性赛事之一,被誉为计算机视觉领域的“奥赛”。2010 年和 2011年,ImageNet 挑战赛的最低差错率分别是 29.2%和 25.2%,而有的团队差错率高达 99%。直到 2012年,来自多伦多大学的博士生 Alex Krizhevsky用120万张图片训练神经网络模型,以约15%的差错率夺冠,与前人不同的是,他选择了英伟达GeForce GPU为训练提供算力。
- 这一标志性事件,证明了 GPU 对于深度学习的价值,也打破了深度学习的算力枷锁。自此,GPU 被广泛应用于 AI训练等大规模并发计算场景。
- 2012年,英伟达与谷歌人工智能团队打造了当时最大的人工神经网络。2016年,脸书、谷歌、IBM、微软的深度学习架构都运行在英伟达的 GPU 平台上。2017年,英伟达 GPU 被惠普、戴尔等厂商引入服务器,被亚马逊、微软、谷歌等厂商应用于云服务。2018 年,英伟达为 AI和高性能计算打造的 Tesla GPU 被用于加速美国、欧洲和日本最快的超级计算机。与英伟达 AI版图一起成长的是股价和市值。2020年7月,英伟达市值首次超越英特尔,成为名副其实的“AI芯片第一股”。
1.2在淘金热中卖水
- ChatGPT 越火,成本就越高。究其原因,ChatGPT虽然能够通过学习和理解人类的语言来进行对话,能根据上下文进行互动,真正像人类一样交流,能写文章、修 Bug、辩证地分析问题,但这一切靠的都是千亿数量级的训练参数。而这一现状导致的结果,便是ChatGPT每一次对用户的问题进行回答,都需要从浩如烟海的参数中进行模型推理,而这一过程的耗费也远比大家想象的贵。毕竟人工智能产品想要做得更智能就需要训练 AI,而算力则是“能量”,是驱动 AI在不断学习中慢慢变得智能的动力源泉。英伟达则是目前人工智能算力加速领域的“第一名”,其在 2022年4月发布的 Hopper H100,是目前最先进的人工智能 GPU。
- 经过十余年的技术积累,英伟达为 GPU 的通用计算开发的并行计算平台和为编程模型打造的 CUDA 生态,已经成为在大型数据集上进行高效计算的最佳选择。CUDA的库、工具和资源生态系统使开发者能够轻松利用 GPU 的并行计算能力,构建更强大和更高效的 AI模型,同时也是实现模型的高性能、高通用性、高易用性,以及针对不同应用场景深度优化的关键所在。
- 在 ChatGPT的掘金赛道上,英伟达就像是“淘金热中卖水”的角色,但这依然重要且不可或缺。IDC 亚太区研究总监郭俊丽表示,从算力来看,ChatGPT至少导入了1万块英伟达高端GPU,总算力消耗达到了 3640PF-days,并且,ChatGPT很可能推动英伟达相关产品在12 个月内销售额达到 35 亿至 100 亿美元。
- 实际上,在 ChatGPT 之前,在 AIGC 领域搅动风云的 AI文生图工具 Stable Diffusion,就是在 4000块 Ampere A100 显卡组成的集群上,训练一个月时间诞生的产物。
- 无论是 OpenAI,还是微软云、谷歌云,其成功离不开英伟达提供的底层芯片算力支持。作为一家市值5000亿美元的科技公司,以Hopper 加速卡为代表的数据中心业务堪称英伟达的“印钞机”。
- 尽管英伟达官方对 ChatGPT 没有任何表态,但花旗分析师表示,ChatGPT 将继续增长,可能会进一步提高 2023 年英伟达 GPU 的销售额,估计为3亿~110 亿美元。美国银行和富国银行的分析师也表示,英伟达将从围绕 AI、ChatGPT 业务的流行中获益。
1.3这波红利能吃多久
- 从芯片成面来看,英伟达的垄断地位是毋庸置疑的:市场占有率常年稳定在 80%左右,据国际超算权威榜单(TOp500.OTg)显示,墓伟达 GPU 产品在超算中心的渗透率逐年提高。人工智能领域的算力需求约每 3.5 个月翻一倍,导致其芯片常年供不应求,即使最新一代H100 芯片已经发布,上一代芯片 A100的市场价较发布初期依旧有所上涨。
- 并且,我们尚未看到英伟达针对 ChatGPT 推出的新产品。值得一提的是,ChatGPT 作为明星产品,引发的是全社会对于生成式 AI和大模型技术的关注。现在,对于芯片用量的更大需求、芯片规格的更高要求,已为明朗的趋势。未来,大模型将成为AI技术领域重要的生产工具,需要更强的训练与推理能力,支撑海量数据模型且高效地完成计算,这些也会对芯片的算力、存储容量、软件栈、带宽等技术提出更高的要求。
- 这也为英伟达带来了挑战。一方面,当 ChatGPT 发展到成熟期,其算力底座有可能从英伟达“独占鳌头”逐渐向“百家争鸣”演变从而压缩英伟达在该领域的盈利空间。尤其是随着以 ChatGPT 为代表的 AIGC 行业的爆发,GPU 和新 AI芯片都获得了更多的可能性和新机会。
- 从语言生成模型来看,由于参数量巨大,需要很好的分布式计算支持,因此在这类生态上已经有完整布局的 GPU 厂商更有优势。这是一个系统工程问题,需要完整的软件和硬件解决方案,而在这个方面,英伟达已经结合其 GPU 推出了 Triton 解决方案。但从图像生成模型来看,这类模型的参数量虽然也很大,但是比语言生成模型要小一到两个数量级,其计算中还会大量用到卷积计算,因此在推理应用中,如果能做好优化的话,AI芯片可能有一定的机会。
- AI芯片在设计的时候主要针对的是更小的模型,而生成模型的需求相对而言还是比原来的设计目标要大不少。GPU 在设计时以效率为代价换取了更高的灵活度,而AI芯片设计则是反其道而行之–追求目标应用的效率。因此,随着生成模型设计更加稳定,AI芯片设计如果能追赶上生成模型的迭代,将有机会从效率的角度在生成模型领域超越 GPU。
- 另一方面,AIGC 行业的爆发对算力提出了越来越高的要求,然而,受物理制程约束,算力的提升依然是有限的。1965年,英特尔联合创始人戈登·摩尔预测,集成电路上可容纳的元器件数目每隔18至24个月会增加一倍。摩尔定律归纳了信息技术进步的速度,对整个世界而言意义深远。但经典计算机在以“硅晶体管”为基本器件结构、延续摩尔定律的道路上终将受到物理限制。在计算机的发展中,晶体管越做越小,中间的阻隔也变得越来越薄——3nm 时,只有十几个原子阻隔。在微观体系下,电子会发生量子的隧穿效应,不能很精准地表示“0”和“1”,也就是通常说的“摩尔定律碰到天花板”的原因。
- 尽管研究人员提出了更换材料以增强晶体管内阻隔的设想,但一个事实是,无论用什么材料,都无法阻止电子隧穿效应。这一难点问题对于量子来说却是天然的优势,毕竟半导体就是量子力学的产物,芯片也是在科学家们认识电子的量子特性后研发而成的。此外,基于量子的叠加特性,量子计算就像是算力领域的“5G”,“快”的同时带来的绝非速度本身的变化。
- 基于强大的运算能力,量子计算机有能力迅速完成电子计算机无法完成的计算,量子计算在算力上带来的成长,可能会彻底打破当前AI大模型的算力限制,促成 AI的再一次跃升。
- 但英伟达在量子计算方面并无优势,相较而言,谷歌早在2006年就创立了量子计算项目。2019年10月,谷歌在《自然》期刊上宜布了使用 54 个量子位处理器 Sycamore,实现了量子优越性。除谷歌外,2015 年,IBM 在《自然通讯》上发布了超导材料制成的量子芯片原型电路。英特尔则一直在研究多种量子位类型,包括超导量子位硅自旋量子位等。2018年,英特尔成功设计、制造和交付49量子比特的超导量子计算测试芯片 Tangle Lake,算力等于 5000 颗8代i7,并且允许研究人员评估、改善误差修正技术和模拟计算问题。
- 因此,对于英伟达而言,当前的技术路径依然难以应对未来的需求。解决这种超级算力需求则在于量子计算技术,然而,英伟达在量子计算技术方面并没有优势,也没有相关技术的储备,想要在人工智能时代继续保持优势,必然要在量子计算技术方向上构建新的竞争优势。