英伟达独霸时代结束？ChatGPT引爆谷歌微软芯片大战，亚马逊也入局

2023年05月13日 13:50
来源：IT之家阅读量：5885

ChatGPT 引爆了芯片界「百家争鸣」，谷歌、微软、亚马逊纷纷入局芯片大战，英伟达恐怕不再一家独大。

ChatGPT 爆火之后，谷歌和微软两巨头的 AI 大战战火，已经烧到了新的领域 —— 服务器芯片。

如今，AI 和云计算都成了必争之地，而芯片，也成为降低成本、赢得商业客户的关键。

原本，亚马逊、微软、谷歌这类大厂，都是以软件而闻名的，而现在，它们纷纷斥资数十亿美元，用于芯片开发和生产。

各大科技巨头研发的 AI 芯片

ChatGPT 爆火，大厂开启芯片争霸赛

「如果你能制造出针对 AI 进行优化的硅，那前方等待你的将是巨大的胜利」，研究公司 Forrester 的董事 Glenn O’Donnell 这样说。

付出这些巨大的努力，一定会得到回报吗？

答案是，并不一定。

英特尔、AMD 和英伟达可以从规模经济中获益，但对大型科技公司来说，情况远非如此。

它们还面临着许多棘手的挑战，比如需要聘请芯片设计师，还要说服开发者使用他们定制的芯片构建应用程序。

不过，大厂们已经在这一领域取得了令人瞩目的进步。

根据公布的性能数据，亚马逊的 Graviton 服务器芯片，以及亚马逊和谷歌发布的 AI 专用芯片，在性能上已经可以和传统的芯片厂商相媲美。

亚马逊、微软和谷歌为其数据中心开发的芯片，主要有这两种:标准计算芯片和用于训练和运行机器学习模型的专用芯片。正是后者，为 ChatGPT 之类的大语言模型提供了动力。

此前，苹果成功地为 iPhone，iPad 和 Mac 开发了芯片，改善了一些 AI 任务的处理。这些大厂，或许正是跟苹果学来的灵感。

在三家大厂中，亚马逊是唯一一家在服务器中提供两种芯片的云服务商，2015 年收购的以色列芯片设计商 Annapurna Labs，为这些工作奠定了基础。

谷歌在 2015 年推出了一款用于 AI 工作负载的芯片，并正在开发一款标准服务器芯片，以提高谷歌云的服务器性能。

相比之下，微软的芯片研发开始得较晚，是在 2019 年启动的，而最近，微软更加快了推出专为 LLM 设计的 AI 芯片的时间轴。

而 ChatGPT 的爆火，点燃了全世界用户对于 AI 的兴奋。这更促进了三家大厂的战略转型。

ChatGPT 运行在微软的 Azure 云上，使用了上万块英伟达 A100。无论是 ChatGPT，还是其他整合进 Bing 和各种程序的 OpenAI 软件，都需要如此多的算力，以至于微软已经为开发 AI 的内部团队分配了服务器硬件。

在谷歌，负责制造张量处理单元的工程团队已经转移到谷歌云。据悉，云组织现在可以为 TPU 和在其上运行的软件制定路线图，希望让云客户租用更多 TPU 驱动的服务器。

谷歌:为 AI 特调的 TPU V4

早在 2020 年，谷歌就在自家的数据中心上部署了当时最强的 AI 芯片 ——TPU v4。

不过直到今年的 4 月 4 日，谷歌才首次公布了这台 AI 超算的技术细节。

相比于 TPU v3，TPU v4 的性能要高出 2.1 倍，而在整合 4096 个芯片之后，超算的性能更是提升了 10 倍。

同时，谷歌还声称，自家芯片要比英伟达 A100 更快、更节能。对于规模相当的系统，TPU v4 可以提供比英伟达 A100 强 1.7 倍的性能，同时在能效上也能提高 1.9 倍。

对于相似规模的系统，TPU v4 在 BERT 上比 A100 快 1.15 倍，比 IPU 快大约 4.3 倍。对于 ResNet，TPU v4 分别快 1.67 倍和大约 4.5 倍。

另外，谷歌曾暗示，它正在研发一款与 Nvidia H100 竞争的新 TPU。谷歌研究员 Jouppi 在接受路透社采访时表示，谷歌拥有「未来芯片的生产线」。

微软:秘密武器雅典娜

不管怎么说，微软在这场芯片纷争中，依旧跃跃欲试。

此前有消息爆出，微软秘密组建的 300 人团队，在 2019 年时就开始研发一款名为「雅典娜」的定制芯片。

根据最初的计划，「雅典娜」会使用台积电的 5nm 工艺打造，预计可以将每颗芯片的成本降低 1/3。

如果在明年能够大面积实装，微软内部和 OpenAI 的团队便可以借助「雅典娜」同时完成模型的训练和推理。

这样一来，就可以极大地缓解专用计算机紧缺的问题。

彭博社在上周的报道中，称微软的芯片部门已与 AMD 合作开发雅典娜芯片，这也导致 AMD 的股价在周四上涨了 6.5%。

但一位知情者表示，AMD 并未参与其中，而是在开发自己的 GPU，与英伟达竞争，并且 AMD 一直在与微软讨论芯片的设计，因为微软预计要购买这款 GPU。

亚马逊:已抢跑一个身位

而在与微软和谷歌的芯片竞赛中，亚马逊似乎已经领先了一个身位。

在过去的十年中，亚马逊在云计算服务方面，通过提供更加先进的技术和更低的价格，一直保持了对微软和谷歌的竞争优势。

而未来十年内，亚马逊也有望通过自己内部开发的服务器芯片 ——Graviton，继续在竞争中保持优势。

作为最新一代的处理器，AWS Graviton3 在计算性能上比上一代提高多达 25%，浮点性能提高多达 2 倍。并支持 DDR5 内存，相比 DDR4 内存带宽增加了 50%。

针对机器学习工作负载，AWS Graviton3 比上一代的性能高出多达 3 倍，并支持 bfloat16。

基于 Graviton 3 芯片的云服务在一些地区非常受欢迎，甚至于达到了供不应求的状态。

亚马逊另一方面的优势还表现在，它是目前唯一一家在其服务器中提供标准计算芯片和 AI 专用芯片(Inferentia 和 Trainium)云供应商。

早在 2019 年，亚马逊就推出了自己的 AI 推理芯片 ——Inferentia。

它可以让客户可以在云端低成本运行大规模机器学习推理应用程序，例如图像识别、语音识别、自然语言处理、个性化和欺诈检测。

而最新的 Inferentia 2 更是在计算性能提高了 3 倍，加速器总内存扩大了 4 倍，吞吐量提高了 4 倍，延迟降低到 1/10。

在初代 Inferentia 推出之后，亚马逊又发布了其设计的主要用于 AI 训练的定制芯片 ——Trainium。

它对深度学习训练工作负载进行了优化，包括图像分类、语义搜索、翻译、语音识别、自然语言处理和推荐引擎等。

在一些情况下，芯片定制不仅仅可以把成本降低一个数量级，能耗减少到 1/10，并且这些定制化的方案可以给客户以更低的延迟提供更好的服务。

撼动英伟达的垄断，没那么容易

不过到目前为止，大多数的 AI 负载还是跑在 GPU 上的，而英伟达生产了其中的大部分芯片。

据此前报道，英伟达独立 GPU 市场份额达 80%，在高端 GPU 市场份额高达 90%。

20 年，全世界跑 AI 的云计算与数据中心，80.6% 都由英伟达 GPU 驱动。21 年，英伟达表示，全球前 500 个超算中，大约七成是由自家的芯片驱动。

而现在，就连运行 ChatGPT 的微软数据中心用了上万块英伟达 A100 GPU。

一直以来，不管是成为顶流的 ChatGPT，还是 Bard、Stable Diffusion 等模型，背后都是由每个大约价值 1 万美元的芯片英伟达 A100 提供算力。

不仅如此，A100 目前已成为人工智能专业人士的「主力」。2022 人工智能现状报告还列出了使用 A100 超级计算机部分公司的名单。

显而易见，英伟达已经垄断了全球算力，凭借自家的芯片，一统江湖。

根据从业者的说法，相比于通用芯片，亚马逊、谷歌和微软一直在研发的专用集成电路芯片，在执行机器学习任务的速度更快，功耗更低。

O’Donnell 董事在比较 GPU 和 ASIC 时，用了这样一个比较:「平时开车，你可以用普锐斯，但如果你必须在山上用四轮驱动，用吉普牧马人就会更合适。」

然而尽管已经做出了种种努力，但亚马逊、谷歌和微软都面临着挑战 —— 如何说服开发者使用这些 AI 芯片呢？

现在，英伟达的 GPU 是占主导地位的，开发者早已熟悉其专有的编程语言 CUDA，用于制作 GPU 驱动的应用程序。

如果换到亚马逊、谷歌或微软的定制芯片，就需要学习全新的软件语言了，他们会愿意吗？

参考资料:

[责任编辑：安远]

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

英伟达独霸时代结束？ChatGPT引爆谷歌微软芯片大战，亚马逊也入局

为您推荐

热门文章

最新报道