谷歌称其AI超级计算机比英伟达A100芯片更快更环保
AlphabetInc 旗下的谷歌周二公布了其用于训练人工智能模型的超级计算机的新细节,称该系统比 Nvidia Corp. 的同类系统更快、更节能。
谷歌设计了自己的定制芯片,称为张量处理单元或 TPU。该公司 90% 以上的人工智能训练工作都使用这些芯片,即通过模型提供数据的过程,使它们在诸如用类似人类的文本响应查询或生成图像等任务中发挥作用。
Google TPU 现在已经是第四代了。谷歌周二发表了一篇科学论文,详细介绍了它如何使用自己定制开发的光开关将 4,000 多个芯片串在一起成为一台超级计算机,以帮助连接各个机器。
改善这些连接已成为构建 AI 超级计算机的公司之间竞争的关键点,因为支持 Google 的 Bard 或 OpenAI 的 ChatGPT 等技术的所谓大型语言模型的规模已经爆炸式增长,这意味着它们太大而无法存储在单个芯片上。
相反,这些模型必须分布在数千个芯片上,然后这些芯片必须协同工作数周或更长时间来训练模型。谷歌的 PaLM 模型——其迄今为止最大的公开披露的语言模型——是通过在 4,000 台芯片超级计算机中的两台超过 50 天的时间内将其拆分来训练的。
谷歌表示,其超级计算机可以轻松地动态重新配置芯片之间的连接,有助于避免出现问题并进行调整以提高性能。
“电路切换使得绕过故障组件变得容易,”谷歌院士 Norm Jouppi 和谷歌杰出工程师大卫帕特森在一篇关于该系统的博客文章中写道。“这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速 ML(机器学习)模型的性能。”
虽然谷歌现在才公布有关其超级计算机的详细信息,但自 2020 年以来,它一直在公司内部位于俄克拉荷马州梅斯县的数据中心上线。谷歌表示,初创公司 Midjourney 使用该系统训练其模型,该模型在输入几句文字后生成新图像。
谷歌在论文中表示,对于同等大小的系统,其芯片比基于 Nvidia A100 芯片的系统快 1.7 倍,能效高 1.9 倍,后者与第四代 TPU 同时上市.
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。