发布于2024-12-11 阅读(0)
扫一扫,手机访问
托管数据中心通常设计用来容纳数十甚至数百个客户的不同应用程序。不过,英伟达提供了一种独特的数据中心模式,该数据中心专门为单一客户运行特定应用程序。
这种新型的数据中心与传统数据中心不同,它专注于提供更高效、更灵活的基础设施服务。传统数据中心往往承载多个应用程序和多个租户,而新型数据中心更注重资源的动态分配和优化,以满足不同应用程序和租户的需求。这种新型数据中心的设计更加灵活和智能,能够根据需求实时调整资源分配,提高整体效率和性能。通过这种创新的设计理念,
这些新的数据中心主要用于托管少量应用程序,通常由单个租户使用。它们负责处理数据、训练模型,并生成令牌以产生人工智能。我们将这些新型数据中心称为“人工智能工厂”。
人工智能工厂已经成为普遍存在的现象。我相信几乎所有主要地区都会拥有自己的人工智能云,每个主要国家也会如此。因此,我们正处于计算转型的起点,这是一个重要的拐点。
目前,这种趋势在印度、瑞典、日本和法国等国家逐渐显现。要实现人工智能的有效运用,必须考虑到各国的语言和文化差异。不同国家对人工智能的需求也因地而异,例如日本和瑞典。正因为如此,人工智能数据中心和单租户人工智能工厂往往局限于特定国家。
大型云服务提供商如Amazon和Google以及主要的主机托管提供商如Equinix,他们的数据中心规模通常相当庞大,大到足以容纳一个足球场的大小。考虑到Nvidia Hopper处理器的高功耗,这些人工智能工厂的规模将与麦当劳餐厅相媲美。
数据中心机架通常预算功耗在6kW至8kW之间。然而,如果需要针对运行LLM进行优化的服务器,单个服务器的功耗大约为11kW。这相当于大约14台通用服务器的平均功耗。
在这种情况下,在典型的数据中心中只能运行有限数量的GPU服务器,例如DGXH100,如果你有一个1MW的数据中心,可以在里面部署大约50台DGXH100服务器。要将人工智能大规模部署到大量并发用户,将需要大型此类服务器集群。这意味着典型的数据中心只能满足有限数量的客户的需求,而且很可能只能满足单个客户的需求。
为人工智能工厂等单一用途GPU环境设计最具成本效益的方案是建立专用数据中心,以更高的密度和液体冷却为设计重点,并将其位置定位在最适合人工智能企业的地点。
人工智能集群的功耗将成为数据中心拥有大量服务器的限制因素,而且其中一些数据中心很可能专门用于人工智能。围绕人工智能的安全和监管框架也可能推动这一趋势。生成式人工智能和通用人工智能的发展引发了一些安全和合规性问题,因此企业可能会决定从高度安全的专用设施运行此类工作负载。
由于人工智能功率密度是传统数据中心的五到十倍,人工智能工厂的规模不会达到传统数据中心的大小,传统数据中心的面积已超过一百万平方英尺。
传统数据中心和人工智能工厂之间的另一个区别是它们的位置。巨型数据中心往往建在可再生能源旁边的偏远地区,而人工智能工厂则可以建在市中心或大城市地区以及拥有大量可用电力的现有设施中。
目前,有大量办公和零售空间未得到充分利用,变得非常非常有吸引力的是一座废弃的建筑或未充分利用的城市空间,或者是一个偏僻的旧仓库的一部分,它们已经拥有电力,可以在其中放下一些人工智能设备,一些液体冷却并插入电源去。
尽管无法预测数据中心行业的未来,但人工智能的快速增长暗示,随着数字基础设施运营商争先恐后地满足不断增长的需求,人工智能工厂可能很快就会成为必需品。
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店
售后无忧
立即购买>office旗舰店