来源:十次方2020-07-21 00:00:00 热度:

印度号称已成功研发5G技术,100%本土将向世界推广?

AI中国网 https://www.cnaiplus.com

原标题:企业如何高效榨干AI算力资源,避免浪费?

随着5G、人工智能、物联网等技术的发展,企业对算力的需求迅猛增长。包括互联网、安防、教育、医疗、自动驾驶等行业,都将AI应用到生产场景中,AI计算成为基础能力。

但目前对于企业来说,算力的昂贵成为企业的一大痛点,同时AI计算资源利用率低,更增加了成本。

特别是有多台AI服务器的,

如何高效管理这些计算资源,

如何解决资源抢占,保证资源使用公平合理?

如何减少等待时间,提高模型训练效率……

成为企业亟需解决的问题。

举个栗子:

某人工智能企业拥有一支50人的开发团队准备进行计算视觉领域的开发。

但却只有4台8卡GPU服务器。

在开发过程中,就会遇到以下几个问题:如图:

问题一:

4台8卡GPU服务器,就会出现人均不足一张GPU卡,使用的时候还需要相互协调,开发效率低。

问题二:

如果十多个人为一个小组,共同使用一个GPU节点,那么可能就会出现有的小组资源空闲有的小组没有资源可用。

问题三:

缺乏优先机制,当遇到紧急项目时,无法集中优先调用计算资源。

问题四:

模型训练数量非常有限,白天GPU卡几乎全部用于开发环境创建,开发人员只能在晚上提交训练任务。

01

针对以上问题,如何解决呢?

且看浪潮AIStation人工智能开发平台的三个大招组合,分别是:

大招一:资源配额

AIStation将分散的计算资源收拢起来,提供集群式的池化管理。

如上图显示:将开发用户划分为5个用户组,每个用户组10人,并根据业务需求环境使用时长、同时提交任务数量进行限制。

大招二:GPU共享

通过AIStation可以统一管理这4台GPU服务器,其中将2个节点的16张GPU卡设置为开发环境创建使用,剩下的2个节点GPU卡就为模型训练使用。

除此外,如图,原来每台只有台8张32GB GPU卡,通过AIStation还可以分为128张4GB卡。

并且通过设置CPU超线程策略扩展CPU核数,满足50个用户同时创建开发环境的需求。

总之,用户也可以根据自己的模型设置batchsize和显存使用的大小。

大招三:排队托管

如图显示,通过AIStation,用户可同时提交多个训练任务,可以设置定义任务优先级。

对于紧急开发任务的用户,管理员可以为其开启紧急权限,保证紧急任务优先分配计算资源。

对于计算资源空占,管理员可以设置超时时间,一个任务训练结束后自动释放资源给排队等待的任务,从而可以充分利用夜间、周末训练任务,延长GPU的使用时间。

02

使用AIStation后产生的效果

◆◆一:GPU使用时间加大近1倍◆◆

原来单个GPU节点分配给一个用户小组使用,每卡每天的平均使用时间仅为14.4小时,现在平均使用时间提升到22.8小时。

◆◆二:GPU利用率提升50%◆◆

原来用户在开发阶段独占一张GPU,GPU利用率仅为10%,训练阶段可达90%,每天每卡的平均利用率为30%。

通过AIStation后,开发阶段8人共用一张GPU卡,GPU利用率可上升为80%,训练阶段为90%,每天每卡的利用率可达到80%。

◆◆三:效率提升2.3倍◆◆

如果一个工作日可以完成的任务数最多为32个,即一周可以完成160个任务。而AIStation支持任务排队,可以最大限度的使用GPU资源,一周可以完成368个任务数。

03

可以看出,浪潮AIStation通过对计算资源的高效管理、调度,在GPU使用时间、利用率和训练任务数量上,相比原方案均实现了大幅提升,最大化地优化了资源使用。

对于这款软件,跟浪潮服务器一样,浪潮AIStation也会通过授权给分销商进行销售及客户服务。

目前深圳悠加科技有限公司是浪潮AIStation全国首家认证分销商,可以按照浪潮政策,为广大用户提供AIStation 深度学习管理等软件销售及客户服务工作。

同时在服务上,浪潮技术工程师和销售商务团队也参加浪潮AIStation相关培训并经过了考核,具备了完整的交付能力和售后能力。

AI中国网 https://www.cnaiplus.com

本文网址:

欢迎关注微信公众号:人工智能报;合作及投稿请联系:editor@cnaiplus.com

AI中国号...

关注微信公众号,了解最新精彩内容