检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。
可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。
可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。
可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。
可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。
可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。
可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。
计算节点:1。 SFS Turbo:增加挂载配置,选择SFS名称,云上挂载路径为“/home/ma-user/work”。 为了和Notebook调试时代码路径一致,保持相同的启动命令,因此云上挂载路径需要填写为“/home/ma-user/work”。
按照存储费用结算,那么数据存储到OBS的费用计算如下: 存储费用:数据管理模块的数据通过对象存储服务(OBS)上传或导出,存储计费按照OBS的计费规则。具体费用可参见对象存储价格详情。 综上,数据管理的费用 = 存储费用 父主题: 计费项
详细指导 :《OBS SDK参考》 MoXing MoXing是ModelArts自研的组件,是一种轻型的分布式框架,构建于TensorFlow、PyTorch、MXNet、MindSpore等深度学习引擎之上,使得这些计算引擎分布式性能更高,同时易用性更好。
duration Long 实例运行时长,以创建时间为起点计算,即“创建时间+duration > 当前时刻”时,系统会自动停止实例。 enable Boolean 是否启用自动停止功能。 type String 自动停止类别。 timing:自动停止。 idle:空闲停止。
具体方法如下: 使用公共资源池创建的Notebook实例,通过此方式删除实例后,即可停止计算资源计费。 使用专属资源池创建的Notebook实例,需删除对应的专属资源池。删除后,即可停止计算资源计费。
表2 专属资源池明细账单 产品类型 ModelArts 产品 ModelArts虚拟计算实例 计费模式 按需 资源名称/ID 资源名称和ID 例如:pool-62a1,maos.modelarts.vm.cpu.8ud.1688978235.jbjcl 规格 专属资源池的规格 本例为计算型
token时延):服务从开始计算首token到生成首token的耗时 avg_decode_latency(平均增量token时延):服务计算增量token的平均耗时 time_in_queue(请求排队时间):请求从到达服务开始到开始被调度的耗时 request_latency(
“计算节点规格”:在下拉框中选择限时免费的CPU资源,如果限时免费资源售罄,建议选择收费CPU资源进行部署。 “计算节点个数”,默认设置为“1”。 其他参数可使用默认值。 选择CPU资源部署模型会收取少量费用,具体费用以界面信息为准。
token时延):服务从开始计算首token到生成首token的耗时 avg_decode_latency(平均增量token时延):服务计算增量token的平均耗时 time_in_queue(请求排队时间):请求从到达服务开始到开始被调度的耗时 request_latency(
token时延):服务从开始计算首token到生成首token的耗时 avg_decode_latency(平均增量token时延):服务计算增量token的平均耗时 time_in_queue(请求排队时间):请求从到达服务开始到开始被调度的耗时 request_latency(
图1 1个计算节点GPU规格worker-0运行日志信息 计算节点个数选择为2,训练作业也可以运行。日志信息如图2和图3所示。 图2 2个计算节点worker-0运行日志信息 图3 2个计算节点worker-1运行日志信息 父主题: 制作自定义镜像用于训练模型
计算节点个数 当计算节点个数大于1,将启动多节点分布式训练。详细信息,请参见分布式训练功能介绍。 更多选项 永久保存日志 选择是否打开“永久保存日志”开关。 开关关闭(默认关闭):表示不永久保存日志,则任务日志会在30天后会被清理。可以在任务详情页下载全部日志至本地。
如果节点个数设置为1,表示后台的计算模式是单机模式;如果节点个数设置大于1,表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。 “环境变量” 设置环境变量,注入环境变量到容器实例。为确保您的数据安全,在环境变量中,请勿输入敏感信息,如明文密码。