检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。
type”,表示MindSpore暂不支持该算子。 报错日志中搜到“Convert graph to om failed”,表示CANN模块进行图编译存在保存,需要结合CANN的报错日志和dump图进行具体分析。 配置方式参考如下: 打开DEBUG日志。 设置MindSpore日志环境变量。 export
-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。
kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_d
-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。
kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_d
删除maos-node-agent的pod(重启pod)。 CCE页面上删除节点上的污点A200008。 ModelArts页面上重置节点。 该方案的缺点:用户新建负载时需要手动指定调度器为volcano,参考指导。 解决方案二(默认全部使用volcano调度器): CCE页面上配置中心修改默认调度器为kube-scheduler。
规格:CPU: 8 核 32GB (modelarts.vm.cpu.8ud) 计算节点个数:1个 用了一段时间后,用户发现当前规格无法满足业务需要,于2023/03/20 9:00:00扩容规格增加1个节点(扩容后,共有2个节点)。因为该专属资源池打算长期使用下去,于2023/03/20
ata/aoe”路径下,同时会在aoe_output路径下输出对应的mindir模型,由于当前模型并没有吸收知识库信息,所以性能不佳,因此需要在保留AOE知识库的情况下,再次进行转换,以达到较优性能。 删除编译缓存atc_data。 注意相比第一次清除缓存操作,本次保留了AOE知识库。
Cluster”,在“弹性集群”页面,选择“Lite资源池”页签,查看资源池列表。 在资源池列表中,单击操作列的“ > 退订”,跳转至“退订资源”页面。 根据界面提示,确认需要退订的资源,并选择退订原因。 确认退订信息无误后,勾选“资源退订后……”提示信息。 单击“退订”,再次根据界面信息确认要退订的资源。 再次
-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。
-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。
-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。
-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。
-batch-size)、GBS指一个iteration所处理的样本量(global-batch-size)。可将MBS参数值调小至1,但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。 可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。
否 String 对训练作业的描述,默认为“NULL”,字符串的长度限制为[0, 256]。 config 是 Object 创建训练作业需要的参数。详情参见表3。 表3 config属性列表 参数 是否必选 参数类型 说明 worker_server_num 是 Integer
对应请求消息头,响应同样也有消息头,如“Content-type”。 对于获取用户Token接口,返回如图1所示的消息头。 其中“x-subject-token”就是需要获取的用户Token。有了Token之后,您就可以使用Token认证调用其他API。 图1 获取用户Token响应消息头 响应消息体 响应
Lite Cluster高危操作一览表 当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。 高危操作风险等级说明: 高:对于可能直
Uncorrectable记录。 L3: 错误未被抑制,可能影响后续业务,需要重置卡或重启节点。观测方式:Xid事件中包含95事件。(Remapped的Pending记录只作为提示,当业务空闲时进行卡重置触发重映射即可) L4: 需要换卡,SRAM Uncorrectable>4或者Remapped
order 否 String instance order start_time 否 String 开始时间,需要与结束时间一起传入。 end_time 否 String 结束时间,需要与开始时间一起传入。 level 否 String 指定返回的事件级别,取值范围[Info Error