检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Qwen-7B-Chat 16 qwen-14b √ √ √ √ x https://huggingface.co/Qwen/Qwen-14B-Chat 17 qwen-72b √ √ √ √ x https://huggingface.co/Qwen/Qwen-72B-Chat 18
表18 WorkforceConfig 参数 参数类型 描述 workers Array of Worker objects 标注成员列表。 workforce_id String 标注团队ID。 workforce_name String 标注团队名称,名称不能包含!
表18 DataRequirement 参数 参数类型 描述 name String 训练数据的名称。填写1-64位,仅包含英文、数字、下划线(_)和中划线(-),并且以英文开头的名称。 type String 数据来源类型。
表18 JobInput 参数 参数类型 描述 name String 输入数据的名称,支持1到64位只包含英文、数字、下划线(_)和中划线(-)的字符。 type String 输入项类型。
pipeline model parallel size)=1 1 1*节点 & 4*Ascend lora TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1 1 1*节点 & 4*Ascend 18
表18 WorkforceConfig 参数 参数类型 描述 workers Array of Worker objects 标注成员列表。 workforce_id String 标注团队ID。 workforce_name String 标注团队名称,名称不能包含!
MindSpore环境 source /home/ma-user/anaconda3/bin/activate MindSpore # 安装resnet依赖 pip install -r work/models/official/cv/resnet/requirements.txt 图18
pipeline model parallel size)=1 1 1*节点 & 4*Ascend lora TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1 1 1*节点 & 4*Ascend 18
图18 SyncBatchNorm分析 memory 内存维度当前识别的问题较为简单,通常是NPU HBM占用过大或者存在内存碎片导致自动触发昇腾内存释放/重整算子(Memory Operator Issues),进而影响了训练性能。
pipeline model parallel size)=1 1 1*节点 & 4*Ascend lora TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1 1 1*节点 & 4*Ascend 18
pipeline model parallel size)=1 1 1*节点 & 4*Ascend lora TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1 1 1*节点 & 4*Ascend 18
pipeline model parallel size)=1 1 1*节点 & 4*Ascend lora TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1 1 1*节点 & 4*Ascend 18
pipeline model parallel size)=1 1 1*节点 & 4*Ascend lora TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1 1 1*节点 & 4*Ascend 18
pipeline model parallel size)=1 1 1*节点 & 4*Ascend lora TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1 1 1*节点 & 4*Ascend 18
响应参数 状态码: 200 表18 响应Body参数 参数 参数类型 描述 service_id String 服务id。 resource_ids Array of strings 资源id数组,服务对应的模型生成的资源ID。 请求示例 请求示例,创建在线服务。
pipeline model parallel size)=1 1 1*节点 & 4*Ascend lora TP(tensor model parallel size)=1 PP(pipeline model parallel size)=1 1 1*节点 & 4*Ascend 18
mindspore.set_context(device_target='Ascend');mindspore.run_check()" # 测试完需要恢复环境变量,实际跑训练业务的时候需要用到 export MS_GE_TRAIN=1 export MS_ENABLE_GE=1 图18
图像分类 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 { "source":"s3://path/to/image1.jpg", "usage
表18 Scene 参数 是否必选 参数类型 描述 id 否 String 场景ID。 name 否 String 场景名称。 steps 否 Array of strings 节点列表。
换用其他域名称后重试。 400 ModelArts.3551 OBS path {path} does not exist. OBS路径{路径}不存在。 检查OBS路径是否设置正确。