检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
序包名。 -cn / --class_name String 是 批处理作业的Java/Spark主类。 --name String 否 创建时用户指定的作业名称,不能超过128个字符。 --image String 否 自定义镜像路径,格式为:组织名/镜像名:镜像版本。当用户设
mmlu_gen ceval_gen --debug -w ${output_path} output_path: 要保存的结果路径。 (可选)创建新conda环境,安装vllm和opencompass。执行完之后,在 opencompass/configs/models/vllm/vllm_ppl
mmlu_gen ceval_gen --debug -w ${output_path} output_path: 要保存的结果路径。 (可选)创建新conda环境,安装vllm和opencompass。执行完之后,在 opencompass/configs/models/vllm/vllm_ppl
/usr/local/sbin/npu-smi restartPolicy: OnFailure 执行如下命令,根据“config.yaml”创建并启动pod。容器启动后会自动执行训练作业。 kubectl apply -f config.yaml 执行如下命令,检查pod启动情况。如果显示“1/1
String 训练作业的代码目录。 boot_file_url String 训练作业的代码启动文件。 create_time Long 训练作业的创建时间。 parameter Array<Object> 训练作业的运行参数。当为自定义镜像训练作业的时候,此参数为容器环境变量。详细请参见表3。
样例 对应功能 场景 说明 ModelArts Standard权限管理 IAM权限配置、权限管理 为子账号配置权限 当一个华为云账号下需创建多个IAM子账号时,可参考此样例,为IAM子账号赋予使用ModelArts所需的权限。避免IAM子账号因权限问题导致使用时出现异常。 ModelArts
卡死检测无需额外配置,作业运行中会自动执行检测。检测到作业卡死后会在训练作业详情页提示作业疑似卡死。如需检测到卡死后发送通知(短信、邮件等)请在作业创建页面配置事件通知。 常见案例:复制数据卡死 问题现象 调用mox.file.copy_parallel复制数据时卡死。 解决方案 复制文件和文件夹均可采用:
String 训练作业的代码目录。 boot_file_url String 训练作业的代码启动文件。 create_time Long 训练作业的创建时间。 parameter JSON Array 训练作业的运行参数。当为自定义镜像训练作业的时候,此参数为容器环境变量。具体请参见表5。
默认关闭,在线服务的运行日志仅存放在ModelArts日志系统。 启用运行日志输出后,在线服务的运行日志会输出存放到云日志服务LTS。LTS自动创建日志组和日志流,默认缓存7天内的运行日志。如需了解LTS专业日志管理功能,请参见云日志服务。 说明: “运行日志输出”开启后,不支持关闭。
、ReleaseDatasetStep、JobStep、ModelStep、ServiceStep、ConditionStep等,详情请见创建Workflow节点。 Data 数据对象用于节点的输入,主要可分为以下三种类型: 真实的数据对象,在工作流构建时直接指定: Datase
precision_mode=enforce_fp32 对于本次AIGC迁移,为了方便对多个模型进行转换,可以通过批量模型转换脚本自动完成所有模型的转换。 执行以下命令创建并进入static_shape_convert目录。 mkdir -p /home_host/work/static_shape_convert
512;token_type_ids:1,512' --saveType=MINDIR --optimize=ascend_oriented 动态seq_len场景下需要创建转换配置文件convert_config.ini,将如下内容写入配置文件: [acl_build_options] input_format="ND"
SUPPORT_BF16 = SUPPORT_CUDA SUPPORT_FP16 = SUPPORT_CUDA Step4 开始推理 在容器工作目录下创建推理脚本文件infer.py,文件内容如下。 from transformers import AutoModelForCausalLM,
cache/gallery/dataset/ur12345--data_demo” ENV_AG_USER_PARAMS 配置的训练超参json字符串。创建训练任务时在算法配置页面设置的超参,用json字符串表示。 {"per_device_eval_batch_size":"32","lr":"0
mmlu_gen ceval_gen --debug -w ${output_path} output_path: 要保存的结果路径。 (可选)创建新conda环境,安装vllm和opencompass。执行完之后,在 opencompass/configs/models/vllm/vllm_ppl
容器使用的GPU的型号。 account_name 训练、推理或开发环境任务创建者的账号名。 user_name 训练、推理或开发环境任务创建者的用户名。 task_creation_time 训练、推理或开发环境任务的创建时间。 task_name 训练、推理或开发环境任务的名称。 task_spec_code
cache/gallery/dataset/ur12345--data_demo” ENV_AG_USER_PARAMS 配置的训练超参json字符串。创建训练任务时在算法配置页面设置的超参,用json字符串表示。 {"per_device_eval_batch_size":"32","lr":"0
String 原因描述。 suggestion String 处理建议。 表4 Worker 参数 参数类型 描述 create_time Long 创建时间。 description String 标注成员描述,长度为0-256位,不能包含^!<>=&"'特殊字符。 email String
String 原因描述。 suggestion String 处理建议。 表5 Worker 参数 参数类型 描述 create_time Long 创建时间。 description String 标注成员描述,长度为0-256位,不能包含^!<>=&"'特殊字符。 email String
_step跳过;反之job_step_retrain跳过,model_step执行。 job_step输出的metric文件格式要求可参考创建Workflow训练作业节点部分,并且在Condition中只支持使用type为float类型的指标数据作为输入。 此案例中metrics