检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可能原因是用户使用的启动脚本为旧版本的run_train.sh,脚本里面有某些环境变量在新版本下发的作业中并不存在这些环境变量导致。 可能原因是使用Python file接口并发读写同一文件。 处理方法 对挂载盘的数据加权限,可以改为与训练容器内相同的用户组(1000),假如/nas盘是挂载路径,执行如下代码。
customer",表示资源池对应订单已取消,取消原因可能为超时未支付、用户自主取消,需重新购买。 其他错误 可通过F12查看浏览器请求信息,选择标红的pools接口,查看响应里的详细报错信息,如下图所示。通过错误提示修正输入参数后再次提交订单。 图8 报错信息 如CCE集群不可用,请检查CCE集群版本和状态。报错信息如下:
由于用户本地开发的代码需要上传至ModelArts后台,训练代码中涉及到依赖文件的路径时,用户设置有误的场景较多。 推荐通用的解决方案:使用os接口得到依赖文件的绝对路径,避免报错。 示例: |---project_root #代码根目录 |---BootfileDirectory
ModelArts以10秒/次的频率调用自定义配置中提供的命令或http接口获取指标数据。 自定义配置中提供的命令或http接口返回的指标数据文本不能大于8KB。 命令方式采集自定义指标数据 用于创建自定义指标采集POD的YAML文件示例如下。 apiVersion: v1 kind: Pod metadata:
el-len。 e5-mistral-7B和gte-Qwen2-7B-instruct模型,使用openai启动服务,发送推理请求使用的是接口curl -X POST http://localhost:port/v1/embedding。 表1 基于vLLM不同模型推理支持最小卡数和最大序列说明
异常中文描述 检测方法 处理建议 NT_NPU_DEVICE NPU 其他 npu dcmi device异常。 NPU设备异常,昇腾dcmi接口中返回设备存在重要或紧急告警。 可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 NT_NPU_NET NPU 链路 npu
acceptSamples 给样本添加标签 dataset updateSamples 发送邮件给团队标注任务的成员 dataset sendEmails 接口人启动团队标注任务 dataset startWorkforceTask 更新团队标注任务 dataset updateWorkforceTask
“选择标注团队”:任务类型设置为“指定标注团队”,需在此参数中指定一个团队,同时勾选此团队中某几个成员负责标注。下拉框中将罗列当前账号下创建的标注团队及其成员。 “选择标注接口人”:任务类型设置为“指定标注管理员”,需在所有团队的“Team Manager”中选择一人作为管理员。 “自动将新增图片同步给标注团队”
benchmark_parallel.csv 参数说明 --backend:服务类型,支持tgi、vllm、mindspore、openai等。本文档使用的推理接口是vllm。 --host ${docker_ip}:服务部署的IP地址,${docker_ip}替换为宿主机实际的IP地址。 --port:推理服务端口8080。
对于偶现且劣化现象出现的step数不固定的场景,则需要确保能采集到该不固定的step。 profiling数据采集请参考Ascend PyTorch Profiler接口采集。文档中包含torch_npu.profiler.profile、dynamic_profile等多种采集方式。任意torch_npu版本均支持torch_npu
acceptSamples 给样本添加标签 dataset updateSamples 发送邮件给团队标注任务的成员 dataset sendEmails 接口人启动团队标注任务 dataset startWorkforceTask 更新团队标注任务 dataset updateWorkforceTask
更多选项 内容审核 选择是否打开内容审核,默认启用。 开关打开(默认打开),内容审核可以阻止模型推理中的输入输出中出现不合规的内容,但可能会对接口性能产生较大影响。 开关关闭,停用内容审核服务,将不会审核模型推理中的输入输出,模型服务可能会有违规风险,请谨慎关闭。 关闭“内容审核”开
通过ModelArts的Notebook,在JupyterLab中使用OBS上传下载数据。 建议配置。 开发环境监控功能 AOM aom:alarm:put 调用AOM的接口,获取Notebook相关的监控数据和事件,展示在ModelArts的Notebook中。 建议配置。 VPC接入 VPC vpc:ports:create
obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表56 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
务列表选中目标服务,在功能权限区域选中目标权限。 图4 普通模式 注意: 普通模式是细粒度控制的权限,由于MaaS调用ModelArts的接口通过委托授权,权限配置为普通模式时,缺少Modelarts的一些权限,导致创建MaaS作业失败。您可以在IAM控制台的“委托”页面,使用新
训练对象,该对象包含job_id等属性,对训练作业的查询、更新、删除等操作时,可通过job_instance.job_id获取训练作业ID。 表7 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
复制单个大文件5G以上时可采用: from moxing.framework.file import file_io 查看当前moxing调用的接口版本:file_io._LARGE_FILE_METHOD,如果输出值为1则为V1版本,如果输出值为2,则为V2版本。 V1版本修改:file_io
obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表54 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String
Standard场景下选择“ModelArts Standard(标准版)”。 “ModelArts Lite Elastic Cluster(原生接口)”用于ModelArts Lite Cluster场景,相关资料请见《ModelArts Lite Cluster用户指南》。该参数仅在贵阳一区域显示。
obs_url String 训练作业日志保存的OBS地址。 host_path String 训练作业日志保存的宿主机的路径。 表54 调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String