检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码,调用成功时无此字段。 error_solution String 调用失败时的提示解决信息,调用成功时无此字段。
is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 job_id Long 训练作业的ID。 job_name String
使用SDK调测多机分布式训练作业 代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,仅需修改7和11中的 framework_type参数值即可,例如:MindSpore框架,此处framew
FullAccess权限。 (可选)配置密钥管理权限。如果需要使用ModelArts Notebook的SSH访问功能,依赖密钥管理权限。搜索DEW,勾选“DEW KeypairFullAccess”。 此处需要注意以下Region配置的是DEW密钥管理权限:华北-北京一、华北-北京四、华
调用训练接口失败响应参数 参数 类型 描述 error_msg String 调用失败时的错误信息,调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码,调用成功时无此字段。 error_solution String 调用失败时的提示解决信息,调用成功时无此字段。
夹里面,最后用父目录创数据集即可。 登录ModelArts管理控制台,选择“数据管理>数据集”进入数据集概览页,单击右上角“导出”,将对应的数据集到导出至OBS父级目录下的子文件夹中。 父主题: Standard数据管理
能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 配置Cluster资源,确
ook实例,需要将SSH密钥对更新成自己的,否则会报错ModelArts.6786。更新密钥对具体操作请参见修改SSH远程连接配置。具体的错误信息提示:ModelArts.6789: 在ECS密钥对管理中找不到指定的ssh密钥对xxx,请更新密钥对并重试。 父主题: 管理Notebook实例
定”开始构建AI应用。 当AI应用状态变为“运行中”时,表示启动成功。在AI应用详情页的“应用”页签,可以在线体验应用。 父主题: 发布和管理AI Gallery中的AI应用
任务时打开了“消息通知”,该功能依赖SMN委托授权,但只有训练任务运行过程中,真正需要发送消息时,系统才会“出错”,而有些错误系统会选择“忽略”,另一些错误则可能导致任务直接失败。当您做深入的“权限最小化”限制时,请确保您在ModelArts上将要执行的操作仍旧有足够的权限。 严格授权模式
购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后,检查NP
格,导致发生了NPU相关调用报错。 建议与总结 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VSCode)联接云上环境调试请参考使用本地IDE开发模型。
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
} 状态码 状态码 描述 200 OK 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 数据管理(旧版)
"resource_requirements" : null, "advanced_config" : { } } 状态码 状态码 描述 200 ok 错误码 请参见错误码。 父主题: 训练管理
iner_npu_hbm_bytes)。 >0 兆字节(Megabytes) AI处理器错误码 ma_container_npu_ai_core_error_code 昇腾系列AI处理器错误码 - - AI处理器健康状态 ma_container_npu_ai_core_health_status
Gallery下载的数据格式,比如压缩包、excel文件等会被忽略,支持格式详情: 数据集类型 标注类型 创建数据集 导入数据 导出数据 发布数据集 修改数据集 管理版本 自动分组 数据特征 文件型 图像分类 支持 支持 支持 支持 支持 支持 支持 支持 物体检测 支持 支持 支持 支持 支持 支持 支持
# 注意dataset_name这个参数配置的数据集名称需要用户自行确认在该账号下未被他人使用,否则会导致期望的数据集未被创建,而后续节点错误使用了他人创建的数据集 workflow = wf.Workflow( name="create-dataset-demo",
req_count_4xx 4xx异常次数 统计api接口返回4xx错误的次数 ≥Count/min ModelArts在线服务 1分钟 req_count_5xx 5xx异常次数 统计api接口返回5xx错误的次数 ≥Count/min ModelArts在线服务 1分钟 avg_latency
池时默认会安装ICAgent,可能由于用户自行卸载ICAgent,导致资源池数据显示异常。 处理方法 登录“应用运维管理”控制台,在“配置管理 > Agent管理”中,选择未安装ICAgent的集群,并单击“安装ICAgent”。 图1 安装ICAgent 建议不要随意卸载ICA