检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Gallery中,您可以查找共享的镜像并用于AI开发。 使用镜像 登录“AI Gallery”。 选择“资产集市 > 镜像”,进入镜像页面,该页面展示了所有共享的镜像。 搜索业务所需的镜像,请参见查找和收藏资产。 单击目标镜像进入详情页面。 在详情页面您可以查看镜像的AI引擎框架、使
查询作业引擎规格 功能介绍 查看指定作业的引擎类型和版本。 创建训练作业和预测作业需要指定引擎规格。 URI GET /v1/{project_id}/job/ai-engines 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String
表2 查询检索参数说明 参数 是否为必选 参数类型 说明 job_type 否 String 指定作业的类型,可选的有“train”和“inference”。查询自动学习资源规格无需此参数。 engine_id 否 Long 指定作业的引擎ID,默认为“0”。查询自动学习资源规格无需此参数。
查询训练作业指定任务的日志(OBS链接) 功能介绍 查询训练作业指定任务的日志(OBS临时链接,有效期5分钟),可全量查看或直接下载。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
connection to xxx 问题现象 原因分析 执行VS Code Remote SSH连接失败。 解决方法 单击弹窗右上角关闭弹窗,查看OUTPUT中的具体报错信息,并参考后续章节列举的几种常见报错解决问题。 父主题: VS Code连接开发环境失败故障处理
型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“故障恢复详情”页签查看故障恢复信息。 图1 查看故障恢复详情 父主题: 模型训练高可靠性
Query参数 参数 是否必选 参数类型 说明 config_type 否 String 指定要查询的配置类型,可选值有以下两种 “custom”为查询用户自定义配置。 “sample”为查询示例配置,默认为“custom”。 请求消息 无。 响应消息 响应参数如表3所示。 表3 响应参数
结构是什么样的? 问题现象 创建模型时,元模型来源指定的OBS目录下存放了自定义的文件和文件夹,都会复制到镜像中去。复制进去的路径是什么,怎么读取对应的文件或者文件夹里面的内容? 原因分析 通过OBS导入模型时,ModelArts会将指定的OBS目录下的所有文件和文件夹复制到镜像
务。 操作步骤 在新版自动学习页面,单击创建成功的项目名称,查看当前工作流的执行情况。 在“预测分析”节点中,待节点状态由“运行中”变为“运行成功”,即完成了模型的自动训练。 训练完成后,您可以在预测分析节点中单击查看训练详情,如“标签列”和“标签列数据类型”、“准确率”、“评估结果”等。
xxx: Copying VS Code Server to host with scp"超过10分钟以上,如何解决? 问题现象 原因分析 通过查看日志发现本地vscode-scp-done.flag显示成功上传,但远端未接收到。 解决方法 关闭VS Code所有窗口后,回到Model
查询训练作业版本详情 功能介绍 根据作业ID查看指定的训练作业详情。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id
查询训练作业版本列表 功能介绍 根据作业ID查看指定的训练作业版本。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions 参数说明如表1所示。 表1 路径参数 参数 是否必选 参数类型 说明 project_id 是 String
查询可视化作业详情 功能介绍 根据作业名称查看指定的可视化作业详情。 URI GET /v1/{project_id}/visualization-jobs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String
“我的发布”:可以查看个人发布的算法信息,如浏览量、收藏量、订阅量等。通过右侧的“上架”、“下架”或“删除”可以管理已发布的算法。资产下架后,已订阅该资产的用户可继续正常使用,其他用户将无法查看和订阅该资产。下架后的资产可以重新上架。资产未被订阅时可以删除资产。 “我的订阅”:可以查看个人订
训练作业运行失败,出现NCCL报错 问题现象 训练作业的状态“运行失败”,查看训练作业的“日志”,存在NCCL的报错,例如“NCCL timeout”、“RuntimeError: NCCL communicator was aborted on rank 7”、“NCCL WARN
setting max_split_size_mb to avoid fragmentation. 解决方法: 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 父主题: 常见错误原因和解决方法
合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书 另外,华为云还提供了以下销售许可证及软件著作权证书,供用户下载和参考。具体请查看合规资质证书。 图3 销售许可证&软件著作权证书 父主题: 安全
setting max_split_size_mb to avoid fragmentation. 解决方法: 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 父主题: 常见错误原因和解决方法
通过OBS导入模型时,如何编写打印日志代码才能在ModelArts日志查询界面看到日志 问题现象 用户通过OBS导入模型时,选择使用基础镜像,用户自己编写了部分推理代码实现自己的推理逻辑,出现故障后希望通过故障日志排查定位故障原因,但是通过logger打印日志无法在“在线服务”的日志中查看到部分内容。 原因分析 推理服
训练作业运行失败排查指导 问题现象 训练作业的“状态”出现“运行失败”的现象。 原因分析及处理方法 查看训练作业的“日志”,出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。