检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
import os os.environ["TF_CPP_MIN_LOG_LEVEL"]='1' # 默认的显示等级,显示所有信息 os.environ["TF_CPP_MIN_LOG_LEVEL"]='2' # 只显示warning和Error os.envir
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(
删除训练作业标签 功能介绍 删除训练作业标签,支持批量删除。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/trai
查询训练作业标签 功能介绍 查询训练作业标签。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/trainJob/{training_job_id}/tags
智能标注失败,如何处理? 当前智能标注为免费使用阶段,当系统的标注任务过多时,因免费资源有限,导致任务失败,请您重新创建智能标注任务或建议您避开高峰期使用。 智能标注时间过长,如何处理? 当前智能标注为免费使用阶段,当系统的标注任务过多时,因免费资源有限,需要排队,您的标注任务会
训练作业运行失败排查指导 问题现象 训练作业的“状态”出现“运行失败”的现象。 原因分析及处理方法 查看训练作业的“日志”,出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。
LogDir 参数 参数类型 描述 pfs PFSSummary object obs并行文件系统输出。 表29 PFSSummary 参数 参数类型 描述 pfs_path String obs并行文件系统路径url。 表30 DataSource 参数 参数类型 描述 job JobSummary
查询训练作业参数列表 功能介绍 根据指定条件查询用户创建的训练作业参数。 URI GET /v1/{project_id}/training-job-configs 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户
8.0-cp36-cp36m-manylinux1_x86_64.whl 方式二:可以在启动文件添加如下代码安装依赖包: import os os.system('pip install xxx') 方式一在训练作业启动前即可完成相关依赖包的下载与安装,而方式二是运行启动文件过程中进行依赖包的下载与安装。
sub_img_list = os.listdir(os.path.join(data_path, item)) img_name_list += [ os.path.join(data_path, item
更新训练作业描述 功能介绍 更新训练作业描述。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI PUT /v2/{project_id}/training-jobs/{training_job_id}
创建训练作业标签 功能介绍 创建训练作业标签,支持批量添加,当添加的标签key已存在,则覆盖该标签的value。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST
查询Workflow工作流 功能介绍 通过ID查询Workflow工作流详情。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{pro
查询训练作业镜像保存任务 功能介绍 查询训练作业镜像保存任务。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/traini
训练作业性能问题 训练作业性能降低 父主题: 训练作业
自定义镜像训练作业失败定位思路 问题现象 使用自定义镜像训练作业时,训练失败。 定位思路 确定镜像来源 确认该自定义镜像的基础镜像是否来源于ModelArts提供的基础镜像,推荐用户使用ModelArts的基础镜像构建自定义镜像,具体请参见使用ModelArts的基础镜像构建新的训练镜像。
在弹出的对话框中,设置训练作业相关参数,详细参数说明请参见表1。 表1 训练作业配置参数说明 参数 说明 Job Name 训练作业的名称。 系统会自动生成一个名称,您可以根据业务需求重新命名,命名规则如下: 支持1~64位字符。 并包含大小写字母、数字、中划线(-)或下划线(_)。
训练作业运行失败 训练作业运行失败排查指导 训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用自定义镜像创建的训练作业一直处于运行中 使用自定义镜像创建训练作业找不到启动文件 训练作业的监控内存指标持续升高直至作业失败 订阅算法物体检测YOLOv3_ResN
查看批量服务的事件 服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。 方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 表1 事件 事件类型 事件
动态挂载OBS并行文件系统 什么是动态挂载OBS并行文件系统 并行文件系统(Parallel File System)是对象存储服务(Object Storage Service,OBS)提供的一种经过优化的高性能文件系统,详细介绍可以参见并行文件系统。 在ModelArts运行