检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用ModelArts时,用户数据需要存放在自己OBS桶中,但是训练代码运行过程中不能使用OBS路径读取数据。 原因: 训练作业创建成功后,由于在运行容器直连OBS服务进行训练性能很差,系统会自动下载训练数据至运行容器的本地路径。所以,在训练代码中直接使用OBS路径会报错。例如训练代码的OBS路径为obs://b
低于10%)。训练数据的csv文件不能包含表头,否则会导致训练失败。当前由于特征筛选算法限制,标签列建议放在数据集最后一列,否则可能导致训练失败。 由于ModelArts会自动对数据进行一些过滤,过滤后再启动训练作业。当预处理后的数据不满足训练要求时,也会导致训练作业运行失败。 对于数据集中列的过滤策略如下所示:
昇腾设备上并跑通训练过程。该实验的主要任务有: 1、在本地跑通“基于Tensorflow1.15编写的LeNet网络的minist手写数字识别”的程序; 2、模型迁移,将原代码迁移成能在昇腾AI处理器上进行训练的代码; 3、将迁移后的代码跑在ModelArts平台上。 一、本地
会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 无成功响应参数。 表2 调用训练接口失败响应参数 参数 类型 描述 error_msg
训练前卡死 作业为多节点训练,且还未开始训练时发生卡死,可以在代码中加入os.environ["NCCL_DEBUG"] = "INFO",查看NCCL DEBUG信息。 问题现象1 日志中还未出现NCCL DEBUG信息时已卡死。 解决方案1 检查代码,检查是否有参数中未传入“
训练中途卡死 问题现象1 检测每个节点日志是否有报错信息,某个节点报错但作业未退出导致整个训练作业卡死。 解决方案1 查看报错原因,解决报错。 问题现象2 作业卡在sync-batch-norm中或者训练速度变慢。pytorch如果开了sync-batch-norm,多机会慢,因
在ModelArts上训练模型,输入输出数据如何配置? ModelArts支持用户上传自定义算法创建训练作业。上传自定义算法前,请完成算法开发并上传至OBS桶。创建算法请参考使用预置框架创建算法。创建训练作业请参考创建训练作业指导。 解析输入路径参数、输出路径参数 运行在Mode
为您提供技术盛宴 陈志扬 华为GDE.ADC平台开发资深工程师 负责领域 专注于界面、流程、数据等低代码开发 文建坤 华为GDE.ADC平台开发资深工程师 负责领域 专注于界面、流程、API集成等低代码开发 陈志扬 华为GDE.ADC平台开发资深工程师 负责领域 专注于界面、流程、数据等低代码开发
自动学习项目不同导致的失败原因可能不同。 图像识别训练失败请检查是否存在损坏图片,如有请进行替换或删除。 物体检测训练失败请检查数据集标注的方式是否正确,目前自动学习仅支持矩形标注。 预测分析训练失败请检查标签列的选取。标签列目前支持离散和连续型数据,只能选择一列。 声音分类训练失败请检查音频格式是否为16bit的WAV格式。
如何在训练中加载部分训练好的参数? 在训练作业时,需要从预训练的模型中加载部分参数,初始化当前模型。请您通过如下方式加载: 通过如下代码,您可以查看所有的参数。 from moxing.tensorflow.utils.hyper_param_flags import mox_flags
训练模型 特征和算法确定后,可以开始训练模型。 训练模型 单击“模型选择”左下方的“训练模型”。 新增“训练模型”内容,如图1所示。 图1 训练模型 单击“训练模型”代码框左侧的图标,进行模型训练。 模型训练完成后,界面下方展示模型的评估效果。 第一列内容的含义如下所示: 0:标注为0的所有样本。可以理解为标签。
code_dir+boot_file取训练作业的代码目录和启动文件。 tasks Array of TaskResponse objects 异构训练作业的任务列表。 spec spec object 训练作业规格参数。 表5 JobMetadata 参数 参数类型 描述 id String 训练作业ID,
训练作业 创建训练作业 训练作业调测 查询训练作业列表 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练日志 查询训练作业的运行指标 父主题: 训练管理
创建训练作业 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 ModelArts SDK不支持通过在AI Gallery中订阅的算法创建训练作业。 示例一:提交常用框架训练作业 Es
新建训练工程、联邦学习工程、训练服务或超参优化服务。 名称 模型训练名称。 模型训练工程描述 对模型训练工程的描述信息。 创建时间 训练工程、联邦学习工程、训练服务或者超参优化服务的创建时间。 类型 模型训练的类型。 包含如下选项: 模型训练 联邦学习 训练服务 优化服务 创建者 创建训练工程、联邦
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 update_job_configs请求参数说明 参数
训练模型时引用依赖包,如何创建训练作业? ModelArts支持训练模型过程中安装第三方依赖包。在训练代码目录下放置“pip-requirements.txt”文件后,在训练启动文件被执行前系统会执行如下命令,以安装用户指定的Python Packages。 pip install
job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_info返回参数说明 参数 参数类型 描述 kind String 训练作业类型。默认使用job。
Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_log请求参数说明 参数 是否必选 参数类型