检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Gallery中,可以报名参加正在进行中的实践活动。 查找实践活动 进入AI Gallery首页,单击“实践”,在下拉框中单击“实践 >”,进入实践首页。 在实践页面,有“进行中”、“即将开始”和“已结束”三种状态的实践活动筛选方式。 图1 查找实践活动 单击右上方的“我的实践”可以跳转到个人中心(“我的Gallery
原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型。 处理方法 查看算法代码中设置的训练资源规格。 检查创建训练作业时所选的资源规格是否正确,重新创建训练作业选择正确的资源规格。 父主题: 云上迁移适配故障
通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0,就可以将预检功能关闭。环境变量说明参考查看训练容器环境变量。 父主题: Ascend相关问题
使用MoXing时,如何进行增量训练? 在使用MoXing构建模型时,如果您对前一次训练结果不满意,可以在更改部分数据和标注信息后,进行增量训练。 “mox.run”添加增量训练参数 在完成标注数据或数据集的修改后,您可以在“mox.run”中,修改“log_dir”参数,并新增“checkpoin
本小节介绍如何在ECS服务器挂载SFS Turbo存储,挂载完成后可在后续步骤中,将训练所需的数据通过ECS上传至SFS Turbo。 前提条件 已创建SFS Turbo,如果未创建,请参考创建文件系统。 数据及算法已经上传至OBS,如果未上传,请参考上传数据和算法至OBS(首次使用时需要)。 ECS服务器和SFS的
镜像的API接口功能,无误后将自定义镜像上传至SWR服务。 将自定义镜像创建为模型:将上传至SWR服务的镜像导入ModelArts的模型管理。 将模型部署为在线服务:将导入的模型部署上线。 本地构建镜像 以linux x86_x64架构的主机为例,您可以购买相同规格的ECS或者应用本地已有的主机进行自定义镜像的制作。
包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
el) 本章节介绍基于PyTorch引擎的单机多卡数据并行训练。 MindSpore引擎的分布式训练参见MindSpore官网。 训练流程简述 单机多卡数据并行训练流程介绍如下: 将模型复制到多个GPU上 将一个Batch的数据均分到每一个GPU上 各GPU上的模型进行前向传播,得到输出
redentials.csv”,可打开文件查看访问密钥(Access Key Id和Secret Access Key)。 “project_id”即项目ID,获取方式如下: 在“我的凭证”页面,单击“API凭证”,在“项目列表”中可查看项目ID和名称(即“项目”)。多项目时,展
通过CloudShell登录到Linux工作页面,检查GPU工作情况: 通过输入“nvidia-smi”命令,查看GPU工作是否异常。 通过输入“nvidia-smi -q -d TEMPERATURE”命令, 查看TEMP参数是否存在异常, 如果温度过高,会导致训练性能下降。 父主题: 训练作业性能问题
|── data # 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune # 微调加载的数据 |──converted_weights #
mox.file与本地接口的对应关系和切换 API对应关系 Python:指本地使用Python对本地文件的操作接口。支持一键切换为对应的MoXing文件操作接口(mox.file)。 mox.file:指MoXing框架中用于文件操作的接口,其与python接口一一对应关系。 tf
引擎包:从容器镜像中选择一个镜像。 其他参数保持默认值。 单击“立即创建”,跳转到模型列表页,查看模型状态,当状态变为“正常”,模型创建成功。 图1 创建模型 单击模型名称,进入模型详情页面,查看模型详情信息。 部署服务并查看详情 在模型详情页面,单击右上角“部署>在线服务”,进入服务部署页面,模型
for data must be int, float or bool 原因分析 出现该问题的可能原因如下: 训练数据中出现了非int、float、bool类型数据。 处理方法 可参考如下代码,将错误列进行转换: from sklearn import preprocessing
的训练数据到当前训练流程中,扩展当前模型的知识和能力,而不需要从头开始。 增量训练不需要一次性存储所有的训练数据,缓解了存储资源有限的问题;另一方面,增量训练节约了重新训练中需要消耗大量算力、时间以及经济成本。 增量训练特别适用于以下情况: 数据流更新:在实际应用中,数据可能会持
slice(None, None, None))' is an invalid key 原因分析 出现该问题的可能原因如下: 切分数据时,选择的数据不对。 处理方法 尝试如下代码: X = dataset.iloc[:,:-1].values 建议与总结 在创建训练作业前,推荐您
单击右上角的“购买终端节点”,进入购买页面。 区域:终端节点所在区域。 不同区域的资源之间内网不互通,请确保与ModelArts所在区域保持一致。 服务类别:请选择“按名称查找服务”。 服务名称:填入步骤1中获取的“终端节点服务地址”。单击右侧验证按钮,系统将为您自动填入虚拟私有云、子网和节点IP。 创建内网域名:保持默认值。
单击右侧的,可以更改Notebook名称和描述。 编辑完成之后单击“确定”。 关联资产 在输入框中输入资产ID后,单击“关联”即可关联其他资产,更方便其他使用者进行查找。算法可以关联数据集资产。 选择“关联资产”,在输入框中输入待关联资产的ID,单击“关联”。 在弹出的“资产信息”页面,单击“确定”即可关联资产。 可见范围设置
包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
ma-job训练作业支持的命令 ma-cli dli-job提交DLI Spark作业支持的命令 使用ma-cli obs-copy命令复制OBS数据 父主题: 使用Notebook进行AI开发调试