检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
"resource_requirements": [] } 其中,加粗的斜体字段需要根据实际值填写: “metadata”字段下的“name”和“description”分别为算法的名称和描述。 “job_config”字段下的“code_dir”和“boot_file”分别为算法的代码目
已有镜像迁移至ModelArts用于训练模型 场景描述 本地已有镜像,需要做云上适配,用于ModelArts模型训练。 操作步骤 参考如下Dockerfile,修改已有镜像,使其符合模型训练的自定义镜像规范。 FROM {已有镜像} USER root # 如果已存在 gid = 100 用户组,则删除
subscriptable”。 原因分析 根据报错日志分析,是因为一个float数据被当做对象下标访问了。 处理方法 将模型推理代码中的x[0][i]修改为x[i],重新部署服务进行预测。 父主题: 服务预测
oken字段上填入该租户在该region的domain级别的token。具体指导参见连接:获取IAM用户Token。 APP认证的方式:APP认证方式又可以细分为AppCode认证和APP签名认证。 AppCode认证需要在header的X-Apig-AppCode字段上填入绑定给该在线服务的APP的AppCode。
、INFERENCE。指明该对象用于训练、评估、测试、推理,如果没有给出该字段,则使用者自行决定如何使用该对象。 inference_loc String 当此Manifest文件由推理服务生成时会有该字段,表示推理输出的结果文件位置。 id String 样本ID。 source_type
DELETING:正在删除。 DELETE_FAILED:删除失败。 status_info String 状态描述,默认为空。该字段会补充显示状态的详细信息。如删除失败时,可通过该字段查看删除失败的原因。 grants Array of grants objects 授权用户列表。默认为空。需要
默认:系统随机分配一个不冲突的网段供用户使用,因后续不支持修改建议商用场景选择手动分配,确保网段符合用户诉求。 自定义:需要自定义K8S容器网段和K8S服务网段。 K8S容器网段:集群下容器使用的网段,决定了集群下容器的数量上限。创建后不可修改。 K8S服务网段:同一集群下容器互相访问时使用
String 调用失败时的错误信息,调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码,调用成功时无此字段。 error_solution String 调用失败时的提示解决信息,调用成功时无此字段。 父主题: 训练作业
or bucket not found.')”。 原因:Moxing在进行文件复制时,未找到train_data_obs目录。 处理建议:修改train_data_obs目录为正确地址,重新启动训练作业。 另外在Moxing下载OBS对象过程中,不要删除相应OBS目录下的对象,否
1-py_3.7-ubuntu_18.04-x86_64,并且优化的超参类型为float类型,ModelArts支持用户使用超参搜索功能。 在0代码修改的基础下,实现算法模型的超参搜索。需要完成以下步骤: 准备工作 创建算法 创建训练作业 查看超参搜索作业详情 准备工作 数据已完成准备:已
失败响应参数说明 参数 参数类型 描述 error_code String 调用失败时的错误码。 调用成功时无此字段。 error_msg String 调用失败时的错误信息。 调用成功时无此字段。 父主题: OBS管理
String 调用失败时的错误信息,调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码,调用成功时无此字段。 error_solution String 调用失败时的提示解决信息,调用成功时无此字段。 父主题: 训练作业
失败响应参数说明 参数 参数类型 描述 error_code String 调用失败时的错误码。 调用成功时无此字段。 error_msg String 调用失败时的错误信息。 调用成功时无此字段。 父主题: OBS管理
Connection timed out"如何解决? 问题现象 原因分析 原因分析一:实例配置的白名单IP与本地网络访问IP不符。 解决方法:请修改白名单为本地网络访问IP或者去掉白名单配置。 原因分析二:本地网络不通。 解决方法:检查本地网络以及网络限制。 父主题: VS Code连接开发环境失败常见问题
Connection timed out"如何解决? 问题现象 原因分析 原因分析一:实例配置的白名单IP与本地网络访问IP不符。 解决方法:请修改白名单为本地网络访问IP或者去掉白名单配置。 原因分析二:本地网络不通。 解决方法:检查本地网络以及网络限制。 父主题: VS Code连接开发环境失败故障处理
module name 'unidecode'” 问题现象 从mindspore开源gitee中master分支下载的tacotron2模型,修改配置文件后上传ModelArts准备训练,日志报错提示:No module name 'unidecode'。 原因分析 requirements
查看卡信息 修改pod的卡数。由于本案例中为分布式训练,因此所需卡数修改为8卡。 删除已创建的pod。 kubectl delete -f config.yaml 将config.yaml文件中“limit”和“request”改为8。 vi config.yaml 图3 修改卡数 重新创建pod。
n.sh”即为2修改的训练启动脚本。 apiVersion: batch.volcano.sh/v1alpha1 kind: Job metadata: name: yourvcjobname # job名字,根据实际场景修改 namespace:
json格式的数据,通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称,默认为text。在维基百科数据集中,它有四列,分别是id、url、title和text。可以指定–json-key 标志来选择用于训练的列。
针对不同的异常情况说明及解决方案参见表1。 表1 自动学习训练中图片异常情况说明(图像分类和物体检测) 序号 图片异常显示字段 图片异常说明 解决方案字段 解决方案说明 1 load failed 图片无法被解码且不能修复 ignore 系统已自动过跳过这张图片,不需要用户处理。