检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts上没有配置委托授权。 OBS文件加密上传导致。ModelArts不支持OBS加密文件。 OBS桶的权限和访问ACL设置不正确导致。 创建训练作业时,代码目录和启动文件设置有误。 处理办法 查看OBS桶与ModelArts是否在同一个区域 查看创建的OBS桶所在区域。 登录OBS管理控制台。
INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 services 否 Array of strings 镜像支持的服务,默认值NOTEBOOK、SSH。枚举值如下:
modelarts-infer.com。内网VPC无法解析modelarts-infer.com域名,需要用户参考当前步骤和“步骤4 VPC访问在线服务”增加内网域名解析。 登录云解析服务DNS管理控制台,左侧导航栏选择“内网域名”。 单击“创建内网域名”,打开创建内网域名弹出框。填写以下参数配置: 域名
如果客户端位于华为云网络之外,保证客户端所处的网络环境可以连接Internet; 如果客户端位于华为云网络内,默认的网络配置即可以访问通这个地址,避免设置特殊的网络配置,例如防火墙规则等。 建议与总结 无 父主题: 在线服务
API网关地址环境变量 作业元信息环境变量 约束限制 为了避免新设置的环境变量与系统环境变量冲突,而引起作业运行异常或失败,请在定义自定义环境变量时,不要使用“MA_”开头的名称。 如何修改环境变量 用户可以在创建训练作业页面增加新的环境变量,也可以设置新的取值覆盖当前训练容器中预置的环境变量值。
设置断点续训练 什么是断点续训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkp
n_url”代替算法中数据来源和数据输出所需的路径。 在使用预置框架创建算法时,根据1中的代码参数设置定义的输入输出参数。 训练数据是算法开发中必不可少的输入。“输入”参数建议设置为“data_url”,表示数据输入来源,也支持用户根据1的算法代码自定义代码参数。 模型训练结束后
ckpt的代码逻辑,使能读取训练中断前保存的预训练模型。指导请参考设置断点续训练。 开启容错检查 用户可以在创建训练作业时通过设置自动重启的方式开启容错检查。 使用ModelArts Standard控制台的创建训练作业页面设置自动重启: 用户可以在控制台页面通过开关的方式开启自动重启。
重置节点后无法正常使用? 问题现象 当ModelArts Lite的CCE集群在资源池上只有一个节点,且用户设置了volcano为默认调度器时,在ModelArts侧进行重置节点的操作后,节点无法正常使用,节点上的POD会调度失败。 原因分析 在ModelArts侧进行节点重置后
使用样例的有标签的数据或者自己通过其他方式打好标签的数据放到OBS桶里,在modelarts中同步数据源以后看不到已标注,全部显示为未标注 OBS桶设置了自动加密会导致此问题,需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 父主题: Standard数据管理
ModelArts服务具备资源池和隔离能力,避免单租户资源被攻击导致爆炸半径过大风险。 ModelArts服务定义并维护了性能规格用于自身的抗攻击性。例如:设置API访问限制,防止恶意接口调用等场景。 ModelArts服务在攻击场景下,具备告警能力及自我保护能力。 ModelArts服务提供了业
Object 自动停止设置。参见表4。 表3 flavor属性列表 参数 是否必选 参数类型 说明 code 是 String 可视化作业选择的资源规格编码。通过flavor接口获得。 表4 schedule属性列表 参数 是否必选 参数类型 说明 type 是 String 设置为stop。
服务实际占用的资源会略大于该规格。 “实例数” 设置当前版本模型的实例个数。如果实例数设置为1,表示后台的计算模式是单机模式;如果实例数设置大于1,表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。 “环境变量” 设置环境变量,注入环境变量到容器实例。为确保您的数据安
XY中是否包含huaweicloud.com域名。 env | grep -i no_proxy 如果包含,请重新设置,或者直接去掉相关环境变量。 方式一: 重新设置 export no_proxy=xxx export NO_PROXY=xxx 方式二: 删掉相关环境变量 unset
detected 原因分析 根据错误信息判断,报错原因为训练作业运行程序读取不到GPU。 处理方法 根据报错提示,请您排查代码,是否已添加以下配置,设置该程序可见的GPU: os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中,
购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置OBS命令行工具 (可选)工作空间配置 模型训练: 线下容器镜像构建及调试 上传镜像 上传数据至OBS(首次使用时需要)
器的本地目录。请保证您设置的桶路径有读取权限。在训练作业启动后,ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来存储临时文件。“/cache”目录大小请参考训练环境中不同规格资源“/cache”目录的大小。 训练输出路径参数 建议设置一个空目录为训练输出路
在本地PC的hosts文件中配置域名和IP地址的对应关系。 三、网络代理设置 如果用户使用的网络有代理设置要求,请检查代理配置是否正确。也可以使用手机热点网络连接进行测试排查。 检查代理配置是否正确。 图2 PyCharm网络代理设置 四、AK/SK不正确 获取到的AK/SK信息不正确,请确认
为什么使用客户端上传镜像失败? 上传数据和算法至SFS ECS服务器已挂载SFS,请参考在ECS服务器挂载SFS Turbo存储。 已经在ECS中设置权限,请参考在ECS中设置ModelArts用户可读权限。 已经安装和配置obsutil,请参见安装和配置OBS命令行工具。 准备数据 登录coco数据
配IPv6网段,暂不支持自定义设置IPv6网段,该功能一旦开启,将不能关闭。(如果创建网络时未勾选开启IPv6,也可在创建网络后在操作列单击“更多>启用IPv6”,如图2) 图1 创建网络 图2 启用IPv6 单用户最多可创建15个网络。 网段设置以后不能修改,避免与将要打通的VPC网段冲突。可能冲突的网段包括: