检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts-Note-BmjiN实例,但SSH连到识别的是Host,错误地连到了Host ModelArts-Note-wZc6s这个实例。 按ssh-config的标准写法更新配置,Host这里是每组配置的唯一标识,必填项且必须放在配置文件第一行。 Host ModelArts-notebook-xxx HostName
绑定完成后,通过MobaXterm、Xshell登录。以MobaXterm为例,填入弹性公网IP,登录节点。 图7 登录节点 方式2:通过华为云自带的远程登录功能 使用华为云账号登录CCE管理控制台。 在CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。
注册并登录管理ModelArts控制台。 在页面右上角单击用户名,然后在下拉列表中单击“我的凭证”,进入“我的凭证”页面。 如果您登录的是华为云官网,而非管理控制台。在单击用户名后,选择下拉列表中的“帐号中心”,然后单击“管理我的凭证”进入“我的凭证”页面。 在“API凭证”页面的
处理建议:修改train_data_obs目录为正确地址,重新启动训练作业。 另外在Moxing下载OBS对象过程中,不要删除相应OBS目录下的对象,否则Moxing在下载到被删除的对象时会下载失败。 查看训练作业的“日志”,出现报错“CUDA capability sm_80 is
如何在ModelArts的Notebook中上传下载OBS文件? 在Notebook中可以通过调用ModelArts的Moxing接口或者SDK接口与OBS交互,将Notebook中的文件上传至OBS,或者下载OBS中的文件至Notebook中。 图1 Notebook中上传下载OBS文件 使用OBS客户端上传文件的操作指导:上传文件
/v1/{project_id}/dev-servers/sync 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 owner 否 String 实例归属的用户ID,长度为
/v1/{project_id}/dev-servers 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 owner 否 String 实例归属的用户ID,长度为
TensorFlow-1.8作业连接OBS时反复出现提示错误 问题现象 基于TensorFlow-1.8启动训练作业,并在代码中使用“tf.gfile”模块连接OBS,启动训练作业后会频繁打印如下日志信息: Connection has been released. Continuing
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
ModelArts的API和SDK不支持模型下载到本地,但训练作业输出的模型是存放在对象存储服务(OBS)里面的,您可以通过OBS的API或SDK下载存储在OBS中的文件,具体请参见从OBS下载文件。 父主题: API/SDK
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
和新建文件夹。 请确保您使用的OBS与ModelArts在同一区域。 表1 OBS桶文件夹列表 文件夹名称 用途 “obs://test-modelarts/pytorch/demo-code/” 用于存储训练脚本文件。 “obs://test-modelarts/pytorch/log/”
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法
package - torch.distributed — PyTorch 2.3 documentation 父主题: 常见错误原因和解决方法