检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 表4 CustomHooks 参数 是否必选 参数类型 描述 container_hooks 否 ContainerHooks
通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景)
镜像保存时报错“container size %dG is greater than threshold %dG”如何解决? 问题现象 在Notebook里保存镜像时报错“container size %dG is greater than threshold %dG”。 原因分析
准备好。 获取模型软件包和权重文件 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表2所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.907-xxx.zip 说明: 软件包名称中的xxx表示时间戳。
报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决? 问题现象 原因分析 密钥文件不存在于该路径下,或者该路径下密钥文件名被修改。 解决方法 重新选择密钥路径。 父主题: VS Code连接开发环境失败故障处理
92643-c45ac6b cann_8.0.rc3 软件配套版本 本方案支持的软件配套版本和依赖包获取地址如表2所示。 表2 软件配套版本和获取地址 软件名称 说明 下载地址 AscendCloud-6.3.912-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含
nnodes:任务实例个数。 nproc_per_node:每个任务实例启动的主进程数,设置为任务分配的NPU数相同。 node_rank:任务rank,用于多任务分布式训练。 master_addr:主任务(rank 0)的地址,设置为任务worker-0的通信域名。 master_port:在主任务(rank
SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 表4 VolumeReq 参数 是否必选 参数类型 描述 capacity 否 Integer 存储
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决? 问题现象 原因分析 实例处于非运行状态。 解决方法 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如
VSCode远程连接时卡顿,或Python调试插件无法使用如何处理? 问题现象 VSCode远程连接Notebook时,单击“VS Code接入”跳转至连接界面时一直卡顿,或Python调试插件无法使用。 图1 Python调试插件错误 原因分析 该问题通常由VS Code安装了第三方中文插件引起。
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2
准备镜像环境 准备训练模型适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置物理机环境操作。 镜像地址 本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 基础镜像 swr.cn-southwest-2