检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Standard上运行GPU多机多卡训练作业 操作流程 准备工作: 购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置OBS命令行工具 (可选)工作空间配置 模型训练:
按照对应的存储使用情况选择存储大小。 SSH远程开发 如果需通过VS Code远程连接Notebook实例,可打开SSH远程开发,并选择自己的密钥对。 在Notebook列表,单击“操作”列的“打开”,打开Notebook实例。 ModelArts Lite DevServer 开通裸金属服务器资源请见Dev
将Notebook的Conda环境迁移到SFS磁盘 本文介绍了如何将Notebook的Conda环境迁移到SFS磁盘上。这样重启Notebook实例后,Conda环境不会丢失。 步骤如下: 创建新的虚拟环境并保存到SFS目录 克隆原有的虚拟环境到SFS盘 重新启动镜像激活SFS盘中的虚拟环境
或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no" ssh -tt -o StrictHostKeyChecking=no
Server-Sent Events(SSE)是一种服务器向客户端推送数据的技术,它是一种基于HTTP的推送技术,服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据,例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的单向实时通信需求(例如ChatGP
获取待上传的文件名 获取待上传的文件在服务器的绝对路径。 上传单个文件 在服务器执行如下命令,可以将服务器上的文件上传到AI Gallery仓库里面。 gallery-cli upload {repo_id} {文件名} 如下所示,表示将服务器上的文件“D:\workplace\m
使用Gallery CLI配置工具下载文件 在服务器(ModelArts Lite云服务器或者是本地Windows/Linux等服务器)上登录Gallery CLI配置工具后,通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。 命令说明 登录Gallery
或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no" ssh -tt -o StrictHostKeyChecking=no
单个弹性公网IP用于单个Server服务器:为单台Server服务器绑定一个弹性公网IP,该Server服务器独享网络资源。 单个弹性公网IP用于多个Server服务器:一个VPC配置一个EIP(弹性公网IP),通过NAT网关配置进行EIP资源共享,实现该VPC下的所有Server服务器均可以通过该E
相关名词解释 名词 含义 裸金属服务器 裸金属服务器是一款兼具虚拟机弹性和物理机性能的计算类服务,为您和您的企业提供专属的云上物理服务器,为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全。 由于Server是一台裸金属服务器,在ModelArts管理控
x86_x64架构的主机为例,您可以购买相同规格的ECS或者应用本地已有的主机进行自定义镜像的制作。 购买ECS服务器的具体操作请参考购买并登录弹性云服务器。镜像选择公共镜像,推荐使用ubuntu18.04的镜像。 图1 创建ECS服务器-选择X86架构的公共镜像 登录主机后,安装D
PC的方式,使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内,实现专属资源池访问外网。 前提条件 已拥有需要部署SNAT的弹性云服务器。 待部署SNAT的弹性云服务器操作系统为Linux操作系统。 待部署SNAT的弹性云服务器网卡已配置为单网卡。 步骤一:打通VPC 通
状态,如果实例已停止,请执行启动操作,如果实例处于其他状态比如“错误”,请尝试先执行停止然后执行启动操作。待实例变为“运行中”后,再次执行远程连接。 父主题: VS Code连接开发环境失败故障处理
Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。
Error硬件故障 如果业务受到影响,转硬件换卡 业务可能受到影响终止 NPU: 需要重启实例 RebootVirtualMachine 提示 当前故障很可能需要重启进行恢复 在收集必要信息后,重启以尝试恢复 重启可能中断客户业务 NPU: 需要复位SOC ResetSOC 提示 当前故障很可能需要复位SOC进行恢复
Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。
支持的cuda或Ascend版本 TensorFlow x86_64 Ubuntu18.04 tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64 cuda10.1 PyTorch x86_64 Ubuntu18.04 pytorch_1.8.0-cuda_10
支持的cuda或Ascend版本 TensorFlow x86_64 Ubuntu18.04 tensorflow_2.1.0-cuda_10.1-py_3.7-ubuntu_18.04-x86_64 cuda10.1 PyTorch x86_64 Ubuntu18.04 pytorch_1.8.0-cuda_10
步骤二:使用Docker安装和配置正向代理 购买弹性云服务器ECS,详情请见购买ECS。镜像可选择Ubuntu最新版本。虚拟私有云选择提前创建好的VPC。 申请弹性公网IP EIP,详情请见申请弹性公网IP。 将弹性公网IP绑定到ECS,详情请见将弹性公网IP绑定至实例。 登录ECS,执行如下命令进行Do
1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64-20220926104358-041ba2e", "tag" : "pytorch_1.8.0-cuda_10.2-py_3.7-ubuntu_18.04-x86_64-20220926104358-041ba2e"