检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ECS中构建新镜像 通过ECS获取基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压Asce
从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。 在ECS服务器挂载SFS Turbo已经将SFS Turbo挂载到了/mnt/sfs_turbo目录,这里参考obsutil文档,直接使用obsut
Code Toolkit插件提供的登录和连接按钮,连接云上实例。 VS Code手动连接Notebook 该方式是指用户使用VS Code Remote SSH插件手工配置连接信息,连接云上实例。 安装VS Code软件 使用VS Code连接开发环境时,首先需要安装VS Code软件。
interpreter需要耗费20分钟左右。 Step5 使用插件连接云上Notebook 与Notebook断开连接的状态下,单击Notebook名称,根据提示启动本地IDE与Notebook的连接(默认启动时间4小时)。 图5 启动连接Notebook 连接状态下,单击Notebook名称,根据提示
基于高性能考虑,ModelArts会复用同模型服务的连接。根据tcp协议,连接的断开可以由该连接的client端发起,也可以由server端发起。断开连接需要经过四次握手,所以可能会存在作为服务端的模型服务侧发起断开连接,但是该连接正在被作为客户端的ModelArts使用,从而导致通信出错,返回此错误信息。
写,如果需挂载SFS指定目录,则在子目录挂载处填写具体路径。 如果需要通过VS Code连接Notebook方式进行代码调试,则需开启“SSH远程开发”并选择密钥对,请参考VS Code连接N。 参数填写完成后,单击“立即创建”进行规格确认。 参数确认无误后,单击“提交”,完成Notebook的创建操作。
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 如果本地为Linux系统,见原因分析二。 原因分析一 自动安装VS Code插件ModelArts-HuaweiCloud失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS
VS Code连接远端Notebook时报错“XHR failed” VS Code连接后长时间未操作,连接自动断开 VS Code自动升级后,导致远程连接时间过长 使用SSH连接,报错“Connection reset”如何解决? 使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决?
NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 表4 VolumeReq 参数 是否必选 参数类型
图9 选择正确的密钥文件 当左下角显示如下状态时,代表实例连接成功: 图10 实例连接成功 当弹出如下错误时,代表实例连接失败,请关闭弹窗,并查看OUTPUT窗口的输出日志,请查看FAQ并排查失败原因。 图11 实例连接失败 远程调试代码 在VS Code界面,上传本地代码到云端开发环境。
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
运行训练作业时提示URL连接超时 问题现象 训练作业在运行时提示URL连接超时,具体报错如下: urllib.error.URLERROR:<urlopen error [Errno 110] Connection timed out> 原因分析 由于安全性问题在ModelArts上不能联网下载。
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,以基于DeepSpeed的Qwen-VL模型为例,为用户提供了多模态理解模型在ModelArts Standard上的全量微调和LoRA微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
准备一台具有Docker功能的机器,如果没有,建议申请一台弹性云服务器并购买弹性公网IP,并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本,方便安装docker。 本地Linux机器的操作等同ECS服务器上的操作,请参考本案例。 登录ECS控制台,购买弹性云服务器,镜像选择“公共镜像”,推荐使用ubuntu18
本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,以基于DeepSpeed的Qwen-VL模型为例,为用户提供了多模态理解模型在ModelArts Standard上的全量微调和LoRA微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法