检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Turbo存储 在ECS中创建ma-user和ma-group obsutils安装和配置 (可选)工作空间配置 训练: 上传数据至OBS(首次使用时需要) 上传算法至SFS 创建训练任务 父主题: 专属资源池训练
VSCode远程连接时卡顿,或Python调试插件无法使用如何处理? 问题现象 VSCode远程连接Notebook时,单击“VS Code接入”跳转至连接界面时一直卡顿,或Python调试插件无法使用。 图1 Python调试插件错误 原因分析 该问题通常由VS Code安装了第三方中文插件引起。
单击右上角“登录指令”,获取登录访问指令,本文选择复制临时登录指令。 以root用户登录本地环境,输入复制的SWR临时登录指令。 上传镜像至容器镜像服务镜像仓库。 使用docker tag命令给上传镜像打标签。 #region和domain信息请替换为实际值,组织名称deep-learning也请替换为自定义的值。
管理开发环境实例 功能介绍 该接口用于启动、停止、重启、排队、取消排队开发环境Notebook实例。 URI POST /v1/{project_id}/demanager/instances/{instance_id}/action 参数说明如表1所示。 表1 参数说明 参数 是否必选
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决? 问题现象 原因分析 实例处于非运行状态。 解决方法 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如
报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决? 问题现象 原因分析 密钥文件不存在于该路径下,或者该路径下密钥文件名被修改。 解决方法 重新选择密钥路径。 父主题: VS Code连接开发环境失败故障处理
exec -it ${container_name} bash 步骤三:获取代码并上传 上传代码AscendCloud-AIGC-6.3.912-xxx.zip到容器的工作目录中,包获取路径请参见表2。 上传代码和权重到宿主机时使用的是root用户,此处需要执行如下命令统一文件属主为ma-user用户。
下载stable-diffusion-xl-base-1.0模型包并上传到宿主机上,官网下载地址:https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main 下载vae-fp16-fix模型包并上传到宿主机上,官网下载地址:https://huggingface
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器
当前版本仅支持语言+图片多模态性能测试。 静态benchmark验证 本章节介绍如何进行静态benchmark验证。 已经上传benchmark验证脚本到推理容器中。如果在步骤三:上传代码包和权重文件中已经上传过AscendCloud-LLM-x.x.x.zip并解压,无需重复执行。
用于训练的数据集上传至OBS目录。 请准备好训练脚本,并上传至OBS目录。训练脚本开发指导参见开发用于预置框架训练的代码。 在训练代码中,用户需打印搜索指标参数。 已在OBS创建至少1个空的文件夹,用于存储训练输出的内容。 由于训练作业运行需消耗资源,确保账户未欠费。 确保您使用
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法 打开VS Code,选择“
{image_url} Step3 上传代码包和权重文件 上传安装依赖软件推理代码AscendCloud-LLM-6.3.906-xxx.zip和算子包AscendCloud-OPP-6.3.906-xxx.zip到主机中,包获取路径请参见表2。 将权重文件上传到Server机器中。权重文
参数说明 参数名 参数类型 是否必选 参数说明 -i / -image-id String 是 需要取消注册的镜像ID。 -d / --delete-swr-image Bool 否 取消注册后同步删除SWR镜像开关,默认关闭。 在ECS上调试SWR镜像是否能在ModelArts Notebook中使用
准备镜像 构建容器镜像并调试 镜像构建及调试与单机单卡相同。 具体操作,请参考线下容器镜像构建及调试。 上传镜像 请参考单机单卡训练的上传镜像章节操作。 父主题: 单机多卡
线下容器镜像构建及调试 构建容器镜像并调试 镜像构建及调试与单机单卡相同。 具体操作,请参考线下容器镜像构建及调试。 上传镜像 请参考单机单卡训练的上传镜像章节操作。 父主题: 多机多卡
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决? 问题现象 原因分析 原因分析一:实例配置的白名单IP与本地网络访问IP不符。 解决方法:请修改白名单为本地网络访问IP或者去掉白名单配置。
使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决? 问题现象 MobaXterm成功连接到开发环境后,过一段时间会自动断开。 可能原因 配置MobaXterm工具时,没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server
报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”如何解决? 问题现象 VS Code连接开发环境时报错“Bad owner or permissions on C:\Users\Administrator/
当前版本仅支持语言+图片多模态性能测试。 静态benchmark验证 本章节介绍如何进行静态benchmark验证。 已经上传benchmark验证脚本到推理容器中。如果在步骤三:上传代码包和权重文件中已经上传过AscendCloud-LLM-x.x.x.zip并解压,无需重复执行。