正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y
如果想保持长时间连接不断开,可以通过配置SSH定期发送通信消息,避免防火墙认为链路空闲而关闭。 客户端配置(用户可根据需要自行配置,不配置默认是不给服务端发心跳包),如图1,图2所示。 图1 打开VS Code ssh config配置文件 图2 增加配置信息 配置信息示例如下: Host ModelArts-xx
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令
使用Gallery CLI配置工具下载文件 在服务器(ModelArts Lite云服务器或者是本地Windows/Linux等服务器)上登录Gallery CLI配置工具后,通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。 命令说明 登录Gallery
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表2。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:对于Llama2-7B和Llama2-13B单机训练需要使用单机8卡,多机训练需要使用2机16卡。对于Llama2-70B至少需要4机32卡
准备环境 本文档中的模型运行环境是ModelArts Lite的Cluster或DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:对于Qwen-7B和Qwen-14B单机训练需要使用单机8卡,多机训练需要使用2机16卡。对于Qwen-72B至少需要5机4
使用Gallery CLI配置工具上传文件 在服务器(ModelArts Lite云服务器或者是本地Windows/Linux等服务器)上登录Gallery CLI配置工具后,通过命令“gallery-cli upload”可以往AI Gallery仓库上传资产。 命令说明 登录Gallery
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装NPU设备和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y
VS Code连接开发环境失败时,请先进行基础问题排查 VS Code连接开发环境失败时,请参考以下步骤进行基础排查: 排查插件包是否为最新版:在extensions中搜索,看是否需要升级。 检查实例状态是否为运行中,如果是,请执行下一步继续排查。 在VS Code的Termin
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备DevServer机器。 资源规格要求 计算规格:单机训练需要使用单机8卡,多机训练需要使用2机16卡。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备DevServer机器。 资源规格要求 计算规格:单机训练需要使用单机8卡,多机训练需要使用2机16卡。推理部署如果是376T规格,推荐使用单机单卡;280T规格推荐使用单机2卡。
哪里可以了解Atlas800训练服务器硬件相关内容 场景描述 本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Sn
开发环境(旧版) 创建开发环境实例 查询开发环境实例列表 查询开发环境实例详情 更新开发环境实例信息 删除开发环境实例 管理开发环境实例 父主题: 历史API
GPU A系列裸金属服务器如何更换NVIDIA和CUDA? 场景描述 当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
参数类型 描述 id String 配置ID。 name String 配置名称。 description String 配置描述。 de_type String 开发环境类型,当前仅支持Notebook。 provision Object 部署信息,如表6所示。 labels Map<String
参数类型 说明 id String 配置ID。 name String 配置名称。 description String 配置描述。 de_type String 开发环境类型,当前仅支持Notebook。 provision Object 部署信息,如表4所示。 labels Map<String
确认信息无误,然后单击“确定”。只有处于“运行中/停止失败”状态的弹性节点Server可以执行停止操作。 停止服务器为“强制关机”方式,会中断您的业务,请确保服务器上的文件已保存。 父主题: Lite Server资源管理
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查是否安装docker。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y