检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现
注册镜像。登录ModelArts控制台,在左侧导航栏选择“镜像管理”,进入镜像管理页面。单击“注册镜像”,镜像源即为推送到SWR中的镜像。请将完整的SWR地址复制到这里即可,或单击可直接从SWR选择自有镜像进行注册,类型加上“GPU”,如图1所示。 图1 注册镜像 登录ModelArts管理控制台,在左侧导航栏中选择“开发空间
请求超时,大概率是APIG(API网关)拦截问题。需排查APIG(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如返回Timeout则需排查本地防火墙,代理和网络配置。 检查模型是否启动成功或者模型处理单个消息
到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下: 在ModelArts管理控制台,使用训练的自定义镜像创建训练作业时,
obsutil是用于访问、管理对象存储服务OBS的命令行工具,使用该工具可以对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。 操作命令中的AK/SK要换成用户实际获取的AK
程。 启动SD1.5 LoRA训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_lora_train.sh 启动SDXL LoRA训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_lora_train
Bash 图15 提示 根据提示,在terminal中输入对应的命令即可开启在bash中对MA-Advisor相关命令自动补全功能,例如,执行如下命令后,即可在bash命令行中,后续执行ma-advisor相关命令时,使用Tab键即可自动补全: eval "$(_MA_ADVIS
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl
Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装 EAGLE。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json文件不是sharegpt格式,而是常见的
Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装 EAGLE。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json文件不是sharegpt格式,而是常见的
Eagle训练适配代码存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools/spec_decode/EAGLE目录下。 在目录下执行如下命令,即可安装 EAGLE。 bash build.sh 步骤二:非sharegpt格式数据集转换(可选) 如果数据集json文件不是sharegpt格式,而是常见的
检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl
install时,出现“No Space left...”的错误。 解决办法 建议使用pip install --no-cache ** 命令安装,而不是使用pip install **。加上“--no-cache”参数,可以解决很多此类报错。 父主题: Notebook实例常见错误
install时,出现“No Space left...”的错误。 解决办法 建议使用pip install --no-cache ** 命令安装,而不是使用pip install **。 加上“--no-cache”参数,可以解决很多此类报错。 父主题: 实例故障
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书 另
py启动服务器,app.py请参考https示例 python app.py 除了按上述要求设置启动命令,您也可以在镜像中自定义启动命令,在创建模型时填写与您镜像中相同的启动命令。 提供的服务可使用HTTPS/HTTP协议和监听的容器端口,使用的协议和端口号请根据模型实际定义的推
”如何解决? 问题现象 或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no" ssh -tt -o StrictHostKeyChecking=no
”如何解决? 问题现象 或 原因分析 Notebook实例重新启动后,公钥发生变化,OpenSSH核对公钥发出警告。 解决方法 在VS Code中使用命令方式进行远程连接时,增加参数"-o StrictHostKeyChecking=no" ssh -tt -o StrictHostKeyChecking=no
如何将git clone的py文件变为ipynb文件 在ipynb文件中,执行%load XXX.py命令,即可将py文件内容加载到ipynb中。以“test.py”文件为例,下图展示了如何将“test.py”的文件内容加载到ipynb文件中。 图1 test.py文件 图2 将“test
py启动服务器,app.py请参考https示例 python app.py 除了按上述要求设置启动命令,您也可以在镜像中自定义启动命令,在创建模型时填写与您镜像中相同的启动命令。 提供的服务可使用HTTPS/HTTP协议和监听的容器端口,端口和协议可根据镜像实际使用情况自行填写