检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
4-py3-none-any.whl.sha256 安装命令: pip install tailor-0.3.4-py3-none-any.whl 使用指导 tailor支持“命令行”和“Python API”两种方式使用。 命令行方式 命令行运行样例: tailor --model_path="
Terminal里执行如下命令检测SSH命令是否可用; ssh -i <密钥相对路径> -p <端口> ma-user@<域名/ip> SSH可用时跳过3继续远端排查。 SSH不可用,排查3。 在VS Code Terminal里执行如下检查网络。如果网络异常,请执行命令检查端口。 curl
SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现
SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现
1434 SQL Server的TCP端口,用于返回SQLServer使用了哪个TCP/IP端口。 Oracle 1521 Oracle通信端口,弹性云服务器上部署了Oracle SQL需要放行的端口。 MySQL 3306 MySQL数据库对外提供服务的端口。 Windows Server
/Linux等服务器)上登录Gallery CLI配置工具后,通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。 命令说明 登录Gallery CLI配置工具后,使用命令“gallery-cli download --help”可以获取Gallery
Lite云服务器或者是本地Windows/Linux等服务器)上登录Gallery CLI配置工具后,通过命令“gallery-cli upload”可以往AI Gallery仓库上传资产。 命令说明 登录Gallery CLI配置工具后,使用命令“gallery-cli upload --help”可以获取Gallery
kernel。 原因分析 自定义镜像的python环境没有注册。 解决方案 在Terminal里执行命令排查实例存在几个Conda环境。 conda env list 执行如下命令分别切换到对应环境查看是否有ipykernel包。 conda activate base # base替换为实际使用的python环境
资源池:在“专属资源池”页签选择GPU规格的专属资源池。 规格:选择单GPU规格。 单击“提交”,在“信息确认”页面,确认训练作业的参数信息,确认无误后单击“确定”。 训练作业创建完成后,后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。 训练作业一般需要运行一段时间
配置kubectl工具 kubectl是Kubernetes集群的命令行工具,配置kubectl后,您可通过kubectl命令操作Kubernetes集群。本文介绍如何配置kubectl工具,操作步骤如下。 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 >
可能系统资源不足、如内存不足、内存泄露。 硬件故障、如IB网络或者GPU互联设备故障等。 没安装nvidia-fabricmanager组件或被误卸载。 处理方法 若未安装fabricmanager,则需安装改组件。 若已安装fabricmanager,运行以下命令重启fabricmanager
有两种方式来注册镜像。 方式一:使用ma-cli image register命令来注册镜像。注册命令会返回注册好的镜像信息,包括镜像id,name等,如下图所示。该命令的更多信息可参考镜像构建命令。 ma-cli image register --swr-path=swr.cn-north-4
Terminal里执行如下命令检测SSH命令是否可用; ssh -i <密钥相对路径> -p <端口> ma-user@<域名/ip> SSH可用时跳过3继续远端排查。 SSH不可用,排查3。 在VS Code Terminal里执行如下检查网络。如果网络异常,请执行命令检查端口。 curl
如何查看Notebook使用的cuda版本? 执行如下命令查看环境中的cuda版本。 ll /usr/local | grep cuda 举例: 图1 查看当前环境的cuda版本 如图1所示,当前环境中cuda版本为10.2 父主题: 环境配置相关
此时可以在Terminal里使用命令行打开checkpoints,或者新建文件夹将checkpoints里的数据移动到新的文件夹下。 图1 JupyterLab浏览器左侧导航无法打开checkpoints 操作步骤: 打开Terminal,用命令行进行操作。 方法一:执行cd c
10中,如图1所示。 图1 查询创建的虚拟环境 解决方案 在Terminal中执行conda deactivate命令退出当前虚拟环境,默认进入base环境。执行pip list命令查询已安装的包,然后安装需要的依赖进行保存,最后切换至指定的虚拟环境后再运行脚本。 父主题: 环境配置故障
工具进行自助性能调优,进一步可以通过profiling工具对于性能瓶颈进行分析,并针对性的做一些调优操作。 可以直接使用benchmark命令测试mindir模型性能,用来对比调优前后性能是否有所提升。 # shell cd /home_host/work benchmark -
启动SD1.5 Finetune训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_finetune_train.sh 启动SDXL Finetune训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_finetune_train
请求超时,大概率是APIG(API网关)拦截问题。需排查APIG(API网关)和模型。 处理方法 优先排查APIG(API网关)是否是通的,可以在本地使用curl命令排查,命令行:curl -kv {预测地址}。如返回Timeout则需排查本地防火墙,代理和网络配置。 检查模型是否启动成功或者模型处理单个消息
到运行的主文件:no such file or directory。 原因分析 根据报错提示可以判断是运行命令的启动文件目录不正确导致运行失败。 处理方法 需要排查执行命令的启动文件目录是否正确,具体操作如下: 在ModelArts管理控制台,使用训练的自定义镜像创建训练作业时,