检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
用户授予OBS的系统权限。子用户的IAM权限是由其主用户设置的,如果主用户没有赋予OBS的putObjectAcl权限即会导致创建模型构建失败。 处理方法 了解ModelArts依赖的OBS权限自定义策略,请参见ModelArts依赖的OBS权限自定义策略样例。 在统一身份认证服
导致。 执行以下命令,查看NVIDIA和CUDA的版本,以及nvidia-fabricmanager的状态。 systemctl status nvidia-fabricmanager 发现nvidia-fabricmanager的服务为failed状态,尝试重新启动nvidia
Gallery仓库依次下载除某种格式之外的其他格式的文件到服务器的缓存目录下。 gallery-cli download {repo_id} --exclude "*.json" 如下所示,表示下载除“.json”格式之外的其他格式的文件到服务器的缓存目录“/test”下,当回显“100%”时表示下载完成。
供了多种场景下的存储解决方案。 3 配置Lite Server软件环境 不同镜像中预安装的软件不同,您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。当Server服务器中预装的软件无法满足业务需求时,您可在Server服务器中配置所需要的软件环境。 父主题:
在开发环境(notebook)申请相同规格的开发环境实例。 在notebook调试用户代码,并找出问题的代码段。 通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。, 通过训练日志排查问题 通过日志判断出问题的代码范围。 修改代码,在问题代码段添加打印,输出更详细的日志信息。 再次运行作业,判断出问题的代码段。
xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保证被导入的module中有“__init__.py”存在,创建“module_dir”的“__init__.py”,如原因分析中的结构所示。
掉卡 NPU卡丢失。 节点规格的NPU卡数和k8sNode中可调度卡数不一致。 可能是亚健康,建议先重启节点,如果重启节点后未恢复,发起维修流程。 NT_NPU_OTHER NPU 其他 NPU其他错误。 检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 发起维修流程。
SDXL基于Standard适配PyTorch NPU的Finetune训练指导(6.3.905) SDXL基于DevServer适配PyTorch NPU的Finetune训练指导(6.3.905) SDXL基于DevServer适配PyTorch NPU的LoRA训练指导(6.3.905) SD1
开发Workflow命令参考 开发Workflow的核心概念介绍 配置Workflow参数 配置Workflow的输入输出目录 创建Workflow节点 构建Workflow多分支运行场景 编排Workflow 发布Workflow 在Workflow中更新已部署的服务 Workflow高阶能力 父主题:
docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。
thon和pip的安装路径,具体步骤如下。pip的安装路径一般为Python所在目录的Scripts文件夹。 快捷键“win+R”,在“运行”窗口中输入“sysdm.cpl”,单击“确定”。 在“系统属性”中切换到“高级”页签,单击“环境变量”。 在“环境变量”的“用户变量”中鼠
将模型部署为实时推理作业 实时推理的部署及使用流程 部署模型为在线服务 访问在线服务支持的认证方式 访问在线服务支持的访问通道 访问在线服务支持的传输协议 父主题: 使用ModelArts Standard部署模型并推理预测
750 /home/ma-user 排查密钥是否是和实例绑定的一致。 停止实例,进入实例详情页。 更新密钥:单击“认证”旁边的编辑按钮,然后单击“立即创建”创建并选择新密钥。 重新使用VS Code连接实例,选择新创建的密钥。 父主题: VS Code连接开发环境失败故障处理
获取训练镜像 请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复
ModelArts自动学习与ModelArts PRO的区别是什么? 在ModelArts中图像分类和物体检测具体是什么? 在ModelArts自动学习中模型训练图片异常怎么办? 在ModelArts自动学习中,如何进行增量训练? 创建自动学习项目时,如何快速创建OBS桶及文件夹? 自动学习生成的模型,存储在哪里?支持哪些其他操作?
获取训练镜像 请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复
获取训练镜像 请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复
/etc/profile # 注意这里的echo 要使用单引号,单引号会原样输出,双引号会解析变量 source /etc/profile # 使刚才配置生效 创建buildkitd的启动服务。其中都是buildkitd.service的内容。复制以下全部命令并运行即可。 cat
在ModelArts中,用户的数据都是存放在OBS桶中,而训练作业运行在容器中,无法通过访问本地路径的方式访问OBS桶中的文件。 处理方法 读取文件报错,您可以使用Moxing将数据复制至容器中,再直接访问容器中的数据。请参见步骤1。 您也可以根据不同的文件类型,进行读取。请参见读
指定每个设备的训练批次大小 gradient_accumulation_steps 8 指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配 num_train_epochs 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配