搜索_华为云

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

/home/ma-user && \ chmod 770 /root && \ usermod -a -G root ma-user 其他现象，可以在已有的训练故障案例查找。建议与总结用户使用自定义镜像训练作业时，建议按照训练作业自定义镜像规范制作镜像。文档中同时提供了端到端的示例供用户参考。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

配置Cluster资源，确保可以通过公网访问Cluster机器，具体配置请参见配置Lite Cluster网络。 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
在Notebook上安装配置Grafana - AI开发平台ModelArts

root_url的组成为：https:{jupyterlab域名}/{INSTANCE_ID}/grafana。域名和INSTANCE_ID可以从打开的jupyterLab页面地址栏获取，如下： Serve_from_sub_path设置为true 保存Notebook镜像。进入Notebook控制台，单击“开发空间

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
配置多分支节点数据 - AI开发平台ModelArts

), # 训练使用的算法对象，示例中使用AIGallery订阅的算法；部分算法超参的值如果无需修改，则在parameters字段中可以不填写，系统自动填充相关超参值 inputs=wf.steps.JobInput(name="data_url", data=obs_data)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
在推理生产环境中部署推理服务 - AI开发平台ModelArts

--dtype：模型推理的数据类型。仅支持FP16和BF16数据类型推理。float16表示FP16，bfloat16表示BF16。其他参数可以根据实际情况进行配置，也可使用openai接口启动服务。推理启动脚本必须名为run_vllm.sh，不可修改其他名称。 hostname和port也必须分别是0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
动态shape - AI开发平台ModelArts
动态shape - AI开发平台ModelArts

predict(inputs)[0].get_data_to_numpy() print(outputs.shape) # (8, 1000) 动态分辨率动态分辨率可以用于设置输入图片的动态分辨率参数。适用于执行推理时，每次处理图片宽和高不固定的场景，该参数需要与input_shape配合使用，input

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导 > 模型适配
使用AppCode认证鉴权方式进行在线预测 - AI开发平台ModelArts

pCode认证。本文主要介绍如何修改一个已有的在线服务，使其支持AppCode认证并进行在线预测。前提条件提前部署在线服务，具体操作可以参考案例：使用ModelArts Standard一键完成商超商品识别模型部署。操作步骤在ModelArts控制台页面菜单栏中，单击“模型部署

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
欠费说明 - AI开发平台ModelArts
欠费说明 - AI开发平台ModelArts

会收费的实例已全部停止或删除，同时需清理运行Notebook实例时存储到云硬盘中的数据和其他存储到对象存储服务中的数据，以免继续扣费。您可以在“费用中心 > 总览”页面设置“可用额度预警”功能，当可用额度、通用代金券和现金券的总额度低于预警阈值时，系统自动发送短信和邮件提醒。

帮助中心 > AI开发平台ModelArts > 计费说明
使用MoXing复制数据报错 - AI开发平台ModelArts

system('df -hT') 磁盘空间满足，请执行5。磁盘空间不足，请您使用GPU资源。如果是在Notebook使用MoXing复制数据不成功，可以在Terminal界面中使用df -hT命令查看空间大小，排查是否因空间不足导致，可在创建Notebook时使用EVS挂载。如果代码写作

 帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

中。NetworkManager.service会优先读取网卡配置文件中的IP设置为主机IP，此时无论DH Cient是否关闭，服务器都可以获取分配IP。当服务器没有网卡配置文件时，DH Client开启，此时服务器会分配私有IP。如果关闭DH Client，则服务器无法获取私有IP。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

MySQL数据库对外提供服务的端口。 Windows Server Remote Desktop Services 3389 Windows远程桌面服务端口，通过这个端口可以连接Windows弹性云服务器。代理 8080 8080端口常用于WWW代理服务，实现网页浏览，实现网页浏览。如果您使用8080端口，访

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

<模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908） > 准备工作
准备权重 - AI开发平台ModelArts
准备权重 - AI开发平台ModelArts

<模型下载路径> 方法三：使用专用多线程下载器 hfd：hfd 是本站开发的 huggingface 专用下载工具，基于成熟工具 git+aria2，可以做到稳定下载不断线。方法四：使用Git clone，官方提供了 git clone repo_url 的方式下载，但是不支持断点续传，并且clone

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 准备工作
推理前的权重合并转换 - AI开发平台ModelArts

如果需要使用本文档中训练后的权重文件进行推理，请参考此章节合并训练权重文件并转换为Huggingface格式。如果无推理任务或者使用开源Huggingface权重文件推理，都可以忽略此章节。下一步的推理任务请参考文档《开源大模型基于DevServer的推理通用指导》。将多个权重文件合并为一个文件并转换格式任意并行切分策略的Megatron权重

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导（6.3.904）
推理前的权重合并转换 - AI开发平台ModelArts

如果需要使用本文档中训练后的权重文件进行推理，请参考此章节合并训练权重文件并转换为Huggingface格式。如果无推理任务或者使用开源Huggingface权重文件推理，都可以忽略此章节。下一步的推理任务请参考文档《开源大模型基于DevServer的推理通用指导》。将多个权重文件合并为一个文件并转换格式该场

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > LLama2系列模型基于DevServer适配PyTorch NPU训练指导（6.3.904）
创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

168.20.0/24重叠，否则会和专属资源池的网段发生冲突，因为专属资源池的默认网段为192.168.20.0/24。专属资源池实际使用的网段可以在资源池的详情页面查看“网络”获取。条件二：SFS Turbo网段不能与172网段重叠，否则会和容器网络发生冲突，因为容器网络使用的是172网段。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 专属资源池创建训练作业
查询服务列表 - AI开发平台ModelArts

情况下，有的实例正常，有的实例异常。正常的实例会产生费用，此时服务状态是concerning。 failed：失败，服务部署失败，失败原因可以查看事件和日志标签。 stopped：停止。 finished：只有批量服务会有这个状态，表示运行完成。 sort_by 否 String

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在主机上新建config.yaml文件。 config.yaml文件用于配置pod，本示例中使用sleep命令启动pod，便于进入pod调试。您也可以修改command为对应的任务启动命令（如“python train.py”），任务会在启动容器后执行。 config.yaml内容如下：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

&& \ 执行以下命令制作训练镜像。安装过程需要连接互联网git clone，请确保ECS可以访问公网 docker build -t <镜像名称>:<版本名称> . 若无法访问公网，则可以配置代理，增加`--build-arg`参数指定代理地址，可访问公网。 docker build

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 准备工作
部署在线服务 - AI开发平台ModelArts

duration=1)] # （可选）设置在线服务运行时间 ) 参数“model_id”代表将部署成在线服务的模型。“model_id”可以通过查询模型列表或者ModelArts管理控制台获取。部署服务到专属资源池 from modelarts.config.model_config

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理

总条数： 1394

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

SDXL&SD1.5 WebUI基于Lite Cluster适配NPU推理指导（6.3.906） - AI开发平台ModelArts

在Notebook上安装配置Grafana - AI开发平台ModelArts

配置多分支节点数据 - AI开发平台ModelArts

在推理生产环境中部署推理服务 - AI开发平台ModelArts

动态shape - AI开发平台ModelArts

使用AppCode认证鉴权方式进行在线预测 - AI开发平台ModelArts

欠费说明 - AI开发平台ModelArts

使用MoXing复制数据报错 - AI开发平台ModelArts

裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

准备权重 - AI开发平台ModelArts

推理前的权重合并转换 - AI开发平台ModelArts

推理前的权重合并转换 - AI开发平台ModelArts

创建训练作业时出现“实例挂卷失败”的事件 - AI开发平台ModelArts

查询服务列表 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

部署在线服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线