搜索_华为云

工作负载Pod异常 - AI开发平台ModelArts

通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.909） > 常见错误原因和解决方法
在ModelArts的Notebook中安装远端插件时不稳定要怎么办？ - AI开发平台ModelArts

方法二：设置远端默认安装的插件按照在ModelArts的Notebook中如何设置VS Code远端默认安装的插件？配置，即会在连接远端时自动安装，减少等待时间。方法三：VS Code官网排查方式https://code.visualstudio.com/docs/remote/troubleshooting

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
创建诊断任务 - AI开发平台ModelArts

创建成功后，Notebook实例的状态为“运行中”，单击操作列的“打开”，访问JupyterLab。图1 打开Notebook实例进入JupyterLab页面后，自动打开Launcher页面，如下图所示。图2 JupyterLab主页不同AI引擎的Notebook，打开后Launcher页面呈现的N

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于advisor的昇腾训练性能自助调优指导
人工标注图片数据 - AI开发平台ModelArts

单击“标签名”右侧的文本框，然后从下拉列表中选择已有的标签。如果已有标签无法满足要求时，直接在文本框中添加新标签。单击“确定”。此时，选中的图片将被自动移动至“已标注”页签，且在“未标注”和“全部”页签中，标签的信息也将随着标注步骤进行更新，如增加的标签名称、各标签对应的图片数量。图2 添加标签

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
查看训练作业详情 - AI开发平台ModelArts

记录训练作业运行时长，是训练作业全生命周期中多次的k8s资源运行的时长总和。 “重启次数” 记录训练过程中时如果出现故障，作业自动重启的次数。仅当创建训练作业时开启“自动重启”功能时可见。 “描述” 训练作业的描述。您可以单击编辑图标，更新训练作业的描述。 “作业优先级” 显示训练作业的优先级。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

准备Docker机器并配置环境信息准备一台具有Docker功能的机器，如果没有，建议申请一台弹性云服务器并购买弹性公网IP，并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本，方便安装docker。本地Linux机器的操作等同ECS服务器上的操作，请参考本案例。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
修改在线服务配置 - AI开发平台ModelArts

管理页面。在服务列表中，单击目标服务操作列的“修改”，修改服务基本信息，然后根据提示提交修改任务。当修改了服务的某些参数配置时，系统会自动重启服务使修改生效。在提交修改服务任务时，如果涉及重启，会有弹窗提醒。在线服务参数说明请参见部署模型为在线服务。修改在线服务还需要配置“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
简介 - AI开发平台ModelArts
简介 - AI开发平台ModelArts

模型转换，包含模型转换、优化和量化等。应用集成。针对转换的模型运行时应用层适配。数据预处理。模型编排。模型裁剪。精度校验。精度对比误差统计工具。自动化精度对比工具。网络结构可视化工具。性能调优。性能测试。性能调优三板斧。性能分析与诊断。迁移测试报告。推理迁移验收表。 ModelArts开发环境

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
镜像方案说明 - AI开发平台ModelArts

中，通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。在构建镜像的过程中会下载完整的模型代码、执行环境，然后自动进行NPU适配，并将以上源码和环境打包至镜像中。 ECS需要连通公网，否则会导致安装下载源码、安装环境依赖、上传镜像到SWR等操作失败。E

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
查看日志和性能 - AI开发平台ModelArts

训练过程Megatron格式权重 |──converted_mg2hf_weight # 训练完成转换为HF格式权重目录，只有配置了自动转换才有内容，否则为空 |──logs # 训练过程日志

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912）
镜像方案说明 - AI开发平台ModelArts

中，通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。在构建镜像的过程中会下载完整的模型代码、执行环境，然后自动进行NPU适配，并将以上源码和环境打包至镜像中。 ECS需要连通公网，否则会导致安装下载源码、安装环境依赖、上传镜像到SWR等操作失败。E

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 图3 scheduler

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.911）
设置断点续训练 - AI开发平台ModelArts

启动前，自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。图1 训练输出设置断点续训练建议和训练容错检查（即自动重启）功能同时使用。在创建训练作业页面，开启“自动重启”开关。训练环境预检测失败、或者训练容器硬件检测故障、或者训练作业失败时会自动重新下发并运行训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

1234 随机种子数。每次数据采样时，保持一致。 CONVERT_MG2HF True 表示训练完成的权重文件会自动转换为Hugging Face格式权重。如果不需要自动转换，则删除该环境变量。对于Yi系列模型、ChatGLMv3-6B和Qwen系列模型，还需要手动修改训练参数和

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
LoRA微调训练 - AI开发平台ModelArts

1234 随机种子数。每次数据采样时，保持一致。 CONVERT_MG2HF True 表示训练完成的权重文件会自动转换为Hugging Face格式权重。如果不需要自动转换，则删除该环境变量。对于ChatGLMv3-6B、GLMv4-9B和Qwen系列模型，还需要手动修改tok

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
查询开发环境实例详情 - AI开发平台ModelArts

Object Git仓库信息，如表28所示。该字段不支持使用，在调用接口时会自动返回。 resource_reserved_timestamp Integer 资源预留时间戳。 auto_stop Object 自动停止参数，如表14 auto_stop字段数据结构说明所示。 failed_reasons

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
工作负载Pod异常 - AI开发平台ModelArts

通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

通过打印所有Pod的信息，并找到命名有scheduler字段的Pod。 kubectl get pod -A -o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
修复Standard专属资源池故障节点 - AI开发平台ModelArts

高可用冗余节点会作为备用节点与节点的故障检测配合使用，为资源池提供故障节点自动切换能力，高可用冗余节点能够在普通节点故障时自动进行切换，切换耗时通常在分钟内。切换后，原“高可用冗余节点”与“故障节点”交换高可用冗余标签，原“高可用冗余节点”自动解隔离成为普通节点，“故障节点”则成为“高可用冗余节点”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
查看批量服务详情 - AI开发平台ModelArts

默认关闭，批量服务的运行日志仅存放在ModelArts日志系统。启用运行日志输出后，批量服务的运行日志会输出存放到云日志服务LTS。LTS自动创建日志组和日志流，默认缓存7天内的运行日志。如需了解LTS专业日志管理功能，请参见云日志服务。说明： “运行日志输出”开启后，不支持关闭。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业

总条数： 1110

上一页
1
...
44
45
46
...
56
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

工作负载Pod异常 - AI开发平台ModelArts

在ModelArts的Notebook中安装远端插件时不稳定要怎么办？ - AI开发平台ModelArts

创建诊断任务 - AI开发平台ModelArts

人工标注图片数据 - AI开发平台ModelArts

查看训练作业详情 - AI开发平台ModelArts

在ECS上构建自定义镜像并在Notebook中使用 - AI开发平台ModelArts

修改在线服务配置 - AI开发平台ModelArts

简介 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查询开发环境实例详情 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

查看批量服务详情 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线