搜索_华为云

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

查看YAML”查看节点配置信息。查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。如图所示，表示有值，节点已开启topo文件和ranktable文件的下发。否则，联系技术支持处理。图5 查看节点的yaml文件父主题： Lite

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
人工标注视频数据 - AI开发平台ModelArts

钮继续播放，在需要标注处暂停，然后重复执行步骤3完成整个视频的标注。单击界面右上角的“标注列表”，在“当前文件标签”的详情页将呈现当前视频带标注的时间点。图3 当前文件标签信息单击页面左上角“返回数据标注预览”，页面将自动返回标注作业详情页面，同时，标注好的视频将呈现在“已标注”页签下。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
查询数据集详情 - AI开发平台ModelArts

object 导入表格数据源所需的信息。 with_column_header Boolean 文件中首行是否是列名，用于表格数据集。可选值如下： true：文件首行为列名 false：文件首行不为列名表5 SchemaMap 参数参数类型描述 dest_name String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

r run启动，无法正常运行；用户自行安装了Jupyterlab服务导致冲突的，需要用户本地使用Jupyterlab命令罗列出相关的静态文件路径，删除并且卸载镜像中的Jupyterlab服务；用户自己业务占用了开发环境官方的8888、8889端口的，需要用户修改自己的进程端口号；

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
查看批量服务的事件 - AI开发平台ModelArts

update service, rollback failed. 请联系技术支持。正常 [model 0.0.1] OBS桶，OBS并行文件系统，SFS Turbo挂载成功。 [%s] %s volume successfully. - 服务部署和运行过程中，关键事件支持手动/自动刷新。查看操作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
工作负载Pod异常 - AI开发平台ModelArts

-o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.910） > 常见错误原因和解决方法
工作负载Pod异常 - AI开发平台ModelArts

-o wide 重启该Pod，通过delete的方式删除，但随后会自动重新启动。 kubectl delete pod -n kube-system ${pod_scheduler_name} 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 常见错误原因和解决方法
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练脚本存放目录说明不同模型推荐的参数与NPU卡数设置训练tokenizer文件说明父主题： Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.912）
FAQ - AI开发平台ModelArts
FAQ - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 ModelArts环境挂载目录说明 infiniband驱动的安装如何保证训练和调试时文件路径保持一致父主题：专属资源池训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练参数配置说明【旧】训练tokenizer文件说明断点续训和故障快恢说明父主题：主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912）
创建模型规范参考 - AI开发平台ModelArts

创建模型规范参考模型包结构介绍模型配置文件编写说明模型推理代码编写说明自定义引擎创建模型规范自定义脚本代码示例父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908）
Bert基于DevServer适配MindSpore Lite推理指导(6.3.910) - AI开发平台ModelArts

${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统，work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 shm-size：共享内存大小。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 内容审核模型训练推理
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907）
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911）
准备模型训练代码 - AI开发平台ModelArts

准备模型训练代码预置框架启动文件的启动流程说明开发用于预置框架训练的代码开发用于自定义镜像训练的代码自定义镜像训练作业配置节点间SSH免密互信父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
训练脚本说明参考 - AI开发平台ModelArts

训练脚本说明参考训练启动脚本说明和参数配置训练的数据集预处理说明训练中的权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909）
昇腾云服务6.3.908版本说明 - AI开发平台ModelArts

LLM开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） LLM开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）支持如下模型适配PyTorch-NPU的推理。 llama-7B llama-13b

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
环境配置故障 - AI开发平台ModelArts

Notebook中已安装对应库，仍报错import numba ModuleNotFoundError: No module named 'numba' JupyterLab中文件保存失败，如何解决？用户结束kernelgateway进程后报错Server Connection Error，如何恢复？父主题：开发环境

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
查看在线服务详情 - AI开发平台ModelArts

请参见云日志服务。说明： “运行日志输出”开启后，不支持关闭。 LTS服务提供的日志查询和日志存储功能涉及计费，详细请参见了解LTS的计费规则。请勿打印无用的audio日志文件，这会导致系统日志卡死，无法正常显示日志，可能会出现“Failed to load audio”的报错。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务

总条数： 998

上一页
1
...
41
42
43
...
50
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

人工标注视频数据 - AI开发平台ModelArts

查询数据集详情 - AI开发平台ModelArts

Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

查看批量服务的事件 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

工作负载Pod异常 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

FAQ - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

创建模型规范参考 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

Bert基于DevServer适配MindSpore Lite推理指导(6.3.910) - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

准备模型训练代码 - AI开发平台ModelArts

训练脚本说明参考 - AI开发平台ModelArts

昇腾云服务6.3.908版本说明 - AI开发平台ModelArts

环境配置故障 - AI开发平台ModelArts

查看在线服务详情 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线