搜索_华为云

训练启动脚本说明和参数配置 - AI开发平台ModelArts

1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
服务部署失败，报错No Module named XXX - AI开发平台ModelArts

module named ‘model_service.tfserving_model_service’，则需要您在推理代码customize_service.py里使用from model_service.pytorch_model_service import PTServingBaseService。示例代码：

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

tokenizers #原始权重/tokenizer目录，用户手动创建，用户根据实际规划目录修改，后续操作步骤中会提示 |── Qwen2-72B # 输出权重及日志路径，用户可根据实际自行规划，无需手动创建，此路径对应表1表格中output_dir参数值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 准备工作
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

tokenizers #原始权重/tokenizer目录，用户手动创建，用户根据实际规划目录修改，后续操作步骤中会提示 |── Qwen2-72B # 输出权重及日志路径，用户可根据实际自行规划，无需手动创建，此路径对应表1表格中output_dir参数值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 准备工作
附录：大模型推理常见问题 - AI开发平台ModelArts

ecified max_model_len is greater than the drived max_model_len。解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
附录：大模型推理常见问题 - AI开发平台ModelArts

ecified max_model_len is greater than the drived max_model_len。解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
查询训练作业指定任务的日志（预览） - AI开发平台ModelArts

\n[Modelarts Service Log]exiting..: \n [Modelarts Service Log]exiting...\n[Modelarts Service Log]exit with : \n [Modelarts Service Log]exit with

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

tokenizers #原始权重/tokenizer目录，用户手动创建，用户根据实际规划目录修改，后续操作步骤中会提示 |── Qwen2-72B # 输出权重及日志路径，用户可根据实际自行规划，无需手动创建，此路径对应表1表格中output_dir参数值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

权限。 chmod 755 /home/ma-user 排查/home/ma-user/.ssh目录权限是否为755/750，不是该权限请修改。连接时如果报错密钥无权限，排查密钥是否为自己的密钥（可能使用了重名密钥），请更换密钥后重新连接实例。本地排查检查配置是否正确。打

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
附录：大模型推理常见问题 - AI开发平台ModelArts

ecified max_model_len is greater than the drived max_model_len。解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
查询服务对象列表 - AI开发平台ModelArts

性同本章初始化服务。查询服务列表返回说明：service_list_resp = [service_instance1, service_instance2, service_instance3 ...]，列表中元素“service_instance”对象即为服务管理章节描述的可调用服务接口。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
查找Workflow工作流 - AI开发平台ModelArts

设置完成后，单击“确定”即可。同时可支持对Workflow显示列进行排序，单击表头中的箭头，就可对该列进行排序。编辑Workflow名称和标签通过修改Workflow的名称和标签，方便快速查找Workflow。在ModelArts管理控制台，左侧菜单栏单击“开发空间>Workflow”。进入Workflow列表页。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
查询训练作业参数列表 - AI开发平台ModelArts

的排序方式。 order 否 String 可选值有以下两种。 “asc”为递增排序。 “desc”为递减排序，默认为“desc”。 search_content 否 String 指定要查询的文字信息，例如参数名称。默认为空。 config_type 否 String 指定要查询的配置类型，可选值有以下两种

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
Yolov8基于DevServer适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

image_url}参见表2。 docker pull {image_url} 步骤三：启动容器镜像启动容器镜像。启动前请先按照参数说明修改${}中的参数。 docker run -it --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci1

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
管理Standard专属资源池 - AI开发平台ModelArts

查看Standard专属资源池详情扩缩容Standard专属资源池升级Standard专属资源池驱动修复Standard专属资源池故障节点修改Standard专属资源池支持的作业类型迁移Standard专属资源池和网络至其他工作空间配置Standard专属资源池可访问公网使用TMS标签实现资源分组管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
查询训练作业列表 - AI开发平台ModelArts

“create_time”。 order 否 String 可选值有： “asc”为递增排序，默认为“asc”。 “desc”为递减排序。 search_content 否 String 指定要查询的文字信息，例如训练作业名字，默认为空，字符串的长度为[0，64]。 workspace_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

务类型”一致。“推理任务类型”支持修改，如果模型文件满足自定义模型规范（推理），则“推理任务类型”支持选择“自定义”。当模型的“任务类型”是除“文本问答”和“文本生成”之外的类型（即自定义模型）时，则“推理任务类型”默认为“自定义”，支持修改为“文本问答”或“文本生成”。当使

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
镜像方案说明 - AI开发平台ModelArts

Dockerfile会下载Megatron-LM、MindSpeed、ModelLink源码，并将以上源码打包至镜像环境中。若用户希望修改源码，则需要使用新镜像创建容器，在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。 Note

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
使用CodeLab免费体验Notebook - AI开发平台ModelArts

域，单击切换规格，修改规格类型。图3 切换规格资源监控。在使用过程中，如果想了解资源使用情况，可在右侧区域选择“Resource Monitor”，展示“CPU使用率”和“内存使用率”。图4 资源监控分享副本到AI Gallery。单击右上角的，将修改后的Notebook样例保存分享到AI

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

路由加速的原理是改变rank编号，所以代码中对rank的使用要统一。将训练作业完成如下修改后，启动训练作业即可实现网络加速。将训练启动脚本中的“NODE_RANK="$VC_TASK_INDEX"”修改为“NODE_RANK="$RANK_AFTER_ACC"”。将训练启动脚本中的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练

总条数： 793

上一页
1
...
15
16
17
...
40
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练启动脚本说明和参数配置 - AI开发平台ModelArts

服务部署失败，报错No Module named XXX - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

查询训练作业指定任务的日志（预览） - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

查询服务对象列表 - AI开发平台ModelArts

查找Workflow工作流 - AI开发平台ModelArts

查询训练作业参数列表 - AI开发平台ModelArts

Yolov8基于DevServer适配MindSpore Lite推理指导（6.3.909） - AI开发平台ModelArts

管理Standard专属资源池 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

使用CodeLab免费体验Notebook - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线