搜索_华为云

准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

tokenizers #原始权重/tokenizer目录，用户手动创建，用户根据实际规划目录修改，后续操作步骤中会提示 |── Qwen2-72B # 输出权重及日志路径，用户可根据实际自行规划，无需手动创建，此路径对应表1表格中output_dir参数值

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
管理模型训练作业 - AI开发平台ModelArts

管理模型训练作业查看训练作业详情查看训练作业资源占用情况查看模型评估结果查看训练作业事件查看训练作业日志修改训练作业优先级使用Cloud Shell调试生产训练作业重建、停止或删除训练作业管理训练容器环境变量查看训练作业标签父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
附录：大模型推理常见问题 - AI开发平台ModelArts

ecified max_model_len is greater than the drived max_model_len。解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
附录：大模型推理常见问题 - AI开发平台ModelArts

ecified max_model_len is greater than the drived max_model_len。解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908）
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

权限。 chmod 755 /home/ma-user 排查/home/ma-user/.ssh目录权限是否为755/750，不是该权限请修改。连接时如果报错密钥无权限，排查密钥是否为自己的密钥（可能使用了重名密钥），请更换密钥后重新连接实例。本地排查检查配置是否正确。打

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
附录：大模型推理常见问题 - AI开发平台ModelArts

ecified max_model_len is greater than the drived max_model_len。解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Server适配PyTorch NPU推理指导（6.3.909）
终止训练作业 - AI开发平台ModelArts

String 调用失败时的错误信息，调用成功时无此字段。 error_code String 调用失败时的错误码，具体请参见错误码，调用成功时无此字段。 error_solution String 调用失败时的提示解决信息，调用成功时无此字段。父主题：训练作业

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
启动智能任务 - AI开发平台ModelArts

否 String 根据样本名称搜索（含后缀名）。 sample_time 否 String 样本加入到数据集时，会根据样本在OBS上的最后修改时间(精确到天)建立索引，此处可以根据此时间进行搜索。可选值如下： month：搜索往前30天至今天内添加的样本 day：搜索昨天(往前1天)至今天内添加的样本

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
管理Standard专属资源池 - AI开发平台ModelArts

查看Standard专属资源池详情扩缩容Standard专属资源池升级Standard专属资源池驱动修复Standard专属资源池故障节点修改Standard专属资源池支持的作业类型迁移Standard专属资源池和网络至其他工作空间配置Standard专属资源池可访问公网使用TMS标签实现资源分组管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理
查询训练作业参数详情 - AI开发平台ModelArts

请求是否成功。 error_message String 调用失败时的错误信息。调用成功时无此字段。 error_code String 调用失败时的错误码，具体请参见错误码。调用成功时无此字段。 config_name String 训练作业参数的名称。 config_desc String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业参数配置
使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

务类型”一致。“推理任务类型”支持修改，如果模型文件满足自定义模型规范（推理），则“推理任务类型”支持选择“自定义”。当模型的“任务类型”是除“文本问答”和“文本生成”之外的类型（即自定义模型）时，则“推理任务类型”默认为“自定义”，支持修改为“文本问答”或“文本生成”。当使

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版）
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

权限。 chmod 755 /home/ma-user 排查/home/ma-user/.ssh目录权限是否为755/750，不是该权限请修改。连接时如果报错密钥无权限，排查密钥是否为自己的密钥（可能使用了重名密钥），请更换密钥后重新连接实例。本地排查检查配置是否正确。打

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

ecified max_model_len is greater than the drived max_model_len。解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。 config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
附录：Standard大模型推理常见问题 - AI开发平台ModelArts

ecified max_model_len is greater than the drived max_model_len。解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。 config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
查询训练作业详情 - AI开发平台ModelArts

String 调用失败时的错误信息，调用成功时无此字段。 error_code String 调用失败时的错误码，具体请参见错误码，调用成功时无此字段。 error_solution String 调用失败时的提示解决信息，调用成功时无此字段。父主题：训练作业

 帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
镜像方案说明 - AI开发平台ModelArts

Dockerfile会下载Megatron-LM、MindSpeed、ModelLink源码，并将以上源码打包至镜像环境中。若用户希望修改源码，则需要使用新镜像创建容器，在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。 Note

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

路由加速的原理是改变rank编号，所以代码中对rank的使用要统一。将训练作业完成如下修改后，启动训练作业即可实现网络加速。将训练启动脚本中的“NODE_RANK="$VC_TASK_INDEX"”修改为“NODE_RANK="$RANK_AFTER_ACC"”。将训练启动脚本中的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
数据集版本发布失败 - AI开发平台ModelArts

可单击“默认加密”选项进行修改。图1 OBS桶是否加密确保归档数据直读功能关闭进入OBS管理控制台，选择当前自动学习项目使用的OBS桶，单击桶名称进入概览页。确保此OBS桶的归档数据直读功能关闭。如果此功能开启，可单击“归档数据直读”选项进行修改。图2 关闭归档数据直读功能

 帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
日志提示"Permission denied" - AI开发平台ModelArts

${MA_VJ_NAME}:6666替换。分析代码中是否存在并发读写同一文件的逻辑，如有则进行修改。如用户使用多卡的作业，那么可能每张卡都会有同样的读写数据的代码，可参考如下代码修改。 import moxing as mox from mindspore.communication

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题

总条数： 802

上一页
1
...
19
20
21
...
41
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备代码 - AI开发平台ModelArts

管理模型训练作业 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

启动智能任务 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

管理Standard专属资源池 - AI开发平台ModelArts

查询训练作业参数详情 - AI开发平台ModelArts

使用AI Gallery在线推理服务部署模型 - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

附录：Standard大模型推理常见问题 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

示例：创建DDP分布式训练（PyTorch+NPU） - AI开发平台ModelArts

数据集版本发布失败 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线