搜索_华为云

使用CodeLab免费体验Notebook - AI开发平台ModelArts

开该样例。等待右上角连接成功即可运行Notebook样例。首次进入CodeLab时，会提醒先登录ModelArts控制台，由于需要进行环境准备，需要等待1~2分钟才可顺利进入开发页面，请耐心等待。 CodeLab的内部环境依托Notebook功能，因此其工作环境，与JupyterLab界面相似。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
数据集版本发布失败 - AI开发平台ModelArts

请参考OBS权限管理，为当前IAM用户配置“作用范围”为“全局级服务”的“Tenant Administrator”策略，即拥有OBS服务所有操作权限。如果需要限制此IAM用户操作，仅为此用户配置OBS相关的最小化权限项，具体操作请参见创建ModelArts自定义策略。检查OBS桶是否具备权限。

帮助中心 > AI开发平台ModelArts > 故障排除 > 自动学习 > 准备数据
日志提示"Permission denied" - AI开发平台ModelArts

'/xxx/xxxx' 上传数据时文件所属与文件权限未修改，导致训练作业以work用户组访问时没有权限了。在代码目录中的.sh复制到容器之后，需要添加“x”可执行权限。 bash: /bin/ln: Permission denied 因安全问题，不支持用户开通使用In命令。 bash:/home/ma-user/

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

Turbo资源做关联操作，关联完成后，表示SFS Turbo与网络已进行打通，可在训练和开发环境等功能时使用此SFS Turbo。关联与解除关联操作需要用户委托授权ModelArts云服务操作SFS Turbo的部分权限。涉及配置的自定义权限策略项如下： sfsturbo:shares:

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
部署推理服务 - AI开发平台ModelArts

即为昇腾适配后的vLLM代码。 Step6 启动推理服务配置需要使用的NPU卡编号。例如：实际使用的是第1张卡，此处填写“0”。 export ASCEND_RT_VISIBLE_DEVICES=0 如果启动服务需要使用多张卡，例如：实际使用的是第1张和第2张卡，此处填写为“0

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）
训练启动脚本说明和参数配置 - AI开发平台ModelArts

必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.907） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
Lite Server部署推理服务 - AI开发平台ModelArts

run，对应固件文件为Ascend-hdk-910b-npu-firmware_7.5.0.3.220.run，请申请下载。安装固件命令如下，安装完后需要reboot重启机器。 chmod 700 *.run ./Ascend-hdk-910b-npu-firmware_7.5.0.3.220

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导
管理标注数据 - AI开发平台ModelArts

进入“任务历史”界面，可查看相应的导入历史。图9 查看历史数据删除数据通过数据删除操作，可将需要丢弃的数据快速删除。在“全部”、“未标注”或“已标注”页面中，依次选中需要删除的内容，或者选择“选择当前页”选中该页面所有内容，然后单击“删除”。在弹出的对话框中，根据实际情

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
训练启动脚本说明和参数配置 - AI开发平台ModelArts

必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
训练启动脚本说明和参数配置 - AI开发平台ModelArts

必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 训练脚本说明
查找和收藏资产 - AI开发平台ModelArts

单击目标资产，进入资产详情页面。在资产详情页面，单击按钮收藏资产。收藏成功后，在各个模块的“我的收藏”页签可以快速查看收藏的资产。图2 查看收藏的资产（可选）如果需要取消收藏，再次单击按钮即可。父主题：订阅使用

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版） > 订阅使用
上传文件夹至OBS - AI开发平台ModelArts

请求参数说明参数是否必选参数类型描述 session 是 Object 会话对象。 src_local_dir 是 String 本地需要上传的文件夹路径。当上传的文件夹下内容为空或者该文件夹下包含多个文件夹且有文件夹下内容有空时，OBS对应路径下不产生该空文件夹。 dst_obs_dir

帮助中心 > AI开发平台ModelArts > SDK参考 > OBS管理
训练日志失败分析 - AI开发平台ModelArts

Standard会对部分常见训练错误给出分析建议，目前还不能识别所有错误，提供的失败可能原因仅供参考。针对分布式作业，只会显示当前节点的一个分析结果，作业的失败需要综合各个节点的失败原因做一个综合判断。常见训练问题定位思路如下：根据日志界面提示中提供的分析建议解决。参考案例解决：会提供当前故障对

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

关默认关闭，节点全部运行。用户可在权限管理页面打开开关，选择指定的场景进行运行。部分运行能力支持同一个节点被定义在不同的运行场景中，但是需要用户自行保证节点之间数据依赖的正确性。另外，部分运行能力仅支持在运行态进行配置运行，不支持在开发态进行调试。父主题： Workflow高阶能力

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > Workflow高阶能力
附录：大模型推理常见问题 - AI开发平台ModelArts

drived max_model_len。解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config.json存在模型对应的路径下，例如：/data/nfs/benchmark/t

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.907）
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907）
创建训练任务 - AI开发平台ModelArts

作业的参数信息，确认无误后单击“确定”。训练作业创建完成后，后台将自动完成容器镜像下载、代码目录下载、执行启动命令等动作。训练作业一般需要运行一段时间，根据您的训练业务逻辑和选择的资源不同，训练时长将持续几十分钟到几小时不等。父主题：单机单卡

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
显存溢出错误 - AI开发平台ModelArts

-batch-size）、GBS指一个iteration所处理的样本量（global-batch-size）。可将MBS参数值调小至1，但需要遵循GBS/MBS的值能够被NPU/(TP×PP)的值进行整除。可调整参数：SEQ_LEN要处理的最大的序列长度（seq-length），参数值过大很容易发生显存溢出的错误。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 常见错误原因和解决方法

总条数： 1520

上一页
1
...
62
63
64
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用CodeLab免费体验Notebook - AI开发平台ModelArts

数据集版本发布失败 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

委托授权ModelArts云服务使用SFS Turbo - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

Lite Server部署推理服务 - AI开发平台ModelArts

管理标注数据 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

查找和收藏资产 - AI开发平台ModelArts

上传文件夹至OBS - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

在Workflow中指定仅运行部分节点 - AI开发平台ModelArts

附录：大模型推理常见问题 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

创建训练任务 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

显存溢出错误 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线