搜索_华为云

训练参数配置说明【旧】 - AI开发平台ModelArts

训练参数配置说明【旧】如果用户希望自定义参数进行训练，可直接编辑对应模型的训练脚本，请根据实际模型修改。表1 模型训练脚本参数参数示例值参数说明 ORIGINAL_TRAIN_DATA_PATH 【预训练：pt】预训练数据集相对或绝对地址【微调：sft】微调数据集相对或绝对地址

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明参考
LoRA微调训练 - AI开发平台ModelArts

ds.sh 选择用户自己的专属资源池，以及规格与节点数。图2 选择资源池规格新增SFS Turbo挂载配置，并选择用户创建的SFS Turbo文件系统。云上挂载路径：输入镜像容器中的工作路径 /home/ma-user/work/data 存储位置：输入用户的“子目录挂载”路径。如果默认没有填写，则忽略。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
查询模型列表 - AI开发平台ModelArts

在ModelArts Notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。场景1：查询当前用户所有模型 1 2 3 4 5 6 from modelarts.session import Session from modelarts

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

Please install mmcv>=1.3.1, <=1.5.0。原因分析 MMCV的依赖与PyTorch版本不匹配。处理方法可参考链接的内容，根据PyTorch和CUDA版本安装对应版本的MMCV。父主题：预置算法运行故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 预置算法运行故障
执行训练任务（推荐） - AI开发平台ModelArts

执行训练任务（推荐）新的训练方式将统一管理训练日志、训练结果和训练配置，使用yaml配置文件方便用户根据自己实际需求进行修改。推荐用户使用该方式进行训练。步骤一上传训练权重文件和数据集如果在准备代码和数据阶段已经上传权重文件和数据集到容器中，可以忽略此步骤。如果未上传训

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
查询数据集的团队标注任务列表 - AI开发平台ModelArts

0：打标者 1：审核者 2：团队管理者 3：数据集拥有者 status Integer 标注成员的当前登录状态。可选值如下： 0：未发送邀请邮件 1：已发送邀请邮件但未登录 2：已登录 3：标注成员已删除 update_time Long 更新时间。 worker_id String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询模型对象列表 - AI开发平台ModelArts

在ModelArts Notebook平台，Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。场景1：查询当前用户所有模型对象 1 2 3 4 5 6 from modelarts.session import Session from modelarts

帮助中心 > AI开发平台ModelArts > SDK参考 > 模型管理
MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

'2'”为打印所有的通信信息。“os.environ['PS_RESEND'] = '1'”为在“PS_RESEND_TIMEOUT”毫秒后没有收到ACK消息，Van实例会重发消息。父主题：业务代码问题

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

其他加速框架或ZeRO (Zero Redundancy Optimizer)优化器、NPU节点数及其他配置。具体优化工具使用说明可参考如何选择最佳性能的zero-stage和-offloads。父主题：训练脚本说明

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
查询训练作业列表 - AI开发平台ModelArts

响应参数状态码：200 表4 响应Body参数参数参数类型描述 total Integer 查询到当前用户名下的所有作业总数。 count Integer 查询到当前用户名下的所有符合查询条件的作业总数。 limit Integer 查询作业的每页条目数。最小为1，最大为50。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
查询AI应用详情 - AI开发平台ModelArts

取当前用户拥有的AI应用，其中model_id字段即为模型ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。请求参数表2 请求Header参数参数是否必选参数类型描述 X-Auth-Token 是 String 用户Tok

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

service due to connection refused. " 出现该报错有两种情况：流量超过了模型的处理能力。可以考虑降低流量或者增加模型实例数量。镜像自身有问题。需要单独运行镜像确保镜像本身能正确提供服务。 "error_msg"："Due to self protection

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
查询数据集列表 - AI开发平台ModelArts

查询数据集列表分页查询用户的数据集列表。 list_datasets(session, dataset_type=None, dataset_name=None, offset=None, limit=None) 示例代码示例一：查询数据集列表 from modelarts.session

帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理 > 数据集管理
网络调整公告 - AI开发平台ModelArts

网络调整公告 ModelArts针对网络进行安全加固和优化，新的网络模式可以为用户的资源提供更好的隔离性，提升云上资源的安全。为保障您的网络安全，建议您后续使用新网络创建Standard资源池。表1 上线局点上线局点上线时间华东二 2024年10月29日 20:00 父主题：

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品变更公告
训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

未被合理使用。是，优化代码，等待作业运行正常。否，提高训练作业使用的资源规格或者联系技术支持。重启训练作业，使用CloudShell登录训练容器监控内存指标，确认是否有突发性的内存增加现象。是，排查内存突发增加的时间点附近的训练作业日志，优化对应的代码逻辑，减少内存申请。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
查询团队标注任务详情 - AI开发平台ModelArts

0：打标者 1：审核者 2：团队管理者 3：数据集拥有者 status Integer 标注成员的当前登录状态。可选值如下： 0：未发送邀请邮件 1：已发送邀请邮件但未登录 2：已登录 3：标注成员已删除 update_time Long 更新时间。 worker_id String

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

_url”。使用“data_url”当做训练数据输入的本地路径。检查报错的路径是否存在由于用户本地开发的代码需要上传至ModelArts后台，训练代码中涉及到依赖文件的路径时，用户设置有误的场景较多。推荐通用的解决方案：使用os接口得到依赖文件的绝对路径，避免报错。示例：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

权重文件存放目录。如果使用了量化功能，则使用推理模型量化章节转换后的权重。 --max-num-seqs：最大同时处理的请求数，超过后拒绝访问。 --max-model-len：推理时最大输入+最大输出tokens数量，输入超过该数量会直接返回。max-model-len的值必须小于config

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

specification 是 String 部署本地服务时，取值为“local”。 instance_count 是 Integer 模型部署的实例数，当前限制最大实例数为128，部署本地服务Predictor时，取值为1。 envs 否 Map<String, String> 运行模型需要的环境变量键值对，可选填，默认为空。

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理

总条数： 2213

上一页
1
...
87
88
89
...
111
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练参数配置说明【旧】 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

查询模型列表 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

使用python3.6-torch1.4版本镜像环境安装MMCV报错 - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

查询数据集的团队标注任务列表 - AI开发平台ModelArts

查询模型对象列表 - AI开发平台ModelArts

MXNet创建kvstore时程序被阻塞，无报错 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

查询训练作业列表 - AI开发平台ModelArts

查询AI应用详情 - AI开发平台ModelArts

在线服务预测报错ModelArts.4302 - AI开发平台ModelArts

查询数据集列表 - AI开发平台ModelArts

网络调整公告 - AI开发平台ModelArts

训练作业的监控内存指标持续升高直至作业失败 - AI开发平台ModelArts

查询团队标注任务详情 - AI开发平台ModelArts

训练作业日志中提示“No such file or directory” - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在开发环境中部署本地服务进行调试 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线