搜索_华为云

使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

断开或卡顿，如何解决？问题现象 MobaXterm成功连接到开发环境后，过一段时间会自动断开。可能原因配置MobaXterm工具时，没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server after”时间设置太短。解决方案打开Mo

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
日志提示“No module name 'unidecode'” - AI开发平台ModelArts

'unidecode'。原因分析 requirements.txt的Unidecode名字写错了，应该把U改成小写，所以导致训练作业的环境没有装上unidecode模块。处理方法将requirements.txt中的Unidecode改为unidecode。建议与总结您可以在训练代码里添加一行：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

是，则执行2。否，则在高级配置的“plugins”参数下添加“{"name":"cabinet"}”，单击下方的“安装”使Volcano调度器更新配置，完成滚动重启。修改torch_npu训练启动脚本。脚本要使用torch.distributed.launch/run命令启动，不能使用mp

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
使用MoXing复制数据报错 - AI开发平台ModelArts

使用MoXing复制数据报错问题现象调用moxing.file.copy_parallel()将文件从开发环境的OBS桶中复制到其他OBS桶里，但是桶内没有出现目标文件。使用MoXing复制数据不成功，出现报错。如： ModelArts开发环境使用MoXing复制OBS数据报错：keyError:

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
ModelArts中提示OBS相关错误 - AI开发平台ModelArts

Notebook中下载OBS文件时提示Permission denied。原因分析 OBS桶与ModelArts不在同一个区域导致。没有他人OBS桶的访问权限。 ModelArts上没有配置委托授权。 OBS文件加密上传导致。ModelArts不支持OBS加密文件。 OBS桶的权限和访问ACL设置不正确导致。

帮助中心 > AI开发平台ModelArts > 故障排除 > 通用问题
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn_mask

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算，则前向时qkv没有梯度，如果需要关闭重计算，可以在yaml配置 `disable_gradient_checkpointing: true` 关闭，但显存占用会直线上升。 attn

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
推理业务迁移评估表 - AI开发平台ModelArts

使用stable-diffusion的典型模型：TextEncoder、VaeEncoder、unet、VaeDecoder、SafetyChecker，没有使用LoRA等动态加载的诉求。 - 模型训练方式关于推理业务中使用的模型，填写该模型训练时使用的框架以及套件。例如：模型使用PyTor

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU推理业务迁移至昇腾的通用指导
创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

各GPU上的模型进行前向传播，得到输出主GPU（逻辑序号为0）收集各GPU的输出，汇总后计算损失分发损失，各GPU各自反向传播梯度主GPU收集梯度并更新参数，将更新后的模型参数分发到各GPU 具体流程图如下：图1 单机多卡数据并行训练代码改造点模型分发：DataParallel(model)

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
创建训练作业 - AI开发平台ModelArts

必须为/home下的目录。 v1兼容模式下，当前字段不生效。当code_dir以file://为前缀时，当前字段不生效。 working_dir 否 String 运行算法时所在的工作目录。规则：v1兼容模式下，当前字段不生效。 job_description 否 String 训练作业的描述。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
训练管理 - AI开发平台ModelArts
训练管理 - AI开发平台ModelArts

训练管理创建算法查询算法列表查询算法详情更新算法删除算法获取支持的超参搜索算法创建训练实验创建训练作业查询训练作业详情更新训练作业描述删除训练作业终止训练作业查询训练作业指定任务的日志（预览）查询训练作业指定任务的日志（OBS链接）查询训练作业指定任务的运行指标

 帮助中心 > AI开发平台ModelArts > API参考
删除APP - AI开发平台ModelArts
删除APP - AI开发平台ModelArts

删除APP 功能介绍删除指定的APP，只有APP的创建用户才可以删除APP，且APP没有绑定的API。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI DELETE

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效问题现象通过API接口选择自定义镜像导入创建模型，配置了运行时依赖，没有正常安装pip依赖包。原因分析自定义镜像导入不支持配置运行时依赖，系统不会自动安装所需要的pip依赖包。处理方法重新构建镜像。在构建镜像的dockerfile文件

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
Notebook Cache盘告警上报 - AI开发平台ModelArts

nd类型的资源，ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。当前开发环境的Cache盘使用时，没有容量告警，在使用时很容易超过限制，并直接重启Notebook实例。重启后多种配置重置，会导致用户数据丢弃，环境丢失，造成很不好的使用体验。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
数据集管理 - AI开发平台ModelArts

数据集管理查询数据集列表创建数据集查询数据集详情更新数据集删除数据集父主题：数据管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理
ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

command line flag 'task_index' 原因分析运行参数中未定义该参数。在训练环境中，系统可能会传入在Python脚本里没有定义的其他参数名称，导致参数无法解析，日志报错。处理方法参数定义中增加该参数的定义，代码示例如下： parser.add_argument('--init_method'

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
重试/停止/运行Workflow节点 - AI开发平台ModelArts

流。在当前节点的运行状况页面，单击“重试”。在重试之前您也可以前往权限管理页面修改配置，节点重试启动后新修改的配置信息可以在当前执行中立即生效。停止单击指定节点查看详情，可以对运行中的节点进行停止操作。继续运行对于单个节点中设置了需要运行中配置的参数时，节点运行会处于“等

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow

总条数： 686

上一页
1
...
8
9
10
...
35
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

使用MoXing复制数据报错 - AI开发平台ModelArts

ModelArts中提示OBS相关错误 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

NPU_Flash_Attn融合算子约束 - AI开发平台ModelArts

推理业务迁移评估表 - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

训练管理 - AI开发平台ModelArts

删除APP - AI开发平台ModelArts

自定义镜像导入配置运行时依赖无效 - AI开发平台ModelArts

Notebook Cache盘告警上报 - AI开发平台ModelArts

数据集管理 - AI开发平台ModelArts

ModelArts训练作业无法解析参数，日志报错 - AI开发平台ModelArts

重试/停止/运行Workflow节点 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线