搜索_华为云

训练管理 - AI开发平台ModelArts
训练管理 - AI开发平台ModelArts

创建训练作业查询训练作业详情更新训练作业描述删除训练作业终止训练作业查询训练作业指定任务的日志（预览）查询训练作业指定任务的日志（OBS链接）查询训练作业指定任务的运行指标查询训练作业列表查询超参搜索所有trial的结果查询超参搜索某个trial的结果获取超参敏感度分析结果

 帮助中心 > AI开发平台ModelArts > API参考
附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

scheduler 若重启后，还是会Pending，建议多重复重启几次。其他实例调度失败问题首先通过打印Pod日志信息。根据错误信息，可通过访问官网链接：工作负载异常：实例调度失败，进行查找。父主题：主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
提示“上传的AK/SK不可用”，如何解决？ - AI开发平台ModelArts

理访问密钥”操作指导，确认当前AK/SK是否是当前账号创建的AK/SK。是，请联系提交工单处理。否，请根据“如何管理访问密钥”操作指导更换为当前账号的AK/SK。请确认当前账号是否欠费。是，请给账号充值。操作指导请参见账户充值。否，且提示资源已过保留期，需要提工单给OBS开通资源。

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

行工具。训练数据、代码、模型下载。（本地使用硬盘挂载或者docker cp，在ModelArts上使用OBSutil）启动脚本，用法无切换，一般就是到达执行目录，然后python xxx.py。训练结果、日志、checkpoints上传。（本地使用硬盘挂载或者docker

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

ngFace的目录格式。即Step2 准备权重文件上传的HuggingFace权重文件存放目录。如果使用了量化功能，则使用推理模型量化章节转换后的权重。 --max-num-seqs：最大同时处理的请求数，超过后拒绝访问。 --max-model-len：推理时最大输入+最大输出

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909）
使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

查看训练日志。在单击“Apply and Run”按钮后，训练的日志可以在PyCharm窗口中实时展示。也可以单击Event Log中的控制台链接，转调到网页端中查看训练日志。图29 在PyCharm中查看训练日志终止训练作业。如果想要在中途终止训练，可以在PyCharm中单击“ModelArts>Training

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard开发环境
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

ngFace的目录格式。即Step2 准备权重文件上传的HuggingFace权重文件存放目录。如果使用了量化功能，则使用推理模型量化章节转换后的权重。 --max-num-seqs：最大同时处理的请求数，超过后拒绝访问。 --max-model-len：推理时最大输入+最大输出

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908）
在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

即可看到当前代码库的信息，如仓库名称、分支、历史提交记录等。图6 查看代码库信息 Git插件一般默认克隆master分支，如果要切换分支可单击Current Branch展开所有分支，单击相应分支名称可完成切换。查看修改的内容如果修改代码库中的某个文件，在“Changes”页签的“Changed”下可以看

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

和配置。训练数据、代码、模型下载。（本地使用硬盘挂载或者docker cp，在ModelArts上使用OBSutil）启动脚本，用法无切换，一般就是到达执行目录，然后python xxx.py。训练结果、日志、checkpoints上传。（本地使用硬盘挂载或者docker

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
配置仪表盘查看指标数据 - AI开发平台ModelArts

到导入的视图，单击视图即可打开监控。模板使用导入成功后，单击想查看的模板即可查看响应内容。这里介绍一些常用功能的使用。切换数据源和资源池图5 切换数据源和资源池单击红框中相应位置，即可出现下拉框，修改响应的数据源和资源池。刷新数据单击右上角的图标，即可刷新整个Das

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
训练作业一直在等待中（排队）？ - AI开发平台ModelArts

费规格资源较少，排队概率高。规格选择卡数尽量少，如可以选择1卡，相比于选择8卡排队几率大大降低。可以尝试使用其他Region（如北京四切换为上海一）。如果有长期的资源使用诉求，可以购买独占使用的专属资源池。专属资源池：如有多个可用的专属资源池，可尝试选择其他较为空闲的资源池。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

完成配置后，在ModelArts控制台的权限管理列表，可查看到此账号的委托配置信息。步骤1：准备训练数据从AI Gallery下载训练数据，单击链接四类花卉图像分类小数据集，进入数据集详情页。选择“数据集文件”页签后，单击“下载文件”跳转至下载详情页面。在下载详情页面，填写参数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例
配置kubectl工具 - AI开发平台ModelArts

单击创建的专属资源池，进入专属资源池详情页面。图2 专属资源池详情单击对应的CCE集群，进入CCE集群详情页面，在“集群信息”找到“连接信息”。图3 链接信息使用kubectl工具。若通过内网使用kubectl工具，需要将kubectl工具安装在和集群在相同vpc下的某一台机器上。单击k

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
创建团队标注验收任务 - AI开发平台ModelArts

创建团队标注验收任务功能介绍创建团队标注验收任务。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/datasets/

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
部署推理服务 - AI开发平台ModelArts

ingface格式。开源权重文件获取地址请参见支持的模型列表和权重文件。如果使用模型训练后的权重文件进行推理，模型训练及训练后的权重文件转换操作可以参考相关文档章节中提供的模型训练文档。 Step2 配置pod 在节点自定义目录${node_path}下创建config.yaml文件

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909）
个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

委托用户：选择委托名称。使用账号A创建一个权限委托，在此处将该委托授权给账号B拥有的委托。在使用账号B登录控制台时，可以在控制台右上角的个人账号切换角色到账号A，使用账号A的委托权限。图3 委托用户切换角色说明： ModelArts暂不支持创建身份策略权限的委托。 “委托选择” 已有委托：列表中如果已有委托选

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
训练日志失败分析 - AI开发平台ModelArts

的失败原因做一个综合判断。常见训练问题定位思路如下：根据日志界面提示中提供的分析建议解决。参考案例解决：会提供当前故障对应的指导文档链接，请参照文档中的解决方案修复问题。重建作业：建议重建作业进行重试，大概率能修复问题。上一步不能解决问题时，可以尝试分析日志中提示的错误信息，定位并解决问题。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
迁移Standard专属资源池和网络至其他工作空间 - AI开发平台ModelArts

子用户仅限于对自己创建的工作空间下的资源池进行迁移操作。网络工作空间迁移登录ModelArts管理控制台，选择“AI专属资源池 > 弹性集群Cluster”，切换到“网络”页签。在网络列表中，选择目标网络“操作 > 更多 > 工作空间迁移”。在弹出的“迁移网络”中，选择要迁移的“目标工作空间”，单击“确定”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
训练过程中无法找到so文件 - AI开发平台ModelArts

txt") 支持。当前cuda版本无so文件，需外部导入so文件（自行在浏览器下载），再设置LD_LIBRARY_PATH，具体见2。不支持。尝试更换引擎，重新下发作业。或者使用自定义镜像创建作业，可参考使用自定义镜像创建作业。父主题：云上迁移适配故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 云上迁移适配故障
部署推理服务 - AI开发平台ModelArts

是HuggingFace的目录格式。即Step3 上传代码包和权重文件上传的HuggingFace权重文件存放目录。如果使用的是训练后模型转换为HuggingFace格式的地址，还需要有Tokenizer原始文件。 --max-num-seqs：最大同时处理的请求数，超过后拒绝访问。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.905）

总条数： 541

上一页
1
...
19
20
21
...
28
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练管理 - AI开发平台ModelArts

附录：工作负载Pod异常问题和解决方法 - AI开发平台ModelArts

提示“上传的AK/SK不可用”，如何解决？ - AI开发平台ModelArts

在ModelArts Standard使用run.sh脚本实现OBS和训练容器间的数据传输 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

配置仪表盘查看指标数据 - AI开发平台ModelArts

训练作业一直在等待中（排队）？ - AI开发平台ModelArts

使用AI Gallery的订阅算法实现花卉识别 - AI开发平台ModelArts

配置kubectl工具 - AI开发平台ModelArts

创建团队标注验收任务 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

个人用户快速配置ModelArts访问权限 - AI开发平台ModelArts

训练日志失败分析 - AI开发平台ModelArts

迁移Standard专属资源池和网络至其他工作空间 - AI开发平台ModelArts

训练过程中无法找到so文件 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线