搜索_华为云

给子账号配置训练作业基本使用权限 - AI开发平台ModelArts

两条策略，便于授权时设置最小授权范围。此处的“trainJob”为项目级云服务、“trainJobobs”为全局级云服务。了解更多创建用户组并加入用户，步骤请参考Step1 创建用户组并加入用户。给用户组授权策略。在IAM服务的用户组列表页面，单击“授权”，进入到授权页面，

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
训练作业容错检查 - AI开发平台ModelArts

如果作业重启次数没有达到设定的次数，则会自动做重新下发作业。您可以通过搜索“error,exiting”关键字查找作业重启失败结束的日志。使用reload ckpt恢复中断的训练在容错机制下，如果因为硬件问题导致训练作业重启，用户可以在代码中读取预训练模型，恢复至重启前的训练状态。用户需要在代码里加上reload

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
配置Workflow参数 - AI开发平台ModelArts

参数相关的配置使用Placeholder对象来表示，以占位符的形式实现用户数据运行时配置的能力，当前支持的数据类型包括：int、str、bool、float、Enum、dict、list。开发者可根据场景需要，将节点中的相关字段（如算法超参）通过Placeholder的形式透出，支持设置默认值，供用户修改配置使用。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
配置Grafana数据源 - AI开发平台ModelArts

_Default”实例。图2 Prometheus_AOM_Default 从“设置”页签的“Grafana数据源配置信息”区域，获取当前Prometheus实例的Grafana数据源配置代码。在Grafana中增加数据源。登录Grafana。首次登录用户名和密码为admin，登录成功后可根据提示修改密码。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
训练作业重调度 - AI开发平台ModelArts

当训练作业发生故障恢复时（例如进程级恢复、POD级重调度、JOB级重调度等），作业详情页面中会出现“故障恢复详情”页签，里面记录了训练作业的启停情况。在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
Lite Cluster资源管理介绍 - AI开发平台ModelArts

一段时间后，由于用户AI开发业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts提供了扩缩容功能，用户可以根据自己的需求动态调整。升级Lite Cluster资源池驱动：当资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
创建Workflow节点 - AI开发平台ModelArts

创建Workflow节点创建Workflow数据集节点创建Workflow数据集标注节点创建Workflow数据集导入节点创建Workflow数据集版本发布节点创建Workflow训练作业节点创建Workflow模型注册节点创建Workflow服务部署节点父主题：

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
扩缩容Standard专属资源池 - AI开发平台ModelArts

当专属资源池创建完成，使用一段时间后，由于用户AI开发业务的变化，对于资源池资源量的需求可能会产生变化，面对这种场景，ModelArts Standard专属资源池提供了扩缩容功能，用户可以根据自己的需求动态调整。使用扩容功能时，可以增加资源池已有规格的实例数量。使用缩容功能时，可以减少资源池已有规格的实例数量。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
管理和查看数据处理任务 - AI开发平台ModelArts

、“部署中”状态的训练作业，您可以单击操作列的“删除”，删除对应的数据处理任务。查看数据处理任务详情登录ModelArts管理控制台，在左侧的导航栏中选择“数据准备>数据处理”，进入“数据处理”页面。在数据处理列表中，单击数据处理任务名称，进入数据处理任务的版本管理页面。您

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

通过JupyterLab在线使用Notebook实例进行AI开发使用JupyterLab在线开发和调试代码 JupyterLab常用功能介绍在JupyterLab使用Git克隆代码仓在JupyterLab中创建定时任务上传文件至JupyterLab 下载JupyterLab文件到本地

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
启动推理服务 - AI开发平台ModelArts

ingFace的目录格式。即上传的HuggingFace权重文件存放目录。如果使用了量化功能，则使用量化章节转换后的权重。如果使用的是训练后模型转换为HuggingFace格式的地址，还需要有Tokenizer原始文件。 --max-num-seqs：最大同时处理的请求数，超过后在等待池等候处理。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
SFT全参微调训练 - AI开发平台ModelArts

Face权重时，对应的存放地址。在“输出”的输入框内设置变量：OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR：训练完成后指定的输出模型路径。 HF_SAVE_DIR：训练完成的权重文件自动转换为Hugging Face格式权重输出的路径（确保添

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
预训练 - AI开发平台ModelArts
预训练 - AI开发平台ModelArts

Face权重时，对应的存放地址。在“输出”的输入框内设置变量：OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR：训练完成后指定的输出模型路径。 HF_SAVE_DIR：训练完成的权重文件自动转换为Hugging Face格式权重输出的路径（确保添

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.910）
ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

IsADirectoryError(21, 'Is a directory'). update products failed! 原因分析用户代码中设置的目标路径（local_path）有误。处理方法需要将local_path路径设置为文件夹且后缀必须以“/”结尾。父主题： API/SDK

帮助中心 > AI开发平台ModelArts > 故障排除 > API/SDK
资源池监控 - AI开发平台ModelArts

表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 系统生成的资源池名称。表2 Query参数参数是否必选参数类型描述 time_range 否

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
安装配置Grafana - AI开发平台ModelArts

在Windows上安装配置Grafana 在Linux上安装配置Grafana 在Notebook上安装配置Grafana 父主题：使用Grafana查看AOM中的监控指标

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标
通过智能标注方式标注数据 - AI开发平台ModelArts

通过智能标注方式标注数据创建智能标注作业确认智能标注作业的数据难例使用自动分组智能标注作业父主题：标注ModelArts数据集中的数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
数据处理场景介绍 - AI开发平台ModelArts

数据清洗：数据清洗是指对数据进行去噪、纠错或补全的过程。数据清洗是在数据校验的基础上，对数据进行一致性检查，处理一些无效值。例如在深度学习领域，可以根据用户输入的正样本和负样本，对数据进行清洗，保留用户想要的类别，去除用户不想要的类别。数据选择：数据选择一般是指从全量数据中选择数据子集的过程。数据可以通

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 处理ModelArts数据集中的数据
重建、停止或删除训练作业 - AI开发平台ModelArts

练作业设置的参数，您仅需在原来的基础上进行修改即可重新创建训练作业。停止训练作业在训练作业列表中，针对“创建中”、“等待中”、“运行中”的训练作业，您可以单击“操作”列的“终止”，停止正在运行中的训练作业。训练作业停止后，ModelArts将停止计费。运行结束的训练作业，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
设置无条件自动重启 - AI开发平台ModelArts

设置无条件自动重启背景信息训练过程中可能会碰到预期外的情况导致训练失败，且无法及时重启训练作业，导致训练周期长，而无条件自动重启可以避免这类问题。无条件自动重启是指当训练作业失败时，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。为了避免无效重启浪费算力资源，系统最多只支持连续无条件重启3次。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性

总条数： 2349

上一页
1
...
69
70
71
...
118
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

给子账号配置训练作业基本使用权限 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

配置Workflow参数 - AI开发平台ModelArts

配置Grafana数据源 - AI开发平台ModelArts

训练作业重调度 - AI开发平台ModelArts

Lite Cluster资源管理介绍 - AI开发平台ModelArts

创建Workflow节点 - AI开发平台ModelArts

扩缩容Standard专属资源池 - AI开发平台ModelArts

管理和查看数据处理任务 - AI开发平台ModelArts

通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

SFT全参微调训练 - AI开发平台ModelArts

预训练 - AI开发平台ModelArts

ModelArts SDK下载文件目标路径设置为文件名，部署服务时报错 - AI开发平台ModelArts

资源池监控 - AI开发平台ModelArts

安装配置Grafana - AI开发平台ModelArts

通过智能标注方式标注数据 - AI开发平台ModelArts

数据处理场景介绍 - AI开发平台ModelArts

重建、停止或删除训练作业 - AI开发平台ModelArts

设置无条件自动重启 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线