搜索_华为云

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

是，则执行2。否，则在高级配置的“plugins”参数下添加“{"name":"cabinet"}”，单击下方的“安装”使Volcano调度器更新配置，完成滚动重启。修改torch_npu训练启动脚本。脚本要使用torch.distributed.launch/run命令启动，不能使用mp

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
配置ModelArts委托授权 - AI开发平台ModelArts

进入ModelArts控制台的某个页面时，为什么会提示权限不足？图14 页面提示权限不足可能原因是用户委托权限配置不足或模块能力升级，需要更新授权信息。根据界面操作提示追加授权即可。父主题：配置MaaS访问授权

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio） > 配置MaaS访问授权
快速配置ModelArts委托授权 - AI开发平台ModelArts

进入ModelArts控制台的某个页面时，为什么会提示权限不足？图10 页面提示权限不足可能原因是用户委托权限配置不足或模块能力升级，需要更新授权信息。根据界面操作提示追加授权即可。为什么专属资源池需要增加CCE、BMS、IMS、DEW相关授权？专属资源池能力升级，新上线ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard准备工作 > 配置ModelArts Standard访问授权
使用MaaS调优模型 - AI开发平台ModelArts

训练过程中模型遍历整个数据集的次数。不同量级数据集的建议值：百量集4~8；千量集2~4；更大数量级1~2。迭代步数/Iterations 计算得出的模型参数/权重更新的次数。在调优过程中，Qwen2-72B-1K模型的每一个Iterations会消耗512条训练数据，其他模型的每一个Iterations会消耗32条训练数据。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
查询数据集版本详情 - AI开发平台ModelArts

train_evaluate_sample_ratio String 发布版本时切分训练验证比例，默认为1.00，即全部分为训练集。 update_time Long 版本更新时间。 version_format String 数据集版本格式。可选值如下： Default：默认格式 CarbonData：Carbon格式（仅表格数据集支持）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询算法列表 - AI开发平台ModelArts

算法版本数量，默认为0。 size Integer 算法大小。 create_time Long 算法创建时间戳。 update_time Long 算法更新时间戳。表6 job_config 参数参数类型描述 code_dir String 算法的代码目录。如：“/usr/app/”。应与boot_file一同出现。

帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
创建训练作业 - AI开发平台ModelArts

训练作业创建成功响应说明参数类型描述 TrainingJob Object 训练对象，该对象包含job_id等属性，对训练作业的查询、更新、删除等操作时，可通过job_instance.job_id获取训练作业ID。表7 调用训练接口失败响应参数参数类型描述 error_msg

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
费用账单 - AI开发平台ModelArts
费用账单 - AI开发平台ModelArts

登录ModelArts管理控制台，选择“模型部署 > 在线服务”，在“在线服务”列表页，复制实例名称。单击服务名称进入服务详情页，在“配置更新记录”页签中，单击模型名称，进入模型详情页。在“基本信息”中，复制模型的ID。图3 获取模型ID 根据查询到的资源名称拼接账单中上报的资源名称。

帮助中心 > AI开发平台ModelArts > 计费说明
训练作业卡死检测 - AI开发平台ModelArts

d，不要使用OBS路径。问题现象4 使用pytorch中的dataloader读数据时，作业卡在读数据过程中，日志停在训练的过程中并不再更新日志。解决方案4 用dataloader读数据时，适当减小num_worker。常见案例：训练最后一个epoch卡死问题现象通过日

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
IAM - AI开发平台ModelArts
IAM - AI开发平台ModelArts

"modelarts:image:listGroup" ] } ] } 示例2：拒绝用户创建、更新、删除专属资源池。拒绝策略需要同时配合其他策略使用，否则没有实际作用。用户被授予的策略中，一个授权项的作用如果同时存在Allow和Deny，则遵循Deny优先原则。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
修复Standard专属资源池故障节点 - AI开发平台ModelArts

“关闭高可用冗余”按钮实现批量关闭。图7 关闭高可用冗余能力图8 非高可用冗余重置节点：需要升级节点操作系统时，可通过重置节点完成。更新节点配置时产生故障报错，也可通过重置节点修复故障。 “节点”页签中提供节点重置的功能。单击操作列的“重置”，可实现对单个节点的重置。勾选多

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
启动推理服务 - AI开发平台ModelArts

E_DEVICES指定的可用卡数一致。 --address：头节点IP+端口号，头节点创建成功后，会有打印。环境变量每个节点都要设置。更新环境变量需要重启Ray集群。选择其中一个节点，添加指定分布式后端参数【--distributed-executor-backend=ra

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理服务部署
通过SSH工具远程使用Notebook - AI开发平台ModelArts

通过SSH工具远程使用Notebook 本节操作介绍在Windows环境中使用PuTTY SSH远程登录云上Notebook实例的操作步骤。前提条件创建一个Notebook实例，并开启远程SSH开发，配置远程访问IP白名单。该实例状态必须处于“运行中”，具体参见创建Notebook实例章节。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

batch中不同部分的数据。网络中相邻参数分桶，一般为神经网络模型中需要进行参数更新的每一层网络。每个进程前向传播并各自计算梯度。模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。各GPU更新模型参数。具体流程图如下：图1 多机多卡数据并行训练代码改造点引入多进程启动机制：初始化进程

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务本章节主要介绍如何在ModelArts的DevServer环境上部署Stable Diffusion的WebUI套件，使用NPU卡进行推理。步骤一准备环境请参考DevServer资源开通，购买DevServer资源，并确保

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD WEBUI套件适配PyTorch NPU的推理指导（6.3.908）
查询数据集的版本列表 - AI开发平台ModelArts

train_evaluate_sample_ratio String 发布版本时切分训练验证比例，默认为1.00，即全部分为训练集。 update_time Long 版本更新时间。 version_format String 数据集版本格式。可选值如下： Default：默认格式 CarbonData：Carbon格式（仅表格数据集支持）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查看训练作业日志 - AI开发平台ModelArts

在训练启动文件被执行前，系统会在 /home/work/user-job-dir/ 目录下执行上述ma-pre-start脚本，使用该机制可以更新容器镜像内安装的Ascend RUN包，或者设置一些训练运行时额外需要的全局环境变量。如何查看训练作业日志在训练作业详情页，训练日志窗

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
在MaaS中创建模型 - AI开发平台ModelArts

-80B基础模型（名字必须一致）创建模型，且“权重设置与词表”选择“自定义权重”时，需要修改权重配置才能正常运行模型。修改后的权重文件要更新至OBS桶中。 ChatGLM3-6B、GLM-4-9B 修改文件“tokenization_chatglm.py”。第一处原内容 #

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
创建数据集导出任务 - AI开发平台ModelArts

task_id String 任务ID。 total_sample_count Integer 样本总数量。 update_time Long 任务更新时间。 version_format String 数据集版本格式。可选值如下： Default：默认格式 CarbonData：Carbon格式（仅表格数据集支持）

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询单个智能标注样本的信息 - AI开发平台ModelArts

标注成员的当前登录状态。可选值如下： 0：未发送邀请邮件 1：已发送邀请邮件但未登录 2：已登录 3：标注成员已删除 update_time Long 更新时间。 worker_id String 标注成员ID。 workforce_id String 所属标注团队ID。表5 SampleLabel

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 321

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 - AI开发平台ModelArts

配置ModelArts委托授权 - AI开发平台ModelArts

快速配置ModelArts委托授权 - AI开发平台ModelArts

使用MaaS调优模型 - AI开发平台ModelArts

查询数据集版本详情 - AI开发平台ModelArts

查询算法列表 - AI开发平台ModelArts

创建训练作业 - AI开发平台ModelArts

费用账单 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

IAM - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

启动推理服务 - AI开发平台ModelArts

通过SSH工具远程使用Notebook - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

在DevServer上部署SD WebUI推理服务 - AI开发平台ModelArts

查询数据集的版本列表 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

创建数据集导出任务 - AI开发平台ModelArts

查询单个智能标注样本的信息 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线