搜索_华为云

服务管理 - AI开发平台ModelArts
服务管理 - AI开发平台ModelArts

服务管理服务管理概述在开发环境中部署本地服务进行调试部署在线服务查询服务详情推理服务测试查询服务列表查询服务对象列表更新服务配置查询服务监控信息查询服务日志删除服务

 帮助中心 > AI开发平台ModelArts > SDK参考
数据管理 - AI开发平台ModelArts
数据管理 - AI开发平台ModelArts

数据管理数据集管理数据集版本管理样本管理导入任务管理导出任务管理 Manifest管理标注任务管理

 帮助中心 > AI开发平台ModelArts > SDK参考
数据集管理 - AI开发平台ModelArts

数据集管理查询数据集列表创建数据集查询数据集详情更新数据集删除数据集父主题：数据管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理
导入任务管理 - AI开发平台ModelArts

导入任务管理查询导入任务列表创建导入任务查询导入任务状态父主题：数据管理

 帮助中心 > AI开发平台ModelArts > SDK参考 > 数据管理
训练管理 - AI开发平台ModelArts
训练管理 - AI开发平台ModelArts

训练管理训练作业资源和引擎规格接口

 帮助中心 > AI开发平台ModelArts > SDK参考
昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

prefill特性支持automatic prefix caching 支持multi-lora特性支持W4A16、W8A16和W8A8量化升级vLLM 0.6.3 说明：具体模型支持的特性请参见大模型推理指导文档 LLM开源大模型基于Lite Server适配PyTorch NPU推理指导

 帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
昇腾云服务6.3.910版本说明（推荐） - AI开发平台ModelArts

prefill特性支持automatic prefix caching 支持multi-lora特性支持W4A16、W8A16和W8A8量化升级vLLM 0.6.0 LLM开源大模型基于Lite Server适配PyTorch NPU推理指导 LLM开源大模型基于Standard适配PyTorch

帮助中心 > AI开发平台ModelArts > 服务公告 > 产品发布说明
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务场景描述本案例介绍如何在Snt9B上进行分布式训练任务，其中Cluster资源池已经默认安装volcano调度器，训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型，详细代码和指导可参考Bert。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源使用
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Standard。资源规格需要使用专属资源池中的昇腾Snt9B资源，请参考创建资源池购买资源。推荐使用“西南-贵阳一”Region上的昇腾资源。专属资源池驱动检查登录ModelArts控制台，单击“专属资源池 > 弹性集群”，选择创建的专属资源池。图1 查看专属资源池在专属池详情页可查看驱动及固件版本。如下图显示Ascend驱动为7

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.909） > 准备工作
添加资源标签 - AI开发平台ModelArts

路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。 resource_id 是 String 资源ID，如Notebook实例ID。请求参数表2 请求Body参数参数是否必选参数类型描述 tags

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
创建导入任务 - AI开发平台ModelArts

cluster_id 否 String MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下： 0：普通集群 1：安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
执行训练任务（历史版本） - AI开发平台ModelArts

训练作业中的训练故障自动恢复功能包括：训练容错检查（自动重启），帮助用户隔离故障节点，优化用户训练体验。详细可了解：训练容错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
执行微调训练任务 - AI开发平台ModelArts

可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配 dataset identity,alpaca_en_demo 【可选】注册在dataset_info.json文件数据集名称。如选用定义数据请参考准备数据（可选）配置dataset_info

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908）
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

后面称模板机）的实例ID信息，如果制作镜像不清理“/var/lib/cloud/*”就会导致用该镜像再重装模板机时，cloud-init根据残留目录（含实例ID）判断已经执行过一次，进而不会再执行user-data里面的脚本。而使用该镜像的服务器B和C，由于实例ID信息和镜像中

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查看日志和性能 - AI开发平台ModelArts

png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909）
在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多？ - AI开发平台ModelArts

资源规格训练时为什么训练速度差不多？如果用户的代码中训练任务是单进程的，使用Notebook 8核64GB，72核512GB训练的速度是基本一致的，例如用户用的是2核4GB的资源，使用4核8GB，或者8核64GB效果是一样的。如果用户的代码中训练任务是多进程的，使用Notebook

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
训练的权重转换说明 - AI开发平台ModelArts

--tokenizer-model : tokenizer路径。 Megatron转HuggingFace参数说明如果用户需要自动转换，则在训练作业中，添加变量CONVERT_MG2HF并赋值True。如果用户后续不需要自动转换，则在环境变量中必须删除CONVERT_MG2HF变量。 Megatron转

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 训练脚本说明
在ECS中创建ma-user和ma-group - AI开发平台ModelArts

在ECS中创建ma-user和ma-group 在ModelArts训练平台使用的自定义镜像时，默认用户为ma-user、默认用户组为ma-group。如果在训练时调用ECS中的文件，需要修改文件权限改为ma-user可读，否则会出现Permission denied错误，因此需

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
查看日志和性能 - AI开发平台ModelArts

png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
查看日志和性能 - AI开发平台ModelArts

png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）

总条数： 1802

上一页
1
...
68
69
70
...
91
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

服务管理 - AI开发平台ModelArts

数据管理 - AI开发平台ModelArts

数据集管理 - AI开发平台ModelArts

导入任务管理 - AI开发平台ModelArts

训练管理 - AI开发平台ModelArts

昇腾云服务6.3.911版本说明 - AI开发平台ModelArts

昇腾云服务6.3.910版本说明（推荐） - AI开发平台ModelArts

在Lite Cluster资源池上使用Snt9B完成分布式训练任务 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

添加资源标签 - AI开发平台ModelArts

创建导入任务 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

执行微调训练任务 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多？ - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

在ECS中创建ma-user和ma-group - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线