搜索_华为云

使用SmoothQuant量化 - AI开发平台ModelArts

mples 配置需要使用的NPU卡，例如：实际使用的是第1张和第2张卡，此处填写为“0,1”，以此类推。 export ASCEND_RT_VISIBLE_DEVICES=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡，如果希望使用第一和第二张卡，则“export

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） - AI开发平台ModelArts

PyTorch NPU训练指导（6.3.908）场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） - AI开发平台ModelArts

PyTorch NPU训练指导（6.3.909）场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

PyTorch NPU训练指导（6.3.910）场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

PyTorch NPU训练指导（6.3.911）场景介绍准备工作执行预训练任务执行SFT全参微调训练任务执行LoRA微调训练任务查看日志和性能训练脚本说明参考常见错误原因和解决方法父主题： LLM大语言模型训练推理

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理
从Manifest文件导入数据到数据集 - AI开发平台ModelArts

前提条件已存在创建完成的数据集。准备需要导入的数据，具体可参见从Manifest文件导入规范说明。需导入的数据，已存储至OBS中。Manifest文件也需要存储至OBS。确保数据存储的OBS桶与ModelArts在同一区域，并确保用户具有OBS桶的操作权限。文件型数据从Manifest导入操作

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
重置节点后无法正常使用？ - AI开发平台ModelArts

删除maos-node-agent的pod（重启pod）。 CCE页面上删除节点上的污点A200008。 ModelArts上重置节点。 CCE页面上配置中心修改默认调度器为volcano。该方案的缺点：后续对ModelArts的节点做相关操作如重置、升级驱动等可能会出现节点异常无法启动的情况。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
删除API - AI开发平台ModelArts
删除API - AI开发平台ModelArts

删除API 功能介绍删除指定的API，只有对API所属服务有删除权限的用户才可以删除API。调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI DELETE /v1/

帮助中心 > AI开发平台ModelArts > API参考 > APP认证管理
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

且隔离的可用区，这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区，您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比，可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
设置断点续训练 - AI开发平台ModelArts

卡死等）导致训练作业还未完成就被中断，下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。断点续训练是通过checkpoint机制实现。 checkpoint的机制是：在模型训练的过程中，不断地保存训练结果（包括但不限于EPOCH、模型权重

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
服务管理 - AI开发平台ModelArts
服务管理 - AI开发平台ModelArts

通过patch操作对服务进行更新查询服务监控信息查询服务列表部署服务查询支持的服务部署规格查询服务详情更新服务配置删除服务更新模型服务的单个属性查询专属资源池列表查询服务事件日志启动停止边缘节点服务实例查询服务更新日志添加资源标签删除资源标签查询推理服务标签查询推理VPC访问通道信息的API

帮助中心 > AI开发平台ModelArts > API参考
训练脚本说明 - AI开发平台ModelArts

训练脚本说明训练启动脚本说明和参数配置训练数据集预处理说明训练权重转换说明训练tokenizer文件说明父主题：主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
使用Msprobe工具分析偏差 - AI开发平台ModelArts

__mul__.2在forward计算阶段的第一个input存在偏差。追溯代码实现是下图中noise变量使用torch.rand_like ()作noise变量的初始化 (下图第730行)。由于torch.rand_like()该函数会根据输入的input构造同样size、dtype

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优 > 精度对齐
在ModelArts中如何将图片划分到验证集或者训练集？ - AI开发平台ModelArts

验证集，不支持指定。切分比例的指定：在发布数据集时，仅“图像分类”、“物体检测”、“文本分类”和“声音分类”类型数据集支持进行数据切分功能。一般默认不启用该功能。启用后，需设置对应的训练验证比例。输入“训练集比例”，数值只能是0~1区间内的数。设置好“训练集比例”后，“验

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据准备
使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

KeyError: 'bndbox' 原因分析用于训练的数据集中，使用了“非矩形框”标注。而预置使用算法不支持“非矩形框”标注的数据集。处理方法此问题有两种解决方法：方法1：使用常用框架自行编码开发模型，支持“多边形”标注的数据集。方法2：修改数据集，使用矩形标注。然后再启动训练作业。父主题：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

打开“Settings” 在打开的“MobaXterm Configuration”配置页面，选择“SSH”选项卡，勾选“SSH keepalive”，如图2 勾选“SSH keepalive”所示。图2 勾选“SSH keepalive” 如果使用的是专业版的MobaXterm工具，请执行步骤3。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

-size）的设置：需要遵循GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。模型推荐的参数与NPU卡数设置不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912） > 训练脚本说明
修改批量服务配置 - AI开发平台ModelArts

服务升级关系着业务实现，不当的升级操作会导致升级期间业务中断的情况，请谨慎操作。 ModelArts支持部分场景下在线服务进行无损滚动升级。按要求进行升级前准备，做好验证，即可实现业务不中断的无损升级。表1 支持无损滚动升级的场景创建模型的元模型来源服务使用的是公共资源池服务使用的是专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
修改在线服务配置 - AI开发平台ModelArts

服务升级关系着业务实现，不当的升级操作会导致升级期间业务中断的情况，请谨慎操作。 ModelArts支持部分场景下在线服务进行无损滚动升级。按要求进行升级前准备，做好验证，即可实现业务不中断的无损升级。表1 支持无损滚动升级的场景创建模型的元模型来源服务使用的是公共资源池服务使用的是专属资源池

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
创建团队标注任务 - AI开发平台ModelArts

如下： true：团队标注任务的标注结果自动同步至数据集（默认值） false：团队标注任务的标注结果不自动同步至数据集 data_sync_type 否 Integer 同步类型。可选值如下： 0：不同步 1：同步数据 2：同步标签 3：同步数据和标签 repetition 否

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）

总条数： 2177

上一页
1
...
90
91
92
...
109
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

使用SmoothQuant量化 - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.908） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.909） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.910） - AI开发平台ModelArts

主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导（6.3.911） - AI开发平台ModelArts

从Manifest文件导入数据到数据集 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

删除API - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

服务管理 - AI开发平台ModelArts

训练脚本说明 - AI开发平台ModelArts

使用Msprobe工具分析偏差 - AI开发平台ModelArts

在ModelArts中如何将图片划分到验证集或者训练集？ - AI开发平台ModelArts

使用预置算法训练时，训练失败，报“bndbox”错误 - AI开发平台ModelArts

使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？ - AI开发平台ModelArts

训练启动脚本说明和参数配置【旧】 - AI开发平台ModelArts

修改批量服务配置 - AI开发平台ModelArts

修改在线服务配置 - AI开发平台ModelArts

创建团队标注任务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线