搜索_华为云

Wav2Lip推理基于Lite Server适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

27152329-0f2c29a 从SWR拉取。约束限制本文档适配昇腾云ModelArts 6.3.907版本，请参考表2获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。确保容器可以访问公网。 Step1 准备环境请参考Lite Server资源开通，购买Lite

帮助中心 > AI开发平台ModelArts > 最佳实践 > 数字人模型训练推理
增量模型训练 - AI开发平台ModelArts

requires_grad, net.get_parameters()), 0.01, 0.9) # 首次训练的epoch初始值，mindspore1.3及以后版本会支持定义epoch_size初始值。 # cur_epoch_num = 0 # 判断输出obs路径中是否有模型文件。如果无文件则默认从

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
查询资源池 - AI开发平台ModelArts

PoolDriver 参数参数类型描述 gpuVersion String GPU驱动版本，物理资源池中含有GPU规格时可填，例如："440.33"。 npuVersion String NPU驱动版本，物理资源池中含有ascend规格时可填，例如："C78"。 updateStrategy

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查询服务更新日志 - AI开发平台ModelArts

model_version String 模型版本。 weight Integer real-time类型必选。权重百分比，分配到此模型的流量权重，仅当infer_type为real-time时需要配置，多个权重相加必须等于100；当在一个在线服务中同时配置了多个模型版本且设置不同的流量权重比例时，

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
部署推理服务 - AI开发平台ModelArts

缓存文件与实际推理不匹配而报错。如果要使用eagle投机，配置环境变量，使eagle投机对齐实验室版本实现。目前默认开启此模式，如果不开启，目前vllm0.6.0版本与实验室版本权重无法对齐，会导致小模型精度问题。 export EAGLE_USE_SAFE_AI_LAB_STYLE=1

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
更新团队标注验收任务状态 - AI开发平台ModelArts

样本标签的属性键值对，如物体形状、形状特征等。 score Float 置信度，取值范围为[0,1] type Integer 标签类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组关系标签 103：文本三元组实体标签 200：语音分类 201：语音内容

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查询单个样本信息 - AI开发平台ModelArts

样本标签的属性键值对，如物体形状、形状特征等。 score Float 置信度，取值范围为[0,1] type Integer 标签类型。可选值如下： 0：图像分类 1：物体检测 3: 图像分割 100：文本分类 101：命名实体 102：文本三元组关系标签 103：文本三元组实体标签 200：语音分类 201：语音内容

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
创建Workflow模型注册节点 - AI开发平台ModelArts

str、Placeholder model_version 模型的版本，格式需为“数值.数值.数值”，其中数值为1-2位正整数。该字段不填时，版本号自动增加。注意：版本不可以出现例如01.01.01等以0开头的版本号形式。否 str、Placeholder runtime 模

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
训练作业失败，返回错误码139 - AI开发平台ModelArts

处理方法如果存在之前能跑通，什么都没修改，过了一阵跑不通的情况，先去排查跑通和跑不通的日志是否存在pip源更新了依赖包，如下图，安装之前跑通的老版本即可。图1 PIP安装对比图推荐您使用本地Pycharm远程连接Notebook调试。如果上述情况都解决不了，请联系技术支持工程师。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
创建Workflow数据集导入节点 - AI开发平台ModelArts

任务中，并通过后续的数据集标注节点进行标注。对于一些已标注好的原始数据，可以直接导入到数据集或者标注任务中，并通过后续的数据集版本发布节点获取带有版本信息的数据集对象。属性总览您可以使用DatasetImportStep来构建数据集导入节点，DatasetImportStep结构如下。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 创建Workflow节点
终止训练作业 - AI开发平台ModelArts

训练作业的数据集ID。 version_id String 训练作业的数据集版本ID。 obs_url String 训练作业需要的数据集OBS路径URL，ModelArts会通过数据集ID和数据集版本ID自动解析生成。如：“/usr/data/”。表21 obs 参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
保存Notebook实例 - AI开发平台ModelArts

实例，单击右侧“操作”列中的“更多 > 保存镜像”，进入“保存镜像”对话框。图1 保存镜像在保存镜像对话框中，设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。在“组织”下拉框中选择一个组织。如果没有组织，可以单击右侧的“立即创建”，创建一个组织。创建组织的详细操作请参见创建组织。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 管理Notebook实例
在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

实例，单击右侧“操作”列中的“更多 > 保存镜像”，进入“保存镜像”对话框。图1 保存镜像在保存镜像对话框中，设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。在“组织”下拉框中选择一个组织。如果没有组织，可以单击右侧的“立即创建”，创建一个组织。创建组织的详细操作请参见创建组织。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于创建Notebook
准备Notebook - AI开发平台ModelArts

sh脚本，会git clone下载Megatron-LM、MindSpeed、ModelLink源码（install.sh中会自动下载配套版本，若手动下载源码还需修改版本）至llm_train/AscendSpeed文件夹中。下载的源码文件结构如下： |——AscendCloud-LLM

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

跳过。确认Docker Engine版本。执行如下命令。 docker version | grep -A 1 Engine 命令回显如下。 Engine: Version: 18.09.0 推荐使用大于等于该版本的Docker Engine来制作自定义镜像。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于训练模型
日志提示"Permission denied" - AI开发平台ModelArts

cannot stat '': No such file or directory 可能原因是用户使用的启动脚本为旧版本的run_train.sh，脚本里面有某些环境变量在新版本下发的作业中并不存在这些环境变量导致。可能原因是使用Python file接口并发读写同一文件。处理方法

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
训练作业进程异常退出 - AI开发平台ModelArts

_size，优化代码，合理聚合、复制数据。请注意，数据文件大小不等于内存占用大小，需仔细评估内存使用情况。退出码139 请排查安装包的版本，可能存在包冲突的问题。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

4*Ascend表示单机4卡，以此类推。表1 NPU卡数、加速框架、梯度配置取值表模型模型参数量训练类型序列长度cutoff_len 梯度累积值优化工具(Deepspeed) 规格与节点数 llama2 7B lora/dpo 4096/8192 gradient_accumulation_steps:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
查询训练作业详情 - AI开发平台ModelArts

训练作业的数据集ID。 version_id String 训练作业的数据集版本ID。 obs_url String 训练作业需要的数据集OBS路径URL，ModelArts会通过数据集ID和数据集版本ID自动解析生成。如：“/usr/data/”。表20 obs 参数参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 训练管理
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

配置后重启推理服务生效。 Matmul_all_reduce融合算子使用Matmul_all_reduce融合算子能提升全量推理性能，该算子对驱动和固件版本要求较高，默认不开启。如需开启，配置以下环境变量。 export USE_MM_ALL_REDUCE_OP=1 关闭Mat

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）

总条数： 1182

上一页
1
...
49
50
51
...
60
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Wav2Lip推理基于Lite Server适配PyTorch NPU推理指导（6.3.907） - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

查询资源池 - AI开发平台ModelArts

查询服务更新日志 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

更新团队标注验收任务状态 - AI开发平台ModelArts

查询单个样本信息 - AI开发平台ModelArts

创建Workflow模型注册节点 - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

创建Workflow数据集导入节点 - AI开发平台ModelArts

终止训练作业 - AI开发平台ModelArts

保存Notebook实例 - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像 - AI开发平台ModelArts

准备Notebook - AI开发平台ModelArts

从0制作自定义镜像用于创建训练作业（MPI+CPU/GPU） - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

模型NPU卡数、梯度累积值取值表 - AI开发平台ModelArts

查询训练作业详情 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线