搜索_华为云

训练作业卡死检测 - AI开发平台ModelArts

常见案例：训练最后一个epoch卡死问题现象通过日志查看数据切分是否对齐，如果未对齐，容易导致部分进程完成训练退出，而部分训练进程因未收到其他进程反馈卡死，如下图同一时间有的进程在epoch48，而有的进程在epoch49。 loss exit lane:0.12314446270465851

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
执行训练任务（历史版本） - AI开发平台ModelArts

错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图4 选择资源池规格作业日

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
执行训练任务（推荐） - AI开发平台ModelArts

错检查无条件自动重启，不管什么原因系统都会自动重启训练作业，提高训练成功率和提升作业的稳定性。详细可了解：无条件自动重启。 Step5 其他配置选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出现内存溢出的情况，用户可参考表1进行配置。图4 选择资源池规格作业日

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 执行训练任务
使用SDK调测单机训练作业 - AI开发平台ModelArts

join(base_bucket_path, 'output/')) local_path：必选参数，一个notebook中的路径，训练脚本需要将输出的模型或其他数据保存在该目录下。 obs_path：必选参数，一个OBS目录。SDK会将local_path中的模型文件自动上传到这里。查看训练支持的AI框架。

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业 > 训练作业调测
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

USE_PFA_HIGH_PRECISION_MODE=1 # PFA算子是否使用高精度模式；默认值为0表示不开启。针对Qwen2-7B模型，必须开启此配置，否则精度会异常；其他模型不建议开启，因为性能会有损失。如果需要增加模型量化功能，启动推理服务前，先参考推理模型量化章节对模型做量化处理。启动服务与请求。此

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
Yaml配置文件参数配置说明 - AI开发平台ModelArts

e列 max_samples 50000 用于指定训练过程中使用的最大样本数量。如果设置了这个参数，训练过程将只使用指定数量的样本，而忽略其他样本。这可以用于控制训练过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrit

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 训练脚本说明
Yaml配置文件参数配置说明 - AI开发平台ModelArts

e列 max_samples 50000 用于指定训练过程中使用的最大样本数量。如果设置了这个参数，训练过程将只使用指定数量的样本，而忽略其他样本。这可以用于控制训练过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrit

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911） > 训练脚本说明
多模态 - AI开发平台ModelArts
多模态 - AI开发平台ModelArts

此外，多模态还可以细分为以下几个方面：多模态理解：如何让计算机从不同种类的数据源中抽取有用的信息，并将其综合起来形成有意义的知识。视觉大模型：这类模型专门针对图像和其他视觉数据设计，帮助计算机更好地理解和解释视觉世界。多模态检索：这是指利用多种数据模态(如文本、图像、视频、音频等)进行信息检索的技术，旨

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配Ascend-vLLM PyTorch NPU推理指导（6.3.912） > 推理关键特性使用
Yaml配置文件参数配置说明 - AI开发平台ModelArts

e列 max_samples 50000 用于指定训练过程中使用的最大样本数量。如果设置了这个参数，训练过程将只使用指定数量的样本，而忽略其他样本。这可以用于控制训练过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrit

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910） > 训练脚本说明
通过Token认证的方式访问在线服务 - AI开发平台ModelArts

方式一：使用图形界面的软件进行预测（以Postman为例）下载Postman软件并安装，您也可以直接在Chrome浏览器添加Postman扩展程序（也可使用其他支持发送post请求的软件）。Postman推荐使用7.24.0版本。打开Postman，如图2所示。图2 Postman界面在Po

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的认证方式
Yaml配置文件参数配置说明 - AI开发平台ModelArts

e列 max_samples 50000 用于指定训练过程中使用的最大样本数量。如果设置了这个参数，训练过程将只使用指定数量的样本，而忽略其他样本。这可以用于控制训练过程的规模和计算需求 overwrite_cache true 用于指定是否覆盖缓存。如果设置为"overwrit

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912） > 训练脚本说明
创建AI应用 - AI开发平台ModelArts

source_type 否 String 模型来源的类型，当前仅可取值“auto”，用于区分通过自动学习部署过来的模型(不提供模型下载功能)；用户通过训练作业和其他方式部署的模型不设置此值。默认值为空。非模板参数 dependencies 否 Array of ModelDependencies objects

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

程中的技术细节，并制定了统一合理的规范。使用者可以便捷地使用、下载模型。同时支持用户上传自己的预训练模型到在线模型资产仓库中，并发布上架给其他用户使用。AI Gallery在原有Transformers库的基础上，融入了对于昇腾硬件的适配与支持。对AI有使用诉求的企业、NLP领域

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型 > 构建模型
部署推理服务 - AI开发平台ModelArts

tention）是否使用高精度模式；默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型，必须开启此配置，否则精度会异常；其他模型不建议开启，会影响首token时延增加5%~10%。 export USE_IFA_HIGH_PRECISION_MODE=1 #

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910）
在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

tention）是否使用高精度模式；默认值为1表示开启。针对Qwen2-7B模型和Qwen2-57b模型，必须开启此配置，否则精度会异常；其他模型不建议开启，会影响首token时延增加5%~10%。 export USE_IFA_HIGH_PRECISION_MODE=1 #

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

ADD run.sh /home/mind/ CMD /bin/bash /home/mind/run.sh 完成镜像构建后，将镜像注册至华为云容器镜像服务SWR中，用于后续在ModelArts上部署推理服务。使用适配后的镜像在ModelArts部署在线推理服务。在obs中创

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
更新服务配置 - AI开发平台ModelArts

例只能调度到指定节点，指定节点不存在则失败。preferred表示弱亲和，服务实例倾向于调度到指定节点，指定节点不满足调度条件，则会调度到其他节点。 pool_infos 否 Array of AffinityPoolInfo objects 配置亲和策略到指定的集群，并指定集群的节点。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
将模型部署为批量推理服务 - AI开发平台ModelArts

访问OBS服务的对象获取路径。<obs path>可以为“obs://”或“s3://”。 OBS生成的分享链接，包含签名信息。适用于访问其他人的OBS数据。分享链接有效时间限制，请在有效时间内操作。输出manifest文件样例批量服务的输出结果目录会有一个manifest文件。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
查询服务详情 - AI开发平台ModelArts

例只能调度到指定节点，指定节点不存在则失败。preferred表示弱亲和，服务实例倾向于调度到指定节点，指定节点不满足调度条件，则会调度到其他节点。 pool_infos Array of AffinityPoolInfo objects 配置亲和策略到指定的集群，并指定集群的节点。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
创建ModelArts数据集 - AI开发平台ModelArts

自由格式：管理的数据可以为任意格式，目前不支持标注，适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据，或者您的数据格式不符合其他类型数据集时，可选择自由格式的数据集。表格表格：适合表格等结构化数据处理。数据格式支持csv。不支持标注，支持对部分表格数据进行预览，但是最多支持100条数据预览。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理

总条数： 1188

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练作业卡死检测 - AI开发平台ModelArts

执行训练任务（历史版本） - AI开发平台ModelArts

执行训练任务（推荐） - AI开发平台ModelArts

使用SDK调测单机训练作业 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

多模态 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

通过Token认证的方式访问在线服务 - AI开发平台ModelArts

Yaml配置文件参数配置说明 - AI开发平台ModelArts

创建AI应用 - AI开发平台ModelArts

使用AI Gallery SDK构建自定义模型 - AI开发平台ModelArts

部署推理服务 - AI开发平台ModelArts

在Notebook调试环境中部署推理服务 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

更新服务配置 - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

创建ModelArts数据集 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线