搜索_华为云

在推理生产环境中部署推理服务 - AI开发平台ModelArts

动多卡推理。默认使用"mp"后端启动多卡推理。推理启动脚本必须名为run_vllm.sh，不可修改其他名称。 hostname和port也必须分别是0.0.0.0和8080不可更改。高阶参数说明： --enable-prefix-caching：如果prompt的公共前缀较长

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.907）
GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

(SP9x86_64) boot_success=0 [root@Server-ddff ~]# 发现和当前内核一致，因此即使reboot也不会更改服务器的内核版本。若希望升级指定的操作系统内核，也可以执行grub2-set-default进行设置默认启动内核版本。但操作系统内核升级可能带来的问题。例如在操作系统内核4

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练作业卡死检测 - AI开发平台ModelArts

训练作业卡死检测什么是训练作业卡死检测训练作业在运行中可能会因为某些未知原因导致作业卡死，如果不能及时发现，就会导致无法及时释放资源，从而造成极大的资源浪费。为了节省训练资源成本，提高使用体验，ModelArts提供了卡死检测功能，能自动识别作业是否卡死，并在日志详情界面上展

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
批量添加样本 - AI开发平台ModelArts

字为深度(深度可以没有，默认为3)，如[100,200,3]和[100,200]均合法。说明：只有当样本的标签列表包含物体检测标签时，此字段必选。响应参数状态码： 200 表11 响应Body参数参数参数类型描述 error_code String 操作失败的错误码。

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
训练作业卡死检测定位 - AI开发平台ModelArts

训练作业卡死检测定位什么是训练作业卡死检测训练作业在运行中可能会因为某些未知原因导致作业卡死，如果不能及时发现，就会导致无法及时释放资源，从而造成极大的资源浪费。为了节省训练资源成本，提高使用体验，ModelArts提供了卡死检测功能，能自动识别作业是否卡死，并在日志详情界面

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业卡死
训练网络迁移总结 - AI开发平台ModelArts

训练网络迁移总结确保算法在GPU训练时，持续稳定可收敛。避免在迁移过程中排查可能的算法问题，并且要有好的对比标杆。如果是NPU上全新开发的网络参考PyTorch迁移精度调优，排查溢出和精度问题。理解GPU和NPU的构造以及运行的差别，有助于在迁移过程中分析问题并发挥NPU的优

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > GPU训练业务迁移至昇腾的通用指导
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” 问题现象训练作业在使用MoXing复制数据时，日志中出现报错“BrokenPipeError: [Errno xx] Broken pipe”。原因分析出现该问题的可能原因如下：在大规模分布

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
查询数据集版本详情 - AI开发平台ModelArts

版本发布的manifest文件保存路径。 message String 发布时记录的任务信息（如：错误信息等）。 modified_sample_count Integer 已修改的样本数量。 previous_annotated_sample_count Integer 父版本的已标注样本数量。 previous_total_sample_count

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
在Notebook中通过镜像保存功能制作自定义镜像用于推理 - AI开发平台ModelArts

'images=@/home/ma-user/work/test.png' -X POST http://127.0.0.1:8080/ 图9 预测在调试过程中，如果有修改模型文件或者推理脚本文件，需要重启run.sh脚本。执行如下命令先停止nginx服务，再运行run.sh脚本。 #查询nginx进程 ps

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 制作自定义镜像用于ModelArts Standard > 制作自定义镜像用于推理
ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

--user-command String 否自定义镜像执行命令。需为/home下的目录。当code-dir以file://为前缀时，当前字段不生效。 --pool-id String 否训练作业选择的资源池ID。可在ModelArts管理控制台，单击左侧“专属资源池”，在专属资源池列表中查看资源池ID。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
AI开发基本流程介绍 - AI开发平台ModelArts

AI开发基本流程介绍什么是AI开发 AI（人工智能）是通过机器来模拟人类认识能力的一种科技能力。AI最核心的能力就是根据给定的输入做出判断或预测。 AI开发的目的是什么 AI开发的目的是将隐藏在一大批数据背后的信息集中处理并进行提炼，从而总结得到研究对象的内在规律。对数据进行

 帮助中心 > AI开发平台ModelArts > 产品介绍 > AI开发基础知识
查看监控指标 - AI开发平台ModelArts

查看监控指标操作场景云服务平台提供的云监控，可以对ModelArts在线服务和模型负载运行状态进行日常监控。您可以通过管理控制台，直观地查看ModelArts在线服务和模型负载的各项监控指标。由于监控数据的获取与传输会花费一定时间，因此，云监控显示的是当前时间5～10分钟前的

 帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 云监控平台ModelArts监控
自动学习简介 - AI开发平台ModelArts

自动学习简介自动学习功能介绍 ModelArts自动学习是帮助人们实现AI应用的低门槛、高灵活、零代码的定制化模型开发工具。自动学习功能根据标注数据自动设计模型、自动调参、自动训练、自动压缩和部署模型。开发者无需专业的开发基础和编码能力，只需上传数据，通过自动学习界面引导和简单操作即可完成模型训练和部署。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发
最新动态 - AI开发平台ModelArts
最新动态 - AI开发平台ModelArts

最新动态本文介绍了ModelArts各特性版本的功能发布和对应的文档动态，新特性将在各个区域（Region）陆续发布，欢迎体验。 2023年8月序号功能名称功能描述阶段相关文档 1 Notebook连接大数据服务特性介绍如何将ModelArts Notebook开发

 帮助中心 > AI开发平台ModelArts > 最新动态
依赖和委托 - AI开发平台ModelArts

依赖和委托功能依赖功能依赖策略项您在使用ModelArts的过程中，需要和其他云服务交互，比如需要在提交训练作业时选择指定数据集OBS路径和日志存储OBS路径。因此管理员在为用户配置细粒度授权策略时，需要同时配置依赖的权限项，用户才能使用完整的功能。如果您使用根用户（与账

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 权限控制方式
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

训练代码以下代码中以“### 分布式改造，... ###”注释的代码即为多节点分布式训练需要适配的代码改造点。不对示例代码进行任何修改，适配数据路径后即可在ModelArts上完成多节点分布式训练。注释掉分布式代码改造点，即可完成单节点单卡训练。完整代码见分布式训练完整代码示例。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
ModelArts权限管理基本概念 - AI开发平台ModelArts

rts，管理员需要在IAM上为子账号配置Deny策略来禁止子账号使用ModelArts的某些功能。账号的管理员用户可以在“权限管理”页面修改授权模式。如无特殊情况，建议优先使用严格授权模式。在严格授权模式下，子账号要使用ModelArts的功能都需经过授权，可以更精确的控制子

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理
查询数据集的版本列表 - AI开发平台ModelArts

版本发布的manifest文件保存路径。 message String 发布时记录的任务信息（如：错误信息等）。 modified_sample_count Integer 已修改的样本数量。 previous_annotated_sample_count Integer 父版本的已标注样本数量。 previous_total_sample_count

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
查看训练作业日志 - AI开发平台ModelArts

参数设置的OBS目录中。在作业详情页可以获取“作业日志路径”，单击OBS地址可以直接跳转到OBS控制台查看日志。图3 日志存放路径您可以通过ma-pre-start脚本修改默认环境变量配置。 ASCEND_GLOBAL_LOG_LEVEL=3 # 设置日志级别 debug级别为0;info级别为1

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
开启训练故障自动重启功能 - AI开发平台ModelArts

开启训练故障自动重启功能创建训练作业时，可开启自动重启功能。当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。图1 开启故障重启断点续训练是通过checkpoint机制实现。c

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906）

总条数： 800

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在推理生产环境中部署推理服务 - AI开发平台ModelArts

GPU裸金属服务器使用EulerOS内核误升级如何解决 - AI开发平台ModelArts

训练作业卡死检测 - AI开发平台ModelArts

批量添加样本 - AI开发平台ModelArts

训练作业卡死检测定位 - AI开发平台ModelArts

训练网络迁移总结 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

查询数据集版本详情 - AI开发平台ModelArts

在Notebook中通过镜像保存功能制作自定义镜像用于推理 - AI开发平台ModelArts

ma-cli ma-job训练作业支持的命令 - AI开发平台ModelArts

AI开发基本流程介绍 - AI开发平台ModelArts

查看监控指标 - AI开发平台ModelArts

自动学习简介 - AI开发平台ModelArts

最新动态 - AI开发平台ModelArts

依赖和委托 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

ModelArts权限管理基本概念 - AI开发平台ModelArts

查询数据集的版本列表 - AI开发平台ModelArts

查看训练作业日志 - AI开发平台ModelArts

开启训练故障自动重启功能 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线