搜索_华为云

上传镜像 - AI开发平台ModelArts
上传镜像 - AI开发平台ModelArts

使用客户端上传镜像，镜像的每个layer大小不能大于10G。上传镜像的容器引擎客户端版本必须为1.11.2及以上。操作步骤连接容器镜像服务。登录容器镜像服务控制台。单击右上角“创建组织”，输入组织名称完成组织创建。请自定义组织名称，本示例使用“deep-learning”，下面的命

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未达到50GB，只有默认的10GB，导致作业训练失败。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
ma-cli auto-completion自动补全命令 - AI开发平台ModelArts

ma-cli自动补全功能需要手动在Terminal中激活。执行ma-cli auto-completion命令，用户根据提示的补全命令，复制并在当前Terminal中执行，就可以自动补全ma-cli的命令。目前支持Bash、Fish及Zsh三种Shell，默认是Bash。以B

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
手动部署推理服务 - AI开发平台ModelArts

json文件中的服务化参数。config.json文件修改要求和样例参考附录：config.json文件。 cd /usr/local/Ascend/mindie/latest/mindie-service/ vim conf/config.json 启动推理服务。 # 拉起服务化 cd

帮助中心 > AI开发平台ModelArts > 最佳实践 > DeepSeek系列模型推理 > DeepSeek模型基于ModelArts Lite Server适配MindIE推理部署指导 > 部署推理服务
日志提示“No space left on device” - AI开发平台ModelArts

日志提示“No space left on device” 问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下。磁盘空间不足。分布式作业时，有些节点的docker base size配置未生效，容器内“/”根目录空间未

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
查询AI应用列表 - AI开发平台ModelArts

String 镜像复制开关，仅当“model_type”为“Image”时有效。 true：表示复制镜像模式，无法极速创建AI应用，SWR源目录中的镜像更改或删除不影响服务部署。 false：表示不复制镜像模式，可极速创建AI应用，更改或删除SWR源目录中的镜像会影响服务部署。不设置值时，默认为复制镜像模式。

帮助中心 > AI开发平台ModelArts > API参考 > AI应用管理
Standard支持的AI框架 - AI开发平台ModelArts

ModelArts提供了ARM+Ascend规格的统一镜像，包括MindSpore、PyTorch。适用于Standard开发环境，模型训练，服务部署，请参考下表。镜像的URL、包含的依赖项等详细信息请参考ModelArts统一镜像列表。表1 MindSpore 预置镜像适配芯片

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 功能介绍 > Standard功能介绍
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

Step3 创建镜像组织在SWR服务页面创建镜像组织。图2 创建镜像组织 Step4 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图3 复制登录指令 Step5 获取训练镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905） > 准备工作
常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。问题现象训练过程中复制数据/代码/模型时出现如下报错：图1 错误日志原因分析出现该问题的可能原因如下：本地数据、文件保存将"/cache"目录空间用完。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

Schedulers都完全遵循了“single-file policy”原则。该设计原则更推荐直接复制粘贴代码，而不是进行抽象处理。因此，与模型前向运算相关的所有源代码都被直接复制粘贴到同一个文件中，而不是调用某些抽象提取出的模块化库。Diffusers的这种设计原则的好处是代码

 帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > 基于AIGC模型的GPU推理业务迁移至昇腾指导
准备镜像 - AI开发平台ModelArts
准备镜像 - AI开发平台ModelArts

Step3 创建镜像组织在SWR服务页面创建镜像组织。图2 创建镜像组织 Step4 在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图3 复制登录指令 Step5 获取训练镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

卡数据并行训练。 MindSpore引擎的分布式训练参见MindSpore官网。训练流程简述单机多卡数据并行训练流程介绍如下：将模型复制到多个GPU上将一个Batch的数据均分到每一个GPU上各GPU上的模型进行前向传播，得到输出主GPU（逻辑序号为0）收集各GPU的输出，汇总后计算损失

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
计费概述 - AI开发平台ModelArts
计费概述 - AI开发平台ModelArts

作业、在线/批量/边缘服务 ModelArts Studio（MAAS）运行日志（不开启则不计费）由云日志服务（LTS）提供日志收集、分析、存储等服务。部署服务时，开启“运行日志输出”后，日志数据超出LTS免费额度后，会产生费用。具体可参考云日志服务价格详情按实际日志量付费

 帮助中心 > AI开发平台ModelArts > 计费说明
批量添加样本 - AI开发平台ModelArts

数据源所在路径。 data_type 否 Integer 数据类型。可选值如下： 0：OBS桶（默认值） 1：GaussDB(DWS)服务 2：DLI服务 3：RDS服务 4：MRS服务 5：AI Gallery 6：推理服务 schema_maps 否 Array of SchemaMap objects

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
ECS中构建新镜像（可选） - AI开发平台ModelArts

在ECS中Docker登录在SWR中单击右上角的“登录指令”，然后在跳出的登录指定窗口，单击复制临时登录指令。在创建的ECS中粘贴临时登录指令，即可完成登录。图1 复制登录指令 Step3 修改并上传镜像 1. 在ECS服务器中输入登录指令后，使用下列示例命令将Standard镜像上传至SWR： docker

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作 > 准备镜像
各个模型训练前文件替换 - AI开发平台ModelArts

er文件，需要替换代码。替换文件{work_dir}/tokenizers/falcon-11B/config.json，具体步骤如下：复制代码包目录下config.json至falcon-11B的tokenizer目录下，样例命令：进入到代码目录下{work_dir}/ll

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.907） > 训练脚本说明
各个模型训练前文件替换 - AI开发平台ModelArts

er文件，需要替换代码。替换文件{work_dir}/tokenizers/falcon-11B/config.json，具体步骤如下：复制代码包目录下config.json至falcon-11B的tokenizer目录下，样例命令：进入到代码目录下{work_dir}/ll

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.908） > 训练脚本说明
训练作业进程异常退出 - AI开发平台ModelArts

错误码还包括247、139等。退出码137或者247 可能是内存溢出造成的。请减少数据量、减少batch_size，优化代码，合理聚合、复制数据。请注意，数据文件大小不等于内存占用大小，需仔细评估内存使用情况。退出码139 请排查安装包的版本，可能存在包冲突的问题。排查办法

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决问题现象在华为云使用GPU裸金属服务器时，服务器绑定EIP（华为云弹性IP服务）后，出现无法ping通弹性公网IP现象。原因分析查看当前GPU裸金属服务器的安全组的入方向规则的配置，发现仅开通了TCP协议的22端口。 ping命令

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
删除服务 - AI开发平台ModelArts
删除服务 - AI开发平台ModelArts

无请求示例如下删除服务ID为xxxxxx的模型服务为例。 DELETE https://endpoint/v1/{project_id}/services/xxxxxx 响应示例状态码：200 删除服务成功 { } 状态码状态码描述 200 删除服务成功错误码请参见错误码。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理

总条数： 1988

上一页
1
...
48
49
50
...
100
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

上传镜像 - AI开发平台ModelArts

下载或读取文件报错，提示超时、无剩余空间 - AI开发平台ModelArts

ma-cli auto-completion自动补全命令 - AI开发平台ModelArts

手动部署推理服务 - AI开发平台ModelArts

日志提示“No space left on device” - AI开发平台ModelArts

查询AI应用列表 - AI开发平台ModelArts

Standard支持的AI框架 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

常见的磁盘空间不足的问题和解决办法 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

准备镜像 - AI开发平台ModelArts

创建单机多卡的分布式训练（DataParallel） - AI开发平台ModelArts

计费概述 - AI开发平台ModelArts

批量添加样本 - AI开发平台ModelArts

ECS中构建新镜像（可选） - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

各个模型训练前文件替换 - AI开发平台ModelArts

训练作业进程异常退出 - AI开发平台ModelArts

GPU裸金属服务器无法Ping通如何解决 - AI开发平台ModelArts

删除服务 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线