搜索_华为云

重建、停止或删除训练作业 - AI开发平台ModelArts

在“训练作业”页面，删除运行结束的训练作业。您可以单击“操作”列的“删除”，在弹出的提示框中单击“确认”，删除对应的训练作业。进入OBS，删除本训练作业使用的OBS桶及文件。查找训练作业当用户使用IAM账号登录时，训练作业列表会显示IAM账号下所有训练作业。ModelArts提供查找训练作业功能帮助用户快速查找训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
InternVL2基于DevServer适配PyTorch NPU训练指导（6.3.910) - AI开发平台ModelArts

InternVL2基于DevServer适配PyTorch NPU训练指导（6.3.910) 方案概览本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展InternVL2-8B, InternVL2-26B和Intern

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
在MaaS中创建模型 - AI开发平台ModelArts

一致），需要修改权重配置才能正常运行模型，操作步骤请参见修改权重配置。前提条件已准备好用于生成专属模型的模型权重文件，并存放于OBS桶中，OBS桶必须和MaaS服务在同一个Region下。修改权重配置当选择ChatGLM3-6B、GLM-4-9B、Qwen-7B、Qwen

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
设置断点续训练 - AI开发平台ModelArts

首次训练的epoch初始值，mindspore1.3及以后版本会支持定义epoch_size初始值 # cur_epoch_num = 0 # 判断输出obs路径中是否有模型文件。如果无文件则默认从头训练，如果有模型文件，则加载epoch值最大的ckpt文件当做预训练模型。 if os.listdir(train_url):

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。只支持针对整节点资源复位，请确保部署的在线服务为8*N卡规格，请谨慎评估对部署在该节点的其他服务的影响。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

后部署服务。了解镜像健康接口配置请参考模型配置文件编写说明中health参数说明。模型健康检查配置问题，需重新创建模型或者创建模型新版本，配置正确的健康检查，使用新的模型或版本重新部署服务。了解模型健康检查请参考制作模型镜像并导入中的“健康检查”参数说明。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
准备镜像环境 - AI开发平台ModelArts

# data内容保持不动，初始化完成，会被volcano插件自动修改 jobstart_hccl.json: | { "status":"initializing" } --- apiVersion:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.910） > 准备工作
准备镜像环境 - AI开发平台ModelArts

# data内容保持不动，初始化完成，会被volcano插件自动修改 jobstart_hccl.json: | { "status":"initializing" } --- apiVersion:

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 准备工作
修改训练作业优先级 - AI开发平台ModelArts

“策略配置方式”：选择可视化视图。 “策略内容”：允许，云服务中搜索ModelArts服务并选中，操作列中搜索关键词“modelarts:trainJob:setHighPriority”并选中，所有资源选择默认值。在统一身份认证服务页面的左侧导航选择“用户组”，在用户组页面查找待授权

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
在JupyterLab中创建定时任务 - AI开发平台ModelArts

操作步骤打开ModelArts Notebook。选中Notebook文件（ipynb文件），创建定时任务。图1 打开Notebook Jobs 在Create Job界面，填写参数后单击“create”。图2 创建定时任务参数填写 Job name：定时任务名称。 Enviro

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
导入AI应用对于镜像大小的限制 - AI开发平台ModelArts

引擎空间的默认为50G，专属资源池容器引擎空间可在创建资源池时自定义设置，设置专属资源池容器引擎空间不会造成额外费用增加。如果使用的是OBS导入或者训练导入，则包含基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和。如果使用的是自定义镜像导入，则包含解压后镜像和镜像下载文件的大小总和。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署 > 模型管理 > 导入模型
云上迁移适配故障 - AI开发平台ModelArts

MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” 使用moxing适配OBS路径，pandas读取文件报错日志提示“Please upgrade numpy to >= xxx to use this pandas

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业
导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

处理方法公共资源池容器Docker size的大小最大支持50G，专属资源池Docker size的大小最大支持50G。如果使用的是OBS导入或者训练导入，则包含基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和。如果使用的是自定义镜像导入，则包含解压后镜像和镜像下载文件的大小总和。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 模型管理
AI Gallery支持哪些区域？ - AI开发平台ModelArts

、华北-北京四、华东-上一、华南-广州（以界面上实际支持的区域为准）。下载数据集。在AI Gallery中下载数据集时，不管是下载至OBS还是下载至数据集，均需设置对应的使用区域。支持的区域与ModelArts相同，包含华北-北京一、华北-北京四、华东-上一、华南-广州（以界面上实际支持的区域为准）。

帮助中心 > AI开发平台ModelArts > 常见问题 > AI Gallery
如何将两个数据集合并？ - AI开发平台ModelArts

发布后可获得数据集A和数据集B的Manifest文件。可通过数据集的“数据集输出位置”获得此文件。创建一个空数据集C，即无任何输出，其输入位置选择一个空的OBS文件夹。在数据集C中，执行导入数据操作，将数据集A和数据集B的Manifest文件导入。导入完成后，即将数据集A和数据集B的数据分别都

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

local path and OBS ma-cli image build .ma/customize_from_ubuntu_18.04_to_modelarts/Dockerfile --target ./build.tar --obs_path obs://bucket/object

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > ModelArts CLI命令参考
分布式训练功能介绍 - AI开发平台ModelArts

AI框架，如果MindSpore要进行多机分布式训练调试，则每台机器上都必须有8张卡。本文档提供的调测代码中涉及到的OBS路径，请用户替换为自己的实际OBS路径。本文档提供的调测代码是以PyTorch为例编写的，不同的AI框架之间，整体流程是完全相同的，只需要修改个别的参数即可。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
查询Notebook实例详情 - AI开发平台ModelArts

service_type String 镜像支持服务类型。枚举值如下： COMMON：通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 size Long 镜像大小（单位KB）。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
启动Notebook实例 - AI开发平台ModelArts

service_type String 镜像支持服务类型。枚举值如下： COMMON：通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 size Long 镜像大小（单位KB）。

帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理

总条数： 1185

上一页
1
...
42
43
44
...
60
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

重建、停止或删除训练作业 - AI开发平台ModelArts

InternVL2基于DevServer适配PyTorch NPU训练指导（6.3.910) - AI开发平台ModelArts

在MaaS中创建模型 - AI开发平台ModelArts

设置断点续训练 - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

准备镜像环境 - AI开发平台ModelArts

修改训练作业优先级 - AI开发平台ModelArts

在JupyterLab中创建定时任务 - AI开发平台ModelArts

导入AI应用对于镜像大小的限制 - AI开发平台ModelArts

云上迁移适配故障 - AI开发平台ModelArts

导入模型后部署服务，提示磁盘不足 - AI开发平台ModelArts

AI Gallery支持哪些区域？ - AI开发平台ModelArts

如何将两个数据集合并？ - AI开发平台ModelArts

ma-cli image镜像构建支持的命令 - AI开发平台ModelArts

分布式训练功能介绍 - AI开发平台ModelArts

查询Notebook实例详情 - AI开发平台ModelArts

启动Notebook实例 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线