搜索_华为云

产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

节点模式，客户可采用开源或自研框架，自行构建集群，更强的掌控力和灵活性。零改造迁移提供业界通用的k8s接口使用资源，业务跨云迁移无压力。 SSH直达节点和容器，一致体验。

帮助中心 > AI开发平台ModelArts > 产品介绍
复制数据至容器中空间不足 - AI开发平台ModelArts

处理方法请排查是否将数据下载至“/cache”目录下，GPU规格资源的每个节点会有一个“/cache”目录，空间大小为4TB。并确认该目录下并发创建的文件数量是否过大，占用过多存储空间会出现inode耗尽的情况，导致空间不足。请排查是否使用的是GPU资源。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
使用AWQ量化 - AI开发平台ModelArts

${node-path}：节点自定义目录，该目录下包含pod配置文件config.yaml。 ${model-path}：Step1 上传权重文件中上传的模型权重路径。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
训练作业容错检查 - AI开发平台ModelArts

图4 业务失败&硬件正常隔离故障节点后，系统会在新的计算节点上重新创建训练作业。如果资源池规格紧张，重新下发的训练作业会以第一优先级进行排队。如果排队时间超过30分钟，训练作业会自动退出。该现象表明资源池规格任务紧张，训练作业无法正常启动，推荐您购买专属资源池补充计算节点。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
查看Standard专属资源池详情 - AI开发平台ModelArts

图3 单个节点操作在节点的搜索栏，支持通过节点的名称、节点状态、高可用冗余、批次、驱动版本、驱动状态、IP地址、资源标签等关键字搜索节点。支持导出Standard资源池的节点信息到Excel表格中，方便查阅。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
（可选）配置驱动 - AI开发平台ModelArts

（可选）配置驱动当专属资源池中的节点含有GPU/Ascend资源时，为确保GPU/Ascend资源能够正常使用，需要配置好对应的驱动。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
在ModelArts控制台查看监控指标 - AI开发平台ModelArts

在各模块资源监控页签查看ModelArts监控指标训练作业：用户在运行训练作业时，可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控
obsutil安装和配置 - AI开发平台ModelArts

操作命令中的AK/SK要替换为用户实际获取的AK/SK，Endpoint可以参考终端节点（Endpoint）和访问域名获取。父主题：基本配置

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置
使用基础镜像 - AI开发平台ModelArts

/scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.908） > 准备工作 > 准备镜像
LoRA微调训练 - AI开发平台ModelArts

当环境问题导致训练作业异常时，系统将自动修复异常或隔离节点，并重启训练作业，提高训练成功率。图4 开启故障重启 Step4 其他配置选择用户自己的专属资源池，以及规格与节点数。本次qwenvl模型选用 8* ascend-snt9b。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912）
手动续费 - AI开发平台ModelArts
手动续费 - AI开发平台ModelArts

在ModelArts控制台续费包年/包月的Standard专属资源池、弹性集群Lite Cluster资源池和弹性节点Server资源池在购买成功后支持手动续费操作。

帮助中心 > AI开发平台ModelArts > 计费说明 > 续费
使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

原因分析及处理办法日志打印如下内容，表示自定义镜像的CPU架构与资源池节点的CPU架构不一致。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
部署声音分类服务 - AI开发平台ModelArts

计算节点规格：请根据界面显示的列表，选择可用的规格，置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据，表示当前环境无公共资源。建议使用专属资源池，或者联系系统管理员创建公共资源池。计算节点个数：默认为1，输入值必须是1-5之间的整数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
训练声音分类模型 - AI开发平台ModelArts

在新版自动学习页面，单击项目名称进入运行总览页面，单击数据标注节点的“实例详情”进入数据标注页面，完成数据标注。返回新版自动学习页面，单击数据标注节点的“继续运行”，然后等待工作流按顺序进入训练节点。模型将会自动进入训练，无需人工介入，训练时间相对较长，建议您耐心等待。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
训练文本分类模型 - AI开发平台ModelArts

操作步骤在新版自动学习页面，单击项目名称进入运行总览，单击“数据标注”节点的“实例详情”进入“数据标注”页面，完成数据标注。图1 完成数据标注返回新版自动学习页面，单击数据标注节点的“继续运行”，然后等待工作流按顺序进入训练节点。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
（可选）配置镜像预热 - AI开发平台ModelArts

（可选）配置镜像预热 Lite Cluster资源池支持镜像预热功能，镜像预热可实现将镜像提前在资源池节点上拉取好，在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查找Workflow工作流 - AI开发平台ModelArts

在工作流列表上方的搜索框中，根据您需要的属性类型，例如名称、状态、当前节点、启动时间、运行时长或标签等，过滤出相应的工作流。图1 属性类型单击搜索框右侧的按钮，可设置Workflow列表页需要展示的内容和展示效果。表格内容折行：默认为关闭状态。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
使用基础镜像 - AI开发平台ModelArts

/scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
内存不足如何处理？ - AI开发平台ModelArts

处理方法在部署或升级在线服务时，选择更大内存规格的计算节点。图3 选择计算节点规格运行中服务出现告警时，需要分析是您的代码是否出现漏洞导致内存溢出、是否因为业务使用量太大需要更多的内存。如果因业务原因需要更多内存，请升级在线服务选择更大内存规格的计算节点。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署

总条数： 902

上一页
1
...
9
10
11
...
46
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

产品优势 - AI开发平台ModelArts

复制数据至容器中空间不足 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

查看Standard专属资源池详情 - AI开发平台ModelArts

（可选）配置驱动 - AI开发平台ModelArts

在ModelArts控制台查看监控指标 - AI开发平台ModelArts

obsutil安装和配置 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

手动续费 - AI开发平台ModelArts

使用自定义镜像创建的训练作业一直处于运行中 - AI开发平台ModelArts

部署声音分类服务 - AI开发平台ModelArts

训练声音分类模型 - AI开发平台ModelArts

训练文本分类模型 - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

查找Workflow工作流 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线