搜索_华为云

Lite Cluster资源配置流程 - AI开发平台ModelArts

为例，填入弹性公网IP，登录节点。图9 登录节点方式2：通过华为云自带的远程登录功能使用华为云账号登录CCE管理控制台。在CCE集群详情页面，单击“节点管理”页签，在“节点”页签中单击需要登录的节点名称，跳转至弹性云服务器页面。图10 节点管理单击“远程登录”，在弹出

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
扩缩容Lite Cluster资源池 - AI开发平台ModelArts

按需的节点。若用户不指定该参数，创建的节点计费模式和资源池保持一致。新增节点池若您需要更多的节点池，您可以通过以下操作创建新的节点池。方式一：在资源池详情页，单击“节点池管理”页签，单击创建节点池。方式二：在资源池列表页，单击某个资源池操作列下的“更多 > 新增节点池”，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
产品优势 - AI开发平台ModelArts
产品优势 - AI开发平台ModelArts

析与诊断容错能力强，故障恢复快提供机柜、节点、加速卡、任务多场景故障感知和检测提供节点级、作业级、容器级，多级故障恢复，保障千卡作业稳定训练多种资源形态集群模式，开箱即提供好Kubernetes集群，直接使用，方便高效节点模式，客户可采用开源或自研框架，自行构建集群，更强的掌控力和灵活性

 帮助中心 > AI开发平台ModelArts > 产品介绍
训练作业容错检查 - AI开发平台ModelArts

隔离所有故障节点并重新下发训练作业。图1 预检失败&硬件故障场景二：环境预检测失败、硬件无故障，系统随机再分配节点并重新下发训练作业。图2 预检失败&硬件正常场景三：环境预检测成功并进入用户业务阶段，硬件检测出现故障并且用户业务非正常退出，系统隔离所有故障节点并重新下发训练作业。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 模型训练高可靠性
配置Lite Cluster存储 - AI开发平台ModelArts

需要访问宿主机上Docker引擎内部数据结构的容器工作负载。节点存储。多个容器可能会共享这一个存储，会存在写冲突的问题。 Pod删除后，存储不会清理。使用主机路径 OBS 适用于训练数据集的存储。对象存储。常用OBS SDK进行样本数据下载。存储量大，但是离节点比较远，直接训练速度会比较慢，通常会先

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
内存不足如何处理？ - AI开发平台ModelArts

部署或升级时出现该提示，可能原因是选择的计算节点规格内存太小，无法满足应用部署，请增大内存规格。运行中服务告警中出现该提示，可能代码有问题导致内存溢出或者业务使用量太大导致内存需求增多。处理方法在部署或升级在线服务时，选择更大内存规格的计算节点。图3 选择计算节点规格运行中服务出现告警时

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
部署后的AI应用是如何收费的？ - AI开发平台ModelArts

ModelArts支持将AI应用按照业务需求部署为服务。训练类型不同，部署后的计费方式不同。将AI应用部署为服务时，根据数据集大小评估模型的计算节点个数，根据实际编码情况选择计算模式。具体计费方式请参见ModelArts产品价格详情。部署AI应用可选择按需计费，也可根据业务类型和需求购买套餐包。

帮助中心 > AI开发平台ModelArts > 计费说明 > 计费FAQ
（可选）配置镜像预热 - AI开发平台ModelArts

（可选）配置镜像预热 Lite Cluster资源池支持镜像预热功能，镜像预热可实现将镜像提前在资源池节点上拉取好，在推理及大规模分布式训练时有效缩短镜像拉取时间。本文将介绍如何配置镜像预热功能。操作步骤单击资源池名称，进入资源池详情。单击左侧“配置管理”。图1 配置管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案问题现象创建出3台GPU裸金属服务器，使用A节点制作镜像，用于在CCE纳管裸金属服务器时，使用该镜像，但是纳管后发现服务器A纳管失败，剩下两台服务器纳管成功。原因分析在CCE纳管过程中，需要通过cloudinit

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
查找Workflow工作流 - AI开发平台ModelArts

选择“开发空间>Workflow”，进入Workflow总览页面。在工作流列表上方的搜索框中，根据您需要的属性类型，例如名称、状态、当前节点、启动时间、运行时长或标签等，过滤出相应的工作流。图1 属性类型单击搜索框右侧的按钮，可设置Workflow列表页需要展示的内容和展示效果。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
NPU日志收集上传 - AI开发平台ModelArts

NPU日志收集上传场景描述当NPU出现故障，您可通过本方案收集NPU的日志信息。本方案中生成的日志会保存在节点上，并自动上传至华为云技术支持提供的OBS桶中，日志仅用于问题定位分析，因此需要您提供AK/SK给华为云技术技术，用于授权认证。操作步骤获取AK/SK。该AK/SK用于后续脚本配置，做认证授权。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理
（可选）配置驱动 - AI开发平台ModelArts

（可选）配置驱动当专属资源池中的节点含有GPU/Ascend资源时，为确保GPU/Ascend资源能够正常使用，需要配置好对应的驱动。 Cluster支持两种配置驱动的方式：方式一：购买资源池时通过自定义驱动参数进行配置方式二：通过驱动升级功能对已有的资源池驱动版本进行升级

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源配置
部署声音分类服务 - AI开发平台ModelArts

分流：默认为100，输入值必须是0-100之间。计算节点规格：请根据界面显示的列表，选择可用的规格，置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据，表示当前环境无公共资源。建议使用专属资源池，或者联系系统管理员创建公共资源池。计算节点个数：默认为1，输入值必须是1-5之间的整数。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
部署后的AI应用是如何收费的？ - AI开发平台ModelArts

ModelArts支持将AI应用按照业务需求部署为服务。训练类型不同，部署后的计费方式不同。将AI应用部署为服务时，根据数据集大小评估模型的计算节点个数，根据实际编码情况选择计算模式。具体计费方式请参见ModelArts产品价格详情。部署AI应用可选择按需计费，也可根据业务类型和需求购买套餐包。

帮助中心 > AI开发平台ModelArts > 常见问题 > 计费相关
训练声音分类模型 - AI开发平台ModelArts

训练。在新版自动学习页面，单击项目名称进入运行总览页面，单击数据标注节点的“实例详情”进入数据标注页面，完成数据标注。返回新版自动学习页面，单击数据标注节点的“继续运行”，然后等待工作流按顺序进入训练节点。模型将会自动进入训练，无需人工介入，训练时间相对较长，建议您耐心等待

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
训练文本分类模型 - AI开发平台ModelArts

在新版自动学习页面，单击项目名称进入运行总览，单击“数据标注”节点的“实例详情”进入“数据标注”页面，完成数据标注。图1 完成数据标注返回新版自动学习页面，单击数据标注节点的“继续运行”，然后等待工作流按顺序进入训练节点。模型将会自动进入训练，无需人工介入，训练时间相对较长，建

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现文本分类
标注声音分类数据 - AI开发平台ModelArts

项目创建完成后，将会自动跳转至新版自动学习页面，并开始运行，当数据标注节点的状态变为“等待操作”时，需要手动进行确认数据集中的数据标注情况，也可以对数据集中的数据进行标签的修改，数据的增加或删减。图1 数据标注节点状态音频标注在新版自动学习页面单击“实例详情”按钮，前往数据标注

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现声音分类
上传镜像 - AI开发平台ModelArts
上传镜像 - AI开发平台ModelArts

客户端上传镜像，是指在安装了容器引擎客户端的机器上使用docker命令将镜像上传到容器镜像服务的镜像仓库。如果容器引擎客户端机器为云上的ECS或CCE节点，根据机器所在区域有两种网络链路可以选择：如果机器与容器镜像仓库在同一区域，则上传镜像走内网链路。如果机器与容器镜像仓库不在同一区域，

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机单卡
在Workflow中更新已部署的服务 - AI开发平台ModelArts

) 其中ServiceStep节点包含两个输入，一个是模型列表对象，另一个是在线服务对象，此时在运行态通过开关的方式来控制部署/更新服务，如下图所示：在线服务开关默认关闭，节点走部署服务的流程；如果需要更新服务，则手动打开开关，选择相应的在线服务即可。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
训练启动脚本说明和参数配置 - AI开发平台ModelArts

不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表1 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明

总条数： 650

上一页
1
...
7
8
9
...
33
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Lite Cluster资源配置流程 - AI开发平台ModelArts

扩缩容Lite Cluster资源池 - AI开发平台ModelArts

产品优势 - AI开发平台ModelArts

训练作业容错检查 - AI开发平台ModelArts

配置Lite Cluster存储 - AI开发平台ModelArts

内存不足如何处理？ - AI开发平台ModelArts

部署后的AI应用是如何收费的？ - AI开发平台ModelArts

（可选）配置镜像预热 - AI开发平台ModelArts

华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 - AI开发平台ModelArts

查找Workflow工作流 - AI开发平台ModelArts

NPU日志收集上传 - AI开发平台ModelArts

（可选）配置驱动 - AI开发平台ModelArts

部署声音分类服务 - AI开发平台ModelArts

部署后的AI应用是如何收费的？ - AI开发平台ModelArts

训练声音分类模型 - AI开发平台ModelArts

训练文本分类模型 - AI开发平台ModelArts

标注声音分类数据 - AI开发平台ModelArts

上传镜像 - AI开发平台ModelArts

在Workflow中更新已部署的服务 - AI开发平台ModelArts

训练启动脚本说明和参数配置 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线