搜索_华为云

管理Lite Cluster节点 - AI开发平台ModelArts

管理Lite Cluster节点节点是容器集群组成的基本元素，在资源池详情页，单击“节点管理”页签，进行替换、删除、重置、续费等操作。当把鼠标放在节点名称上方时，会显示资源ID，资源ID可用于查询账单或者在费用中心查询包周期资源的计费信息。删除/退订/释放节点若是“按需计费”

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
重置节点后无法正常使用？ - AI开发平台ModelArts

重置节点后无法正常使用？问题现象当ModelArts Lite的CCE集群在资源池上只有一个节点，且用户设置了volcano为默认调度器时，在ModelArts侧进行重置节点的操作后，节点无法正常使用，节点上的POD会调度失败。原因分析在ModelArts侧进行节点重置后，

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
配置多分支节点数据 - AI开发平台ModelArts

配置多分支节点数据功能介绍仅用于存在多分支执行的场景，在编写构建工作流节点时，节点的数据输入来源暂不确定，可能是多个依赖节点中任意一个节点的输出。只有当依赖节点全部执行完成后，才会根据实际执行情况自动获取有效输出作为输入。使用案例 from modelarts import

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
Standard资源池节点故障定位 - AI开发平台ModelArts

Standard资源池节点故障定位节点故障定位对于Standard资源池，ModelArts平台在识别到节点故障后，通过给K8S节点增加污点的方式（taint）将节点隔离避免新作业调度到该节点而受到影响，并且使本次作业不受污点影响。当前可识别的故障类型如下，可通过隔离码及对应检测方法定位故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？问题现象服务部署、启动、升级和修改时，拉取镜像失败。原因分析节点磁盘不足，镜像大小过大。解决方法首先考虑优化镜像，减小节点磁盘的占用。优化镜像无法解决问题，请联系系统管理员处理。父主题：服务部署

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
开发第一条Workflow - AI开发平台ModelArts

wf.AlgorithmParameters(name="do_eval_along_train", value="True"), wf.AlgorithmParameters(name="variable_update", value="horovod

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
Open-Sora1.2基于DevServer适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU卡状态。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
管理Lite Cluster节点池 - AI开发平台ModelArts

管理Lite Cluster节点池为帮助您更好地管理Kubernetes集群内的节点，ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点，能通过节点池批量配置一组节点。在资源池详情页，单击“节点池管理”页签，您可以创建、更新和删除节点池。图1 节点池管理

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911）本文档主要介绍如何在ModelArts Lite的DevServer环境中，使用NPU卡对CogVideoX模型基于sat框架进行全量微调。本文档中提供的脚本，是基于原生CogVideoX

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905）本文档主要介绍如何在ModelArts Lite DevServer上，使用PyTorch_npu+华为自研Ascend Snt9B硬件，完成Open-Sora训练和推理。资源规格要求

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
重试/停止/运行Workflow节点 - AI开发平台ModelArts

重试/停止/运行Workflow节点重试/停止/继续运行Workflow节点重试当单个节点运行失败时，用户可以通过重试按钮重新执行当前节点，无需重新启动工作流。在当前节点的运行状况页面，单击“重试”。在重试之前您也可以前往权限管理页面修改配置，节点重试启动后新修改的配置信息可以在当前执行中立即生效

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 管理Workflow
构建条件节点控制分支执行 - AI开发平台ModelArts

构建条件节点控制分支执行功能介绍主要用于执行流程的条件分支选择，可以简单的进行数值比较来控制执行流程，也可以根据节点输出的metric相关信息决定后续的执行流程。主要应用场景如下：可以用于需要根据不同的输入值来决定后续执行流程的场景。例如：需要根据训练节点输出的精度信息来决定是重新训练还是进行模型的注册操作时可以使用该节点来实现流程的控制

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
Cluster资源池节点故障如何定位 - AI开发平台ModelArts

Cluster资源池节点故障如何定位故障说明和处理建议图1 Lite池故障处理流程对于ModelArts Lite资源池，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondtition中。同时，节点故障指标默认会上报到

 帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
获取Workflow工作流节点度量信息 - AI开发平台ModelArts

获取Workflow工作流节点度量信息功能介绍获取Workflow工作流节点的度量信息。接口约束无调试您可以在API Explorer中调试该接口，支持自动认证鉴权。API Explorer可以自动生成SDK代码示例，并提供SDK代码示例调试功能。 URI GET /v2

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导（6.3.907）本文档主要介绍如何在ModelArts Lite DevServer上，使用PyTorch_npu+华为自研Ascend Snt9B硬件，完成Open-Sora-Plan1.0

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
编排Workflow - AI开发平台ModelArts

wf.AlgorithmParameters(name="do_eval_along_train", value="True"), wf.AlgorithmParameters(name="variable_update", value="horovod

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考
配置节点参数控制分支执行 - AI开发平台ModelArts

配置节点参数控制分支执行功能介绍支持单节点通过参数配置或者获取训练输出的metric指标信息来决定执行是否跳过，同时可以基于此能力完成对执行流程的控制。应用场景主要用于存在多分支选择执行的复杂场景，在每次启动执行后需要根据相关配置信息决定哪些分支需要执行，哪些分支需要跳过，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发 > 开发Workflow命令参考 > 构建Workflow多分支运行场景
修复Standard专属资源池故障节点 - AI开发平台ModelArts

修复Standard专属资源池故障节点 Standard专属资源池支持对故障节点进行修复操作，目前提供了替换节点、高可用冗余节点、重置节点和重启节点等方式。华为云技术支持在故障定位和性能诊断时，部分运维操作需要用户授权才可进行，本章节同时也介绍了如何进行授权操作。故障节点处理方式

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
查看在线服务的事件 - AI开发平台ModelArts

查看在线服务的事件服务的（从用户可看见部署服务任务开始）整个生命周期中，每一个关键事件点在系统后台均有记录，用户可随时在对应服务的详情页面进行查看。方便用户更清楚的了解服务部署和运行过程，遇到任务异常时，更加准确的排查定位问题。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务
设置在线服务故障自动重启 - AI开发平台ModelArts

设置在线服务故障自动重启场景描述当系统检测到Snt9b硬件故障时，自动复位Snt9B芯片并重启推理在线服务，提升了推理在线服务的恢复速度。约束限制仅支持使用Snt9b资源的同步在线服务。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理同步在线服务

总条数： 1423

上一页
1
2
3
4
5
...
72
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

管理Lite Cluster节点 - AI开发平台ModelArts

重置节点后无法正常使用？ - AI开发平台ModelArts

配置多分支节点数据 - AI开发平台ModelArts

Standard资源池节点故障定位 - AI开发平台ModelArts

服务部署、启动、升级和修改时，拉取镜像失败如何处理？ - AI开发平台ModelArts

开发第一条Workflow - AI开发平台ModelArts

Open-Sora1.2基于DevServer适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

管理Lite Cluster节点池 - AI开发平台ModelArts

CogVideoX模型基于DevServer适配PyTorch NPU全量训练指导（6.3.911） - AI开发平台ModelArts

Open-Sora 1.0基于DevServer适配PyTorch NPU训练指导（6.3.905） - AI开发平台ModelArts

重试/停止/运行Workflow节点 - AI开发平台ModelArts

构建条件节点控制分支执行 - AI开发平台ModelArts

Cluster资源池节点故障如何定位 - AI开发平台ModelArts

获取Workflow工作流节点度量信息 - AI开发平台ModelArts

Open-Sora-Plan1.0基于DevServer适配PyTorch NPU训练推理指导（6.3.907） - AI开发平台ModelArts

编排Workflow - AI开发平台ModelArts

配置节点参数控制分支执行 - AI开发平台ModelArts

修复Standard专属资源池故障节点 - AI开发平台ModelArts

查看在线服务的事件 - AI开发平台ModelArts

设置在线服务故障自动重启 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线