检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
mox.file与本地接口的对应关系和切换 API对应关系 Python:指本地使用Python对本地文件的操作接口。支持一键切换为对应的MoXing文件操作接口(mox.file)。 mox.file:指MoXing框架中用于文件操作的接口,其与python接口一一对应关系。 tf
描述 phase String 网络的当前状态。可选值如下: Creating:网络创建中 Active:网络正常 Abnormal:网络不正常 connectionStatus NetworkConnectionStatus object 网络与其他云服务连通状态信息。 表17
”,即可实现对单个节点的资源释放。不支持批量释放处于宽限期的节点。 退订/释放操作无法恢复,请谨慎操作。 删除网络 当AI业务开发不再需要使用网络时,您可以删除网络。 请注意,删除网络会导致使用该网络的资源池网络不可用,请谨慎操作。 在“网络”页签,单击某个网络操作列的“更多 >
在CCE集群详情页,选择左侧导航栏的“节点管理”,选择“节点”页签。 在节点列表,单击操作列的“更多 > 查看YAML”查看节点配置信息。 查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。 如图所示,表示有值,节点已开启top
指定可用区:自定义选择控制节点的可用区。 网络 MA网络 指定资源池运行的网络,可以与该网络中的其他云服务资源实例互通。仅物理资源池需要设置网络。 在下拉框中选择,如果没有可用网络,单击右侧的“创建”,创建一个可用的网络。创建网络相关可以参考步骤一:创建网络章节。 IPv6网络 开启IPv6
的预测API的域名。 如果您使用的是VPC内部节点访问ModelArts推理的在线服务,预测API切换域名后,由于内网VPC无法识别公网域名,请提交工单联系华为云技术支持打通网络。 父主题: 产品变更公告
h,训练使用的资源是专属资源池的Ascend芯片。 准备工作 准备一套可以连接外部网络,装有Linux系统并安装18.09.7及以上版本docker的虚拟机或物理机用作镜像构建节点,以下称“构建节点”。 可以通过执行docker pull、apt-get update/upgrade和pip
再次单击“退订”,完成包年/包月资源的退订操作。 释放游离节点 如果您的资源中存在游离节点(即没有被纳管到资源池中的节点),您可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。 针对游离节点,可以通过以下方式释放节点资源: 如果是“包年/包月”且资源未到期的节点,您可单击操作列的“退
在左侧菜单栏中选择“AI专属资源池 > 弹性节点 Server”。 执行如下操作,启动或停止弹性节点Server。 启动弹性节点Server:单击“启动”。只有处于“已停止/停止失败/启动失败”状态的弹性节点Server可以执行启动操作。 停止弹性节点Server:单击“停止”,在弹出的
properties 节点的属性信息 否 dict policy 节点的执行策略,主要包含节点调度运行的时间间隔、节点执行的超时时间、以及节点执行是否跳过的相关配置 否 StepPolicy depend_steps 依赖节点的列表,该字段决定了DAG的结构,也决定了节点执行的顺序 否 Step或者list[Step]
描述 phase String 网络的当前状态。可选值如下: Creating:网络创建中 Active:网络正常 Abnormal:网络不正常 connectionStatus NetworkConnectionStatus object 网络与其他云服务连通状态信息。 表13
Cluster适配NPU推理指导(6.3.906) ComfyUI是一款基于节点工作流的Stable Diffusion操作界面。通过将Stable Diffusion的流程巧妙分解成各个节点,成功实现了工作流的精确定制和可靠复现。每一个节点都有特定的功能,可以通过调整节点连接达到不同的出图效果。在图像生成方面,它
Workflow多分支运行介绍 当前支持两种方式实现多分支的能力,条件节点只支持双分支的选择执行,局限性较大,推荐使用配置节点参数控制分支执行的方式,可以在不添加新节点的情况下完全覆盖ConditionStep的能力,使用上更灵活。 构建条件节点控制分支执行主要用于执行流程的条件分支选择,可以简单
Workflow的编排主要在于每个节点的定义,您可以参考创建Workflow节点章节,按照自己的场景需求选择相应的代码示例模板进行修改。编排过程主要分为以下几个步骤。 梳理场景,了解预置Step的功能,确定最终的DAG结构。 单节点功能,如训练、推理等在ModelArts相应服务中调试通过。 根据节点功能选择相应的代码模板,进行内容的补充。
终端节点>终端节点”,进入“终端节点”页面。 单击右上角的“购买终端节点”,进入购买页面。 区域:终端节点所在区域。 不同区域的资源之间内网不互通,请确保与ModelArts所在区域保持一致。 服务类别:请选择“按名称查找服务”。 服务名称:填入步骤1中获取的“终端节点服务地址
由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器 类型 卡类型 RDMA网络协议 操作系统 适用范围、约束
per_device_train_batch_size=1 2*节点 & 8*Ascend 4*节点 & 8*Ascend cutoff_len=8192 lora sft per_device_train_batch_size=1 2*节点 & 8*Ascend 8*节点 & 8*Ascend 7B cutoff_len=4096
当节点的可用、异常、创建中、删除中的数量发生变化时,因资源池节点状态变化,会将此变化信息记录到事件中。 图1 查看资源池事件 查看资源池节点 在资源池详情页,切换到“节点”页签。您可以查看资源池中所有的节点,并且能查看每个节点资源占用的情况。当把鼠标放在节点名称上方时,会显示节点名称和资源ID,资源ID可用于
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40