检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用边缘节点部署边缘服务能否使用http接口协议? 系统默认使用https。如果您想使用http,可以采取以下两种方式: 方式一:在部署边缘服务时添加如下环境变量: MODELARTS_SSL_ENABLED = false 图1 添加环境变量 方式二:在使用自定义镜像导入模型时
停止 单击指定节点查看详情,可以对运行中的节点进行停止操作。 继续运行 对于单个节点中设置了需要运行中配置的参数时,节点运行会处于“等待操作”状态,用户完成相关数据的配置后,可单击“继续运行”按钮并确认继续执行当前节点。 部分运行Workflow节点 针对大型、复杂的Workflo
池访问外网,可打通VPC的方式,使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内,实现专属资源池访问外网。 前提条件 已拥有需要部署SNAT的弹性云服务器。 待部署SNAT的弹性云服务器操作系统为Linux操作系统。 待部署SNAT的弹性云服务器网卡已配置为单网卡。 步骤一:打通VPC
创建Workflow节点 创建Workflow数据集节点 创建Workflow数据集标注节点 创建Workflow数据集导入节点 创建Workflow数据集版本发布节点 创建Workflow训练作业节点 创建Workflow模型注册节点 创建Workflow服务部署节点 父主题: 开发Workflow命令参考
if_then_steps表示的是当Condition比较的结果为true时允许执行的节点列表,存储的是节点名称;此时else_then_steps中的step跳过不执行。 else_then_step表示的是当Condition比较的结果为false时允许执行的节点列表,存储的是节点名称;此时i
池列表。 进入资源池详情页,在节点管理页面,选择需要进行驱动升级的节点,单击操作列的“更多 > 驱动升级”。 在“驱动升级”弹窗中,会显示当前专属资源池节点的名称ID、规格和驱动版本号,选择节点待升级的“升级版本”。 单击“确定”,开始升级单个节点的驱动。 父主题: Lite Cluster资源管理
用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 execution_id 是 String 工作流执行ID。 step_execution_id 是 String 工作流的一次执行中一个节点的执行ID。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数
worker会被调度到相同的机器上。由于训练数据对于ps没有用,因此在代码中ps相关的逻辑不需要下载训练数据。如果ps也下载数据到“/cache”,实际下载的数据会翻倍。例如只下载了2.5TB的数据,程序就显示空间不够而失败,因为/cache只有4TB的可用空间。 处理方法 在使
专属资源池购买后,中途扩容了一个节点,如何计费? 华为云会重新计算一个增加了该节点的账单,付费以后才能使用。 父主题: Standard资源池
ModelArts Lite Server 面向云主机资源型用户,基于裸金属服务器进行封装,可以通过弹性公网IP直接访问操作服务器。 适用于已经自建AI开发平台,仅有算力需求的用户,提供高性价比的AI算力,并预装主流AI开发套件以及自研的加速插件。 ModelArts用户指南(Lite
可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。 NT_NPU_NET NPU 链路 npu dcmi net异常。 NPU网络链接异常。 可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。 NT_NPU_CARD_LOSE NPU 掉卡 NPU卡丢失。 节点规格的N
购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。 操作步骤 将本地命令复制至ECS服务器请参考如下方法: 在ECS桌面单击“复制粘贴”,使用快捷键“Ctrl+V”将命令粘贴至窗口中并单击“发送”,将复制的命令发送至命令行窗口,如下图所示。 图3
该示例中Workflow包含了五个节点(节点相关定义已省略),在policy中定义了两个预置场景:模型训练和服务部署,工作流发布至运行态后,部分运行的开关默认关闭,节点全部运行。用户可在权限管理页面打开开关,选择指定的场景进行运行。 部分运行能力支持同一个节点被定义在不同的运行场景中,但是需要
ModelArts支持使用ECS创建专属资源池吗? 不支持。创建资源池时,只能选择界面提供的“未售罄”节点规格进行创建。专属资源池的节点规格后台是对应的ECS资源,但是无法使用账号下购买的ECS,作为ModelArts专属资源池。 父主题: Standard资源池
自定义镜像训练作业配置节点间SSH免密互信 当用户使用基于MPI和Horovod框架的自定义镜像进行分布式训练时,需配置训练作业节点间SSH免密互信,否则训练会失败。 配置节点间SSH免密互信涉及代码适配和训练作业参数配置,本文提供了一个操作示例。 准备一个预装OpenSSH的自定义镜像,
达到分支部分执行的目的,与ConditionStep的使用场景类似,但功能更加强大。当前该能力适用于数据集创建节点、数据集标注节点、数据集导入节点、数据集版本发布节点、作业类型节点、模型注册节点以及服务部署节点。 控制单节点的执行 通过参数配置实现 from modelarts
华为云CCE集群纳管GPU裸金属服务器由于CloudInit导致纳管失败的解决方案 问题现象 创建出3台GPU裸金属服务器,使用A节点制作镜像,用于在CCE纳管裸金属服务器时,使用该镜像,但是纳管后发现服务器A纳管失败,剩下两台服务器纳管成功。 原因分析 在CCE纳管过程中,需要通过cloudinit
Gallery仓库 在服务器执行如下命令,可以将AI Gallery仓库的所有文件下载到服务器的缓存目录下。 gallery-cli download {repo_id} 如下所示,表示下载AI Gallery仓库“test_cli_model1”到服务器的缓存目录“/test”下,当回显“100%”时表示下载完成。
导致。 执行以下命令,查看NVIDIA和CUDA的版本,以及nvidia-fabricmanager的状态。 systemctl status nvidia-fabricmanager 发现nvidia-fabricmanager的服务为failed状态,尝试重新启动nvidia
复制完整资产名称 获取待上传的文件名 获取待上传的文件在服务器的绝对路径。 上传单个文件 在服务器执行如下命令,可以将服务器上的文件上传到AI Gallery仓库里面。 gallery-cli upload {repo_id} {文件名} 如下所示,表示将服务器上的文件“D:\workp