检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
已拥有需要部署SNAT的弹性云服务器。 待部署SNAT的弹性云服务器操作系统为Linux操作系统。 待部署SNAT的弹性云服务器网卡已配置为单网卡。 步骤一:打通VPC 通过打通VPC,可以方便用户跨VPC使用资源,提升资源利用率。 在“网络”页签,单击网络列表中某个网络操作列的“打通VPC”。 图1
Verification successful 安装Gallery CLI配置工具 当Gallery CLI配置工具包下载完成后,进入服务器安装工具。不管是ModelArts Lite云服务,还是本地Windows/Linux等服务器,安装操作都相同。 登录服务器,激活python虚拟环境。 conda
重置节点后无法正常使用? 问题现象 当ModelArts Lite的CCE集群在资源池上只有一个节点,且用户设置了volcano为默认调度器时,在ModelArts侧进行重置节点的操作后,节点无法正常使用,节点上的POD会调度失败。 原因分析 在ModelArts侧进行节点重置后
Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通,因此保证SFS Turbo与Server服务器在同一区域即可。 当创建文件系统后,您需要使用弹性裸金属服务器来挂载该文件系统,具体步骤请参考挂载NFS协议类型文件系统到云服务器(Linux)。 为避免已挂载文件系统的云服务器重启后,挂载信息丢失,
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
GPU A系列裸金属服务器没有任务但GPU被占用如何解决 问题现象 服务器没有任务,但GPU显示被占用。 图1 显卡运行状态 处理方法 nvidia-smi -pm 1 父主题: Lite Server
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象 在Vnt1 GPU裸金属服务器(Ubuntu18.04系统),安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc
模型NPU卡数取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推 表1 模型NPU卡数取值表 支持模型 支持模型参数量 文本序列长度 训练类型 Zero并行 规格与节点数 llama3 70B cutoff_len=4096
自动学习的每个项目对数据有哪些要求? 图像分类对数据集的要求 文件名规范:不能有+、空格、制表符。 保证图片质量:不能有损坏的图片,目前支持的格式包括jpg、jpeg、bmp、png。 不要把明显不同的多个任务数据放在同一个数据集内。 每一类数据尽量多,尽量均衡。期望获得良好效果
管理Lite Cluster节点池 为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点。关于更多节点池的介绍,可以查看节点池概述。 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。
由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器 类型 卡类型 RDMA网络协议 操作系统 适用范围、约束
此时无论DH Cient是否关闭,服务器都可以获取分配IP。 当服务器没有网卡配置文件时,DH Client开启,此时服务器会分配私有IP。如果关闭DH Client,则服务器无法获取私有IP。 图2 查看NetworkManager配置 图3 查看网络配置 命令“yum update
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
description 模型注册节点的描述信息 否 str policy 节点执行的policy 否 StepPolicy depend_steps 依赖的节点列表 否 Step或者Step的列表 表2 ModelInput 属性 描述 是否必填 数据类型 name 模型注册节点的输入名称,只能
如何通过ssh登录专属资源池节点? ModelArts专属资源池不支持ssh登录节点。 父主题: Standard资源池
ibstat查看网卡非Active状态。 可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。 配置节点告警通知 节点故障指标(nt_npg)默认会上报到AOM,您可以在AOM配置短信、邮件等通知方式。 以下步骤基于AOM1.0配置。 登录AOM控制台 在左侧导航栏选择“告警 > 告警规则”,在右上角单击“添加告警”。
重试/停止/运行Workflow节点 重试/停止/继续运行Workflow节点 重试 当单个节点运行失败时,用户可以通过重试按钮重新执行当前节点,无需重新启动工作流。在当前节点的运行状况页面,单击“重试”。在重试之前您也可以前往权限管理页面修改配置,节点重试启动后新修改的配置信息可以在当前执行中立即生效。
基本配置 权限配置 创建网络 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储 在ECS中创建ma-user和ma-group obsutil安装和配置 (可选)工作空间配置 父主题: 专属资源池训练
创建Workflow数据集节点 功能介绍 通过对ModelArts数据集能力进行封装,实现新版数据集的创建功能。主要用于通过创建数据集对已有数据(已标注/未标注)进行统一管理的场景,后续常接数据集导入节点或者数据集标注节点。 属性总览 您可以使用CreateDatasetStep
以减少配置操作,方便您在开发态进行调试。但是对于发布到运行态或者gallery的工作流,更推荐的方式是采用数据占位符的方式进行编写,您可以在工作流启动之前对参数进行配置,自由度更高。 基于数据集版本发布节点构建作业类型节点 使用场景:数据集版本发布节点的输出作为作业类型节点的输入。