检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
由于弹性集群资源池可选择弹性裸金属或弹性云服务器作为节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器 类型 卡类型 RDMA网络协议
Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。
公共参数。资源规格,可通过查询支持的服务部署规格可获取规格列表。当前版本可选modelarts.vm.cpu.2u/modelarts.vm.gpu.pnt004(需申请)/modelarts.vm.ai1.snt3(需申请)/custom(仅支持在部署到专属资源池时使用),需申请的规格请提交工单,由ModelAr
本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1
可以选择的最大节点数量(max_num,为1代表不支持分布式)。 cpu cpu object cpu规格信息。 gpu gpu object gpu规格信息。 npu npu object Ascend规格信息。 memory memory object 内存信息。 表39 cpu 参数 参数类型 描述 arch
0-openmpi2.1.1-ubuntu18.04 CPU算法开发和训练基础镜像,预置AI引擎MindSpore-CPU CPU 是 是 cylp0.91.4-cbcpy2.10-ortools9.0-cplex20.1.0-ubuntu18.04 CPU运筹优化求解器开发基础镜像,预置cyl
Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。
arch String 服务器镜像架构类型。 ARM X86 image_id String 服务器镜像ID。 name String 服务器镜像名称。 server_type String 服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 请求示例 PUT h
arch String 服务器镜像架构类型。 ARM X86 image_id String 服务器镜像ID。 name String 服务器镜像名称。 server_type String 服务器类型。枚举值如下: BMS:裸金属服务器 ECS:弹性云服务器 请求示例 GET h
部署在线服务时,您可以选择性能更好的“计算节点规格”提高预测速度。例如使用GPU资源代替CPU资源。 部署在线服务时,您可以增加“计算节点个数”。 如果节点个数设置为1,表示后台的计算模式是单机模式;如果节点个数设置大于1,表示后台的计算模式为分布式的。您可以根据实际需求进行选择。 推理速度与模型复杂度强相关,您可以尝试优化模型提高预测速度。
该报错信息表示验证集中有label在训练集中不存在,可能由于在发布数据集版本进行数据切分时,训练集比例填写为0导致发布的数据全部为验证集,所以出现上述报错。 处理方法 重新发布数据,切分比例为0.8 或者0.9重新创建训练作业进行训练。 父主题: 训练作业运行失败
式)。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。 npu Npu object Ascend规格信息。 memory Memory object 内存信息。 disk Disk object 磁盘信息。 表41 Cpu 参数 参数类型
调用获取训练作业支持的公共规格接口获取训练作业支持的资源规格。 请求消息体: URI格式:GET https://{ma_endpoint}/v2/{project_id}/ training-job-flavors? flavor_type=CPU 请求消息头:X-Auth-Token
Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意:CPU架构必须选择鲲鹏计算,镜像推荐选择EulerOS。
式)。 cpu Cpu object cpu规格信息。 gpu Gpu object gpu规格信息。 npu Npu object Ascend规格信息。 memory Memory object 内存信息。 disk Disk object 磁盘信息。 表40 Cpu 参数 参数类型
当前支持IPv6功能的有如下规格: modelarts.kc1.2xlarge.4 modelarts.vm.cpu.16u32g.d modelarts.vm.cpu.16u64g.d modelarts.vm.cpu.24u48g.d modelarts.vm.cpu.48u96g.d
Notebook cache盘告警上报 创建Notebook时,可以根据业务数据量的大小选择CPU、GPU或者Ascend资源,对GPU或Ascend类型的资源,ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。 当前开发环境的cache盘使用
弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时, 将数据放在SFS盘中, 并发建立多个NFS链接、并发的读写数据、做大模型训练。 但有时候会出
String 统计间隔,1s表示1秒,1m表示1分钟,1h为1小时。 表7 Value 参数 参数类型 描述 cpu String cpu量,即计算资源量。 memory String 内存。 tnt004 String GPU卡的数量。 表8 ResourceMetricsMetadata
DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 flavor 是 String 实例的机器规格。如下规格仅供参照,实际支持规格以具体区域为准。 modelarts.vm.cpu.2u:Intel CPU通用规格,用于快速数据探索和实验。