检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看集群纳管 运维配置提供集群纳管,由平台管理员账号进行管理和配置。集群提供多种节点的混合部署,基于高性能网络模型提供全方位、多场景、安全稳定的容器运行环境,平台可以将集群统一纳管,更方便查看节点资源使用量和修改节点用途,以及设置资源规格。其中,cce-user-job集群需强制
集群纳管 查看集群纳管 资源管理 父主题: 运维配置
集群信息管理 表1 集群信息管理权限 权限 对应API接口 授权项(Action) IAM项目 (Project) 企业项目 (Enterprise Project) 查询可用资源规格 GET /v1.0/{project_id}/common/clusters/resource-specs
制作CCE集群训练镜像 Octopus平台依赖算子镜像内的/bin/bash、stdbuf、tee软件,请确保基础镜像内包含上述软件且能通过PATH找到。 一般情况下,训练与评测定义为同一个引擎,主要包括算法或评测脚本运行所需要的基本依赖环境。用户可使用命令行模式或Dockerfile模式进行构建。
创建容器应用基本流程 快速创建一个kubernetes集群 3分钟创建一个游戏类容器应用 快速购买 什么是ECS 创建容器应用基本流程 快速创建一个kubernetes集群 自定义购买 什么是ECS 创建容器应用基本流程 快速创建一个kubernetes集群 04 使用 弹性云服务器(Elastic
制作ModelArts集群训练镜像 制作训练镜像 八爪鱼训练镜像使用ma-user用户运行,用户需保证镜像内已创建ma-user用户,且训练过程中使用到的python环境或其他依赖对ma-user具有权限。本地镜像构建完成后,需要将镜像上传到八爪鱼平台镜像仓库。 如果使用dock
当OBS存储剩余容量不足时,购买自动驾驶数据管理缓存扩容包增加OBS存储容量。 通用处理节点 octopus计算型CPU(16u32g)专属实例 需要增加集群节点的数量时,可以购买通用处理节点增加节点实例,业务不会中断。购买成功后查看资源节点配额,给新购买的节点打上对应的用途标签即可调度使用。
资源管理 集群纳管详情中展示集群的节点资源和资源规格分配情况。给节点增加标签,确认节点的用途,在资源规格中,给各个资源用途分配资源规格,支撑任务执行。资源不足时,用户需要单独购买扩展资源包。 用平台管理员账号登录Octopus平台。 在左侧菜单栏中单击“运维配置 > 集群纳管 ”。
训练任务所使用的的环境和算力的一致性。 创建开发环境前提条件 已购买“AI处理节点”,且在“运维配置 > 集群纳管”中已存在类型为“ModelArts”且状态为“可用”的集群。 已创建类型为“训练/评测”用途的镜像,详情可参考制作开发环境镜像。 创建开发环境 在左侧菜单栏中选择“训练服务
运维配置 集群纳管
选择“作业总览”页签,单击“创建作业”。 图1 创建作业 处理算子:根据需要选择算子。 资源规格:当前项目中可用的资源规格,资源配置需要平台管理员在集群纳管中创建。 优先级:设定任务的优先级,数值取[-50,50]的整数,数字越大,优先级越高。 环境变量:配置算子的环境变量。允许添加的环境变量个数不超过10个。
那么需要考虑提升集群节点的CPU或者内存配置。例如:界面显示CPU最大12.19,如果算法占用15核,那么当前集群是无法满足调度的,需要提升集群节点配置。 并行仿真任务资源利用说明 当前批量仿真任务同一用户仅允许同时运行一个批量仿真任务。假设有一个4节点的集群,某个任务只有一个
数据处理”。 选择“作业总览”页签,单击“创建作业”。 处理算子:根据需要选择算子。 资源规格:当前项目中可用的资源规格,资源配置需要平台管理员在集群纳管中创建,支持选择带有GPU的资源规格。 优先级:设定任务的优先级,数值取[-50,50]的整数,数字越大,优先级越高。 环境变量:配置
作业总览”页签,单击“创建作业”。 完成创建作业任务信息。 处理算子:根据需要选择脱敏算子。 资源规格:当前项目中可用的资源规格,资源配置需要平台管理员在集群纳管中创建。 优先级:设定任务的优先级,数值取[-50,50]的整数,数字越大,优先级越高。 环境变量:配置算子的环境变量。允许添加的环境变量个数不超过10个。
描述:简要描述任务信息。不得包含“@^\#$%&*<>'|"/”,不得超过256个字符。 资源规格:当前项目中可用的资源规格,资源规格需要平台管理员在纳管模型编译用途的任务作业集群后创建。 优先级:设定任务的优先级,数值取[-50,50]的整数,数字越大,优先级越高。 选择镜像。 图2 选择镜像 编译镜像:需提前在"
Array of strings es 排序 file_folder_path String 文件夹路径 file_name String 文件名 file_type String 文件类型 枚举值: IMAGE(图片) POINT_CLOUD(点云) TEXT(文本) VIDEO(视频)
入对应集群的任务队列等待调度器统一调度。调度器默认按照先调度优先级高的任务,同优先级的任务按照进入队列的时间,先进先出进行调度,支持在界面手动调整调度顺序。最终创建失败的任务不展示在任务列队页面。 在左侧菜单栏中单击“训练服务 > 任务队列”。 选择集群名称,可查看对应集群内的所有任务信息。
制作镜像(训练) 制作CCE集群训练镜像 制作ModelArts集群训练镜像 父主题: 镜像仓库
选择“作业总览”页签,单击“创建作业”。 处理算子:根据需要选择回放仿真算子。 资源规格:当前项目中可用的资源规格,资源配置需要平台管理员在集群纳管中创建。 优先级:设定任务的优先级,数值取[-50,50]的整数,数字越大,优先级越高。 数据类型:选择“数据包”。 选择数据:选择需要操作的数据包中的数据。
权限和授权项 权限及授权项说明 镜像仓库 镜像版本 数据集 数据集版本 数据仓库 数据仓库自定义属性 集群信息管理 数据总览 数据包 数据导入 数据回放 作业管理 算子管理 作业队列 内部作业 数据场景 标签管理 仿真场景 场景地图