检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看集群纳管 运维配置提供集群纳管,由平台管理员账号进行管理和配置。集群提供多种节点的混合部署,基于高性能网络模型提供全方位、多场景、安全稳定的容器运行环境,平台可以将集群统一纳管,更方便查看节点资源使用量和修改节点用途,以及设置资源规格。其中,cce-user-job集群需强制
集群纳管 查看集群纳管 资源管理 父主题: 运维配置
集群信息管理 表1 集群信息管理权限 权限 对应API接口 授权项(Action) IAM项目 (Project) 企业项目 (Enterprise Project) 查询可用资源规格 GET /v1.0/{project_id}/common/clusters/resource-specs
需要在Dockerfile文件中添加uid为1000的用户ma-user和gid为100的用户组ma-group。如果基础镜像中uid 1000或者gid 100已经被其他用户和用户组占用,需要将其对应的用户和用户组删除。制作开发环境的自定义镜像时,基础镜像需满足如下规范: 使用Dockerhub等官方源发布的镜像。
制作CCE集群训练镜像 Octopus平台依赖算子镜像内的/bin/bash、stdbuf、tee软件,请确保基础镜像内包含上述软件且能通过PATH找到。 一般情况下,训练与评测定义为同一个引擎,主要包括算法或评测脚本运行所需要的基本依赖环境。用户可使用命令行模式或Dockerfile模式进行构建。
创建容器应用基本流程 快速创建一个kubernetes集群 3分钟创建一个游戏类容器应用 快速购买 什么是ECS 创建容器应用基本流程 快速创建一个kubernetes集群 自定义购买 什么是ECS 创建容器应用基本流程 快速创建一个kubernetes集群 04 使用 弹性云服务器(Elastic
资源管理 集群纳管详情中展示集群的节点资源和资源规格分配情况。给节点增加标签,确认节点的用途,在资源规格中,给各个资源用途分配资源规格,支撑任务执行。资源不足时,用户需要单独购买扩展资源包。 用平台管理员账号登录Octopus平台。 在左侧菜单栏中单击“运维配置 > 集群纳管 ”。
资源规格:当前项目中可用的资源规格,资源配置需要平台管理员在集群纳管中创建。 优先级:设定任务的优先级,数值取[-50,50]的整数,数字越大,优先级越高。 环境变量:配置算子的环境变量。允许添加的环境变量个数不超过10个。 Key:只能由英文、数字、和特殊符号(,-_)组成,且需要以字母开头 。长度不超过64个字符。
资源规格:当前项目中可用的资源规格,资源配置需要平台管理员在集群纳管中创建,支持选择带有GPU的资源规格。 优先级:设定任务的优先级,数值取[-50,50]的整数,数字越大,优先级越高。 环境变量:配置算子的环境变量。允许添加的环境变量个数不超过10个。 Key:只能由英文、数字、和特殊符号(,-_)组成,且需要以字母开头
资源规格:当前项目中可用的资源规格,资源配置需要平台管理员在集群纳管中创建。 优先级:设定任务的优先级,数值取[-50,50]的整数,数字越大,优先级越高。 环境变量:配置算子的环境变量。允许添加的环境变量个数不超过10个。 Key:只能由英文、数字、和特殊符号(,-_)组成,且需要以字母开头 。长度不超过64个字符。
运维配置 集群纳管
的安装等操作。极大的提升了算法调试的效率,并保证了和训练任务所使用的的环境和算力的一致性。 创建开发环境前提条件 已购买“AI处理节点”,且在“运维配置 > 集群纳管”中已存在类型为“ModelArts”且状态为“可用”的集群。 已创建类型为“训练/评测”用途的镜像,详情可参考制作开发环境镜像。
购买扩展资源包 购买扩容包和节点时,需要事前购买相对应的服务。 登录Octopus服务平台。 在“总览”页签中单击“购买服务”。 选择需要购买的扩展资源包的基础配置,然后单击“下一步:资源配置”。 以购买“规控仿真引擎-在线”为例,设置购买时长、购买个数以及是否自动续费和仿真器类型。 选择
权限和授权项 权限及授权项说明 镜像仓库 镜像版本 数据集 数据集版本 数据仓库 数据仓库自定义属性 集群信息管理 数据总览 数据包 数据导入 数据回放 作业管理 算子管理 作业队列 内部作业 数据场景 标签管理 仿真场景 场景地图
那么需要考虑提升集群节点的CPU或者内存配置。例如:界面显示CPU最大12.19,如果算法占用15核,那么当前集群是无法满足调度的,需要提升集群节点配置。 并行仿真任务资源利用说明 当前批量仿真任务同一用户仅允许同时运行一个批量仿真任务。假设有一个4节点的集群,某个任务只有一个
手动调整调度顺序。最终创建失败的任务不展示在任务列队页面。 在左侧菜单栏中单击“训练服务 > 任务队列”。 选择集群名称,可查看对应集群内的所有任务信息。 管理该集群内的任务。 查看指定任务详情:单击任务名称进入该任务的详情页面。 修改任务调度顺序: 置顶任务:将该任务置于队列首
环境变量:由编译镜像携带,参数名不支持修改,参数值支持修改。 Key:只能由英文、数字、和特殊符号(,-_)组成,且需要以字母开头 。长度不超过64个字符。 Value: 只能由英文、数字和特殊符号(\/,.[]-_)组成 。长度不超过512个字符。 选择待编译模型版本。 图3 选择待编译模型版本
制作镜像(训练) 制作CCE集群训练镜像 制作ModelArts集群训练镜像 父主题: 镜像仓库
选择“作业总览”页签,单击“创建作业”。 处理算子:根据需要选择回放仿真算子。 资源规格:当前项目中可用的资源规格,资源配置需要平台管理员在集群纳管中创建。 优先级:设定任务的优先级,数值取[-50,50]的整数,数字越大,优先级越高。 数据类型:选择“数据包”。 选择数据:选择需要操作的数据包中的数据。
同时支持IAM项目和企业项目,表示此授权项对应的自定义策略,可以在IAM和企业管理两个服务中给用户组授权并生效。如果仅支持IAM项目,不支持企业项目,表示仅能在IAM中给用户组授权并生效,如果在企业管理中授权,则该自定义策略不生效。关于IAM项目与企业项目的区别,详情请参见:IAM与企业管理的区别。