云服务器内容精选

  • 查看专属资源池 登录BCE控制台,在左侧导航栏单击“资源池管理”。 在“专属资源池”页签下,在资源池列表中可以查看资源池的名称、资源池状态、集群版本、集群规格、节点池和可用节点等信息。 在专属资源池卡片上,单击专属资源池名称,例如:bce-test0421,可查看专属资源池的详细信息。 单击右上角“休眠”,可以对集群进行休眠,单击“删除”可以删除资源池。 单击“资源池名称”, “资源池描述”, 可对资源池的名称,描述进行修改更新。 单击“集群名称”,可进入CCE服务页面,查看集群的详细信息。
  • 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 cluster_name String 资源池的名称 最小长度:1 最大长度:102400 description String 资源池的描述 最小长度:1 最大长度:102400 guid String 被修改资源池的ID 最小长度:1 最大长度:102400 状态码: 400 表4 响应Body参数 参数 参数类型 描述 error_code String Error code 最小长度:1 最大长度:102400 error_msg String Error detail message 最小长度:1 最大长度:102400 extend String Error extend message 最小长度:1 最大长度:102400 show_detail Boolean If extend message displayed 状态码: 500 表5 响应Body参数 参数 参数类型 描述 error_code String Error code 最小长度:1 最大长度:102400 error_msg String Error detail message 最小长度:1 最大长度:102400 extend String Error extend message 最小长度:1 最大长度:102400 show_detail Boolean If extend message displayed
  • 资源选择推荐 不同AI模型训练所需要的数据量和算力不同,在训练时选择合适存储及训练方案可提升模型训练效率与资源性价比。ModelArts支持单机单卡、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。针对第一次使用ModelArts的用户,本文提供端到端案例指导,帮助您快速了解如何在ModelArts上选择合适的训练方案并进行模型训练。 针对不同的数据量和算法情况,推荐以下训练方案: 单机单卡:小数据量(1G训练数据)、低算力场景(1卡Vnt1),存储方案使用“OBS的并行文件系统(存放数据和代码)”。 单机多卡:中等数据量(50G左右训练数据)、中等算力场景(8卡Vnt1),存储方案使用“SFS(存放数据和代码)”。 多机多卡:大数据量(1T训练数据)、高算力场景(4台8卡Vnt1),存储方案使用“SFS(存放数据)+普通OBS桶(存放代码)”,采用分布式训练。 表1 不同场景所需服务及购买推荐 场景 OBS SFS SWR DEW ModelArts VPC E CS EVS 单机单卡 按需购买。(并行文件系统) × 免费。 免费。 包月购买。 免费。 × 按需购买。 单机多卡 × 包月购买。 (HPC型500G) 免费。 免费。 包月购买。 免费。 包月购买。 (Ubuntu 18.04,建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽) × 多机多卡 按需购买。 (普通OBS桶) 包月购买。 (HPC型500G) 免费。 免费。 包月购买。 免费。 包月购买。 (建议不小于2U8G,本地存储空间100G,带EIP全动态BGP,按流量10M带宽) × 表2 开源数据集训练效率参考 算法及数据 资源规格 Epoch数 运行时长(hh:mm:ss) 算法:PyTorch官方针对ImageNet的样例 数据:ImageNet分类数据子集 1机1卡Vnt1 10 0:05:03 算法:YOLOX 数据:COCO2017 1机1卡Vnt1 10 03:33:13 1机8卡Vnt1 10 01:11:48 4机8卡Vnt1 10 0:36:17 算法:Swin-Transformer 数据:ImageNet21K 1机1卡Vnt1 10 197:25:03 1机8卡Vnt1 10 26:10:25 4机8卡Vnt1 10 07:08:44 表3 训练各步骤性能参考 步骤 说明 时长 镜像下载 首次下载镜像的时间(25G)。 8分钟 资源调度 点创建训练任务开始到变成运行中的时间(资源充足、镜像已缓存)。 20秒 训练列表页打开 已有50条训练作业,单击训练模块后的时间。 6秒 日志加载 作业运行中,已经输出1兆的日志文本,单击训练详情页面需要多久加载出日志。 2.5秒 训练详情页 作业运行中,没有用户日志情况下,在ModelArts控制台主页面单击训练详情页面后加载页面内容。 2.5秒 JupyterLab页面 进入JupyterLab页面后加载页面内容。 0.5秒 Notebook列表页 已有50个Notebook实例,在ModelArts控制台主页面单击开发环境后的时间。 4.5秒 镜像下载时间受节点规格、节点硬盘类型(高IO/普通IO)、是否SSD等因素影响,以上数据仅供参考。 父主题: 专属资源池训练
  • 处理步骤 进入训练作业详情页,在左侧获取SFS Turbo的名称。 图1 获取SFS Turbo的名称 登录弹性文件服务SFS控制台,在SFS Turbo列表找到训练作业挂载的SFS Turbo,单击名称进入详情页。获取VPC信息、安全组信息和endpoint信息。 VPC信息:SFS Turbo详情页的“虚拟私有云”。 安全组信息:SFS Turbo详情页的“安全组”。 endpoint信息:SFS Turbo详情页的“共享路径”,去除“:/”即为sfs-turbo-endpoint。例如共享路径为“4ab556b5-d689-44f1-9302-24c09daxxxxc.sfsturbo.internal:/”,则sfs-turbo-endpoint为“4ab556b5-d689-44f1-9302-24c09daxxxxc.sfsturbo.internal”。 查看SFS Turbo的VPC网段是否满足如下2个条件。 条件一:SFS Turbo网段不能与192.168.20.0/24重叠,否则会和专属资源池的网段发生冲突,因为专属资源池的默认网段为192.168.20.0/24。专属资源池实际使用的网段可以在资源池的详情页面查看“网络”获取。 条件二:SFS Turbo网段不能与172网段重叠,否则会和容器网络发生冲突,因为容器网络使用的是172网段。 如果不满足条件,则修改SFS Turbo的VPC网段,推荐网段为10.X.X.X。具体操作请参见修改虚拟私有云网段。 如果满足条件,则继续下一步。 查看SFS Turbo的VPC网段的安全组是否被限制了。 在所选专属资源池中新建一个未挂载的SFS Turbo的训练作业,当训练作业处于“运行中”时,通过Cloud Shell功能登录训练作业worker-0实例,使用curl {sfs-turbo-endpoint}:{port}命令检查port是否正常打开,SFS Turbo所需要入方向的端口号为111、445、2049、2051、2052、20048,具体请参见创建文件系统的“安全组”参数。Cloud Shell功能的操作指导请参见使用CloudShell登录训练容器。 是,则修改安全组的配置,具体操作请参见修改安全组规则。 否,则继续下一步。 确认SFS Turbo是否存在异常。 新建一个和SFS Turbo在同一个网段的ECS,用ECS去挂载SFS Turbo,如果挂载失败,则表示SFS Turbo异常。 是,联系SFS服务的技术支持处理。 否,联系ModelArts的技术支持处理。
  • 查看资源池事件 在资源池详情页,切换到“事件”页签。您可以查看资源从创建到添加节点的各个阶段的事件。产生事件的原因主要有“资源池状态变化”和“资源节点状态变化”。 在事件列表中,可单击“事件类型”列的筛选查看。 当资源池开始创建或者出现异常时,因资源池状态变化,会将此变化信息记录到事件中。 当节点的可用、异常、创建中、删除中的数量发生变化时,因资源池节点状态变化,会将此变化信息记录到事件中。 图1 查看资源池事件
  • 购买弹性 云服务器ECS 如果您需要在服务器上部署相关业务,较之物理服务器,弹性云服务器的创建成本较低,并且可以在几分钟之内快速获得基于云服务平台的弹性云服务器设施,并且这些基础设施是弹性的,可以根据需求伸缩。下面介绍如何在管理控制台购买弹性云服务器。 购买流程: 步骤一:基础配置 步骤二:网络配置 步骤三:高级配置 步骤四:确认订单 购买时需注意,ECS需要和SFS买到同一个VPC才能挂载SFS存储。
  • 步骤一:打通VPC 通过打通VPC,可以方便用户跨VPC使用资源,提升资源利用率。 在“网络”页签,单击网络列表中某个网络操作列的“打通VPC”。 图1 打通VPC 在打通VPC弹框中,打开“打通VPC”开关,在下拉框中选择可用的VPC和子网。 需要打通的对端网络不能和当前网段重叠。 图2 打通VPC参数选择 如果没有VPC可选,可以单击右侧的“创建虚拟私有云”,跳转到网络控制台,申请创建虚拟私有云。 如果没有子网可选,可以单击右侧的“创建子网”,跳转到网络控制台,创建可用的子网。 支持1个VPC下多个子网的打通,如果VPC下有多个子网,会显示“+”,您可单击“+”即可添加子网(上限10个)。 如果需要使用打通VPC的方式实现专属资源池访问公网,由于要访问的公网地址不确定,一般是建议用户在VPC中创建SNAT。此场景下,在打通VPC后,专属资源池中作业访问公网地址,默认不能转发到用户VPC的SNAT,需要提交工单联系技术支持在专属资源池VPC的路由中添加指向对等连接的默认路由。当您开启默认路由后,在打通VPC时,会给ModelArts网络0.0.0.0/0路由作为默认路由,此时无需提交工单添加默认路由即可完成网络配置。