云服务器内容精选

  • 集群资源开通流程 开通集群资源过程中用户侧需要完成的任务流程如下图所示。 图1 用户侧任务流程 表1 用户侧任务流程 阶段 任务 说明 参考文档 预购集群资源 登录华为云控制台,在ModelArts上创建委托授权。 第一次使用ModelArts时需要创建委托授权,授权允许ModelArts代表用户去访问其他云服务。 如果之前已经创建过委托授权,需要更新委托相应的权限。 配置ModelArts访问授权 申请开通资源规格 当前部分规格为受限购买,需要提前联系客户经理申请开通资源规格,预计1~3个工作日内开通(若无客户经理可提交工单反馈)。 申请开通资源规格 申请扩大资源配额。 集群所需的E CS 实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。 具体的配额方案请联系客户经理获取。 配额需大于要开通的资源,且在购买开通前完成配额提升,否则会导致资源开通失败。 提升资源配额 购买集群资源 在ModelArts控制台上购买资源池。 - 购买集群资源
  • Step1 在ModelArts上创建委托授权 新建委托 第一次使用ModelArts时需要创建委托授权,授权允许ModelArts代表用户去访问其他云服务。使用ModelArts Lite的资源池需要授权允许ModelArts代表用户访问云容器引擎服务CCE、裸金属服务BMS、 镜像服务 IMS和密钥管理服务DEW。 进入到ModelArts控制台的“全局配置”页面,单击“添加授权”,根据提示进行操作。 图2 添加授权 更新委托 如果之前给ModelArts创过委托授权,此处需要更新授权。 进入到ModelArts控制台的“专属资源池”页面,查看是否存在授权缺失的提示。 如果有授权缺失,根据提示,单击“此处”更新委托。根据提示选择“追加至已有授权”,单击“确定”,系统会提示权限更新成功。
  • 配置流程 图1 DevServer资源配置流程图 表1 Server资源配置流程 配置顺序 配置分类 配置任务 使用场景说明 是否必选操作 1 网络 单EIP实现多节点的SSH登录和外网访问 指导一个租户VPC配置一个EIP,通过NAT网关配置进行EIP资源共享,实现该VPC下的所有Server资源均可以通过该EIP进行公网访问和SSH登录。 必选。(二选一) 单EIP绑定裸金属服务器 指导单EIP如何绑定在一台裸金属服务器上实现公网访问和SSH登录。 裸金属服务器支持IPV6解决方案 指导配置裸金属服务器实现支持IPV6。 可选。 2 存储 存储配置 指导如何选择和使用存储服务。 必选。 3 环境配置 环境配置 指导如何在Snt9b裸金属服务器上,进行磁盘合并挂载、安装docker等环境配置。 必选。 4 监控 华为云 CES 服务官方监控方案 指导如何使用华为云BMS+CES联合提供的裸金属服务器的指标监控方案。 可选。(二选一) 父主题: DevServer资源配置
  • 弹性文件服务SFS 若使用SFS服务作为存储方案,推荐使用SFS Turbo文件系统。SFS Turbo提供按需扩展的高性能文件存储,还具备高可靠和高可用的特点,支持根据业务需要弹性扩容,且性能随容量增加而提升,可广泛应用于多种业务场景。 在SFS服务控制台上创建文件系统,具体步骤请参考创建SFS Turbo文件系统。同一区域不同可用区之间文件系统与云服务器互通,因此保证SFS Turbo与Server服务器在同一区域即可。 当创建文件系统后,您需要使用弹性裸金属云服务器来挂载该文件系统,具体步骤请参考挂载NFS协议类型文件系统到云服务器(Linux)。 为避免已挂载文件系统的云服务器重启后,挂载信息丢失,您可以在云服务器设置重启时进行自动挂载,具体步骤请参考服务器重启后自动挂载指南。
  • 对象存储服务 OBS 若使用OBS服务作为存储方案,推荐使用“并行文件系统+obsutil”的方式,并行文件系统是OBS服务提供的一种经过优化的高性能文件语义系统,提供毫秒级别访问时延,TB/s级别带宽和百万级别的IOPS。obsutil是一款用于访问管理华为云对象存储服务(Object Storage Service,OBS)的命令行工具,您可以使用该工具对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。对于熟悉命令行程序的用户,obsutil能在执行批量处理、自动化任务场景能为您带来更优体验。 在OBS服务控制台上创建并行文件系统,具体步骤请参考创建并行文件系统。 针对您的操作系统,下载对应版本的obsutil至弹性裸金属服务器,并完成安装,具体步骤请参考下载和安装obsutil。 使用obsutil之前,您需要配置obsutil与OBS的对接信息,包括OBS终端节点地址(Endpoint)和访问密钥(AK和SK)。获得OBS的认证后,才能使用obsutil执行OBS桶和对象的相关操作,具体步骤请参考初始化配置。 配置完成后,您可以通过命令行的方式在弹性裸金属服务器中对OBS的文件进行上传下载等操作,关于命令行介绍请参考命令行结构。
  • 云硬盘EVS 在EVS服务控制台上购买磁盘,选择裸金属服务器所在的可用区,挂载方式选择暂不挂载,计费模式选择包年包月或者按需计费均可以,磁盘大小根据自身需求进行选择购买,更多EVS购买参数介绍可参考购买云硬盘。 图1 购买磁盘 由于产品特性设计,暂不支持在购买EVS云硬盘时立即挂载到云服务器,此时网页界面会提示不支持原因,挂载方式选择暂不挂载即可。 图2 不支持立即挂载 在完成EVS数据盘购买后,进入Server对应的裸金属服务器详情界面,点击挂载磁盘,选择刚才购买的EVS数据盘进行挂载即可。 图3 挂载磁盘 在退订裸金属服务时,挂载的EVS数据盘不会自动删除。用户可根据自身需求,将其挂载在其他裸金属服务器上或者进行手动删除。
  • 使用前须知 ModelArts Lite Server存在以下使用限制: ModelArts Lite DevServer服务器操作系统升级/修改风险 ModelArts Lite DevServer裸金属服务器,如果升级/修改操作系统内核或者驱动,很可能导致驱动和内核版本不兼容,从而导致OS无法启动,或者基本功能不可用。如果需要升级/修改,请联系华为云技术支持。相关高危命令如:apt-get upgrade。 部分ModelArts Lite DevServer服务器不支持重装系统 如表1所示,弹性云服务器不支持重装操作系统,部分区域的裸金属服务器不支持重装操作系统,若您想重装操作系统,您可通过切换操作系统的方式解决。 表1 重装和切换操作系统能力介绍 功能 弹性云服务器 裸金属服务器 所在区域为华东二Region 所在区域为其他Region 重装操作系统 不支持 不支持 支持 切换操作系统 支持 支持 支持 重装或者切换操作系统后,ModelArts Lite Server服务器的EVS系统盘将不支持扩容 服务器在进行过“重装或者切换操作系统”操作后,EVS系统盘ID发生变化,和下单时订单中的EVS ID已经不一致, 因此EVS系统盘无法扩容,并显示信息:"当前订单已到期,无法进行扩容操作,请续订"。建议挂载数据盘EVS或挂载SFS盘等方式进行存储扩容。 表2 扩容能力介绍 功能 弹性云服务器 裸金属服务器 所在区域为华东二Region 所在区域为其他Region 系统盘ID无变化下扩容 支持 支持 支持 系统盘ID有变化下扩容 不支持 不支持 不支持 父主题: DevServer资源配置
  • 场景介绍 当专属资源池创建完成,使用一段时间后,由于用户AI开发业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts专属资源池提供了扩缩容功能,用户可以根据自己的需求动态调整。 使用扩容功能时,可以增加资源池已有规格的节点数量。 使用缩容功能时,可以减少资源池已有规格的节点数量。 缩容操作可能影响到正在运行的业务,建议用户在业务空窗期进行缩容,或进入资源池详情页面,在指定空闲的节点上进行删除来实现缩容。
  • 修复Standard资源池故障节点 在资源池详情页,切换到“节点”页签。您可以查看资源池中所有的节点,并且能查看每个节点资源占用的情况。 由于集群组件会占用一部分资源,所以列表中CPU(可用/总数)呈现的资源数量不代表该节点物理资源数量,仅表示可被业务使用到的资源量。其中,CPU核数为微核,1000微核=1物理核。若节点发生故障,您可通过以下方式修复节点。 替换节点: “节点”页签中提供对单个节点替换的功能。可单击操作列的“替换”,即可实现对单个节点的替换。替换节点操作不会收取费用。 单击“操作记录”可查看当前资源池替换节点的操作记录。“运行中”表示节点在替换中。替换成功后,节点列表中会显示新的节点名称。 替换最长时间为24小时,超时后仍然未找到合适的资源,状态会变为“失败”。可将鼠标悬浮在图标上,查看具体失败原因。 每天累计替换的次数不超过资源池节点总数的20%,同时替换的节点数不超过资源池节点总数的5%。 替换节点时需确保有空闲节点资源,否则替换可能失败。 当操作记录里有节点处于重置中时,该资源池无法进行替换节点操作。 重置节点 “节点”页签中提供节点重置的功能。单击操作列的“重置”,可实现对单个节点的重置。勾选多个节点的复选框,单击操作记录旁的“重置”按钮,可实现对多个节点的重置。 下发重置节点任务时需要填写以下参数: 表1 重置参数说明 参数名称 说明 操作系统 选择下拉框中支持的操作系统。 配置方式 选择重置节点的配置方式。 按节点比例:重置任务包含多个节点时,同时被重置节点的最高比例。 按节点数量:重置任务包含多个节点时,同时被重置节点的最大个数。 单击“操作记录”可查看当前资源池重置节点的操作记录。重置中节点状态为“重置中”,重置成功后,节点状态变为“可用”。重置节点操作不会收取费用。 图1 重置节点 重置节点将影响相关业务的运行,重置时本地盘会被清空、资源池上的k8s标签会被清除,请谨慎操作。 节点状态为“可用”的节点才能进行重置。 同一时间单个节点只能处于一个重置任务中,无法对同一个节点同时下发多个重置任务。 当操作记录里有节点处于替换中时,该资源池无法进行重置节点操作。 当资源池处于驱动升级状态时,该资源池无法进行重置节点操作。 GPU和NPU规格,重置节点完成后,节点可能会出现驱动升级的现象,请耐心等待。 图2 操作记录 删除/退订/释放节点: 若是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。 若想批量删除节点,勾选待删除节点名称前的复选框,然后单击名称上方的“删除”,即可实现对多个节点的资源释放。 若是“包年/包月”且资源未到期的资源池,您可单击操作列的“退订”,即可实现对单个节点的资源释放。 若是“包年/包月”且资源到期的资源池(处于宽限期),您可单击操作列的“释放”,即可实现对单个节点的资源释放。 部分“包年/包月”节点会出现“删除”按钮,原因是该节点为存量节点,单击“删除”即可实现节点的资源释放。 删除/退订/释放节点可能导致该节点上运行的作业失败,请保证该节点无任务运行时再进行操作。 当资源池中存在异常节点时,可通过删除/退订/释放操作,将资源池中指定的异常节点移除,再通过扩容专属资源池获得和之前相同的总节点个数。 仅有一个节点时,无法进行删除/退订/释放操作。 父主题: 弹性集群
  • Step1 登录SWR 登录 容器镜像服务 控制台,选择区域。 单击右上角“创建组织”,输入组织名称完成组织创建。您可以自定义组织名称,本示例使用“deep-learning”,实际操作时请重新命名一个组织名称。后续所有命令中使用到组织名称deep-learning时,均需要替换为此处实际创建的组织名称。 单击右上角“登录指令”,获取登录访问指令。 以root用户登录ECS环境,输入登录指令。 图1 在ECS中执行登录指令
  • 后续操作 当创建训练作业的参数配置完成后,单击“提交”,在信息确认页面单击“确定”,提交创建训练作业任务。 训练作业一般需要运行一段时间,前往训练作业列表,可以查看训练作业的基本情况。 在训练作业列表中,刚创建的训练作业状态为“等待中”。 当训练作业的状态变为“已完成”时,表示训练作业运行结束,其生成的模型将存储至对应的“输出”目录中。 当训练作业的状态变为“运行失败”或“异常”时,可以单击训练作业的名称进入详情页面,通过查看日志等手段处理问题。 训练作业运行过程中将按照选择的资源进行计费。
  • 配置训练参数 训练过程中需要从OBS桶或者数据集中获取输入数据进行模型训练,训练输出的结果也要存储至OBS桶中。创建训练作业时可以参考表4配置输入、输出、超参、环境变量等参数。 创建训练作业时选择的创建方式不同,训练作业的输入、输出和超参显示不同。如果参数值置灰,即表示该参数已经在算法代码中配置了且不支持修改。 表4 创建训练作业的训练参数 参数名称 子参数 说明 输入 参数名称 算法代码需要通过“输入”的“参数名称”去读取训练的输入数据。 建议设置为“data_url”。训练输入参数要与所选算法的“输入”参数匹配,请参见创建算法时的表2。 数据集 单击“数据集”,在ModelArts数据集列表中勾选目标数据集并选择对应的版本。 训练启动时,系统将自动下载输入路径中的数据到训练运行容器。 说明: ModelArts数据管理模块在重构升级中,对未使用过数据管理的用户不可见。建议新用户将训练数据存放至OBS桶中使用。 数据存储位置 单击“数据存储位置”,从OBS桶中选择训练输入数据的存储位置。 训练启动时,系统将自动下载输入路径中的数据到训练运行容器。 获取方式 以参数名称为“data_path”的训练输入为例,说明获取方式的作用。 当参数的“获取方式”为“超参”时,可以参考如下代码来读取数据。 import argparse parser = argparse.ArgumentParser() parser.add_argument('--data_path') args, unknown = parser.parse_known_args() data_path = args.data_path 当参数的“获取方式”为“环境变量”时,可以参考如下代码来读取数据。 import os data_path = os.getenv("data_path", "") 输出 参数名称 算法代码需要通过“输出”的“参数名称”去读取训练的输出目录。 建议设置为“train_url”。训练输出参数要与所选算法的“输出”参数匹配,请参见创建算法时的表3。 数据存储位置 单击“数据存储位置”,从OBS桶中选择训练输出数据的存储位置。训练过程中,系统将自动从训练容器的本地代码目录下同步文件到数据存储位置。 说明: 数据存储位置仅支持OBS路径。为避免数据存储冲突,建议选择一个空目录用作“数据存储位置”。 获取方式 以参数名称为“train_url”的训练输出为例,说明获取方式的作用。 当参数的“获取方式”为“超参”时,可以参考如下代码来读取数据。 import argparse parser = argparse.ArgumentParser() parser.add_argument('--train_url') args, unknown = parser.parse_known_args() train_url = args.train_url 当参数的“获取方式”为“环境变量”时,可以参考如下代码来读取数据。 import os train_url = os.getenv("train_url", "") 预下载至本地目录 选择是否将输出目录下的文件预下载至本地目录。 不下载:表示启动训练作业时不会将输出数据的存储位置中的文件下载到训练容器的本地代码目录中。 下载:表示系统会在启动训练作业时自动将输出数据的存储位置中的所有文件下载到训练容器的本地代码目录中。下载时间会随着文件变大而变长,为了防止训练时间过长,请及时清理训练容器的本地代码目录中的无用文件。如果要使用断点续训练和增量训练,则必须选择“下载”。 超参 - 超参用于训练调优。此参数由选择的算法决定,如果在算法中已经定义了超参,则此处会显示算法中所有的超参。 超参支持修改和删除,状态取决于算法中的超参“约束”设置,详情请参见定义超参。 环境变量 - 根据业务需求增加环境变量。训练容器中预置的环境变量请参见查看训练容器环境变量。 自动重启 - 打开开关后,可以设置重启次数和是否启用无条件自动重启。 打开自动重启开关后,当由于环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力,开启此功能前请确认代码已适配断点续训,操作指导请参见断点续训练和增量训练。 重启次数的取值范围是1~128,缺省值为3。创建训练后不支持修改重启次数,请合理设置次数。 勾选无条件自动重启后,只要系统检测到训练异常,就无条件重启训练作业。为了避免无效重启浪费算力资源,系统最多只支持连续无条件重启3次。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见查看故障恢复详情。
  • (可选)选择训练模式 当训练作业的算法框架选用的是预置框架的MindSpore类引擎、资源池类型选用的是Ascend资源时,则支持选择训练模式。ModelArts提供了3种训练模式供用户选择,支持根据实际场景获取不同的诊断信息,详细使用请参见训练模式选择。 普通模式:默认训练场景。 高性能模式:最小化调测信息,可以提升运行速度,适合于网络稳定并追求高性能的场景。 故障诊断模式:收集更多的信息用于定位,适合于执行出现问题需要收集故障信息进行定位的场景。此模式提供故障诊断,用户可以根据实际需求选择诊断类别。
  • 前提条件 已经将用于训练作业的数据上传至OBS目录。 已经在OBS目录下创建了至少1个空的文件夹,用于存储训练输出的内容。 ModelArts不支持加密的OBS桶,创建OBS桶时,请勿开启桶加密。 由于训练作业运行需消耗资源,为了避免训练失败请确保账户未欠费。 确保使用的OBS目录与ModelArts在同一区域。 检查是否配置了访问授权。如果未配置,请参见使用委托授权完成操作。 (可选)如果使用已有算法创建训练作业,需要确认“算法管理”中已准备好算法,具体操作请参见准备算法简介。 (可选)如果使用 自定义镜像 创建训练作业,需要上传镜像到SWR服务中,具体操作请参见如何登录并上传镜像到SWR。
  • 操作流程介绍 创建训练作业的操作步骤如下所示。 进入创建训练作业页面。 配置训练作业基本信息。 根据不同的算法来源,选择不同的训练作业创建方式。 使用预置镜像创建训练作业:选择创建方式(使用预置镜像) 使用自定义镜像创建训练作:选择创建方式(使用自定义镜像) 使用已有算法创建训练作业:选择创建方式(使用我的算法) 使用订阅算法创建训练作业:选择创建方式(使用订阅算法) 配置训练参数:配置训练作业的输入、输出、超参、环境变量等参数。 根据需要选择不同的资源池用于训练作业,推荐使用专属资源池,两者的差异说明请参见专属资源池和公共资源池的能力差异。 配置资源池(公共资源池) 配置资源池(专属资源池) (可选)选择训练模式:当训练作业的算法框架选用的是预置框架的MindSpore类引擎、资源池类型选用的是Ascend资源时,则支持选择训练模式。 (可选)设置标签:如果需要对训练作业进行资源分组管理,可以设置标签。 后续操作。