检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
包,具有root权限,结合配置指导、初始化工具及容器镜像可以快速搭建昇腾开发环境。 开通裸金属服务器资源请参见DevServer资源开通,在裸金属服务器上搭建迁移环境请参见裸金属服务器环境配置指导,使用ModelArts提供的基础容器镜像请参见容器环境搭建。 训练代码迁移 前提条件
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
VPC下创建弹性云服务器 登录弹性云服务器ECS控制台,单击右上角“购买弹性云服务器”,进入购买弹性云服务器页面,完成基本配置后单击“下一步:网络配置”,进入网络配置页面,选择1中打通的VPC,完成其他参数配置,完成高级配置并确认配置,下发购买弹性云服务器的任务。等待服务器的状态变为
容器调用接口:选择HTTPS。 host:设置为8443。 部署类型:选择在线服务。 图11 设置模型参数 填写启动命令,启动命令内容如下: sh /home/ma-user/infer/run.sh 填写apis定义,单击“保存”生效。apis定义中指定输入为文件,具体内容参见下面代码样例。
设置在线服务故障自动重启 场景描述 当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。 约束限制 仅支持使用Snt9b资源的同步在线服务。 只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。
本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1
适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。 开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。 控制台设置 在创建训练作业页面,开启“
# 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。
添加图片时,图片大小有限制吗? 数据集图片无法显示,如何解决? 如何将多个物体检测的数据集合并成一个数据集? 导入数据集失败 表格类型的数据集如何标注 本地标注的数据,导入ModelArts需要做什么? 为什么通过Manifest文件导入失败? 标注结果存储在哪里? 如何将标注结果下载至本地? 团队标注时,为什么团队成员收不到邮件?
准备一台具有Docker功能的机器,如果没有,建议申请一台弹性云服务器并购买弹性公网IP,并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本,方便安装docker。 本地Linux机器的操作等同ECS服务器上的操作,请参考本案例。 登录ECS控制台,购买弹性云服务器,镜像选择“公共镜像”,推荐使用ubuntu18
x86_64架构的主机,操作系统使用Ubuntu-18.04。您可以准备相同规格的弹性云服务器ECS或者应用本地已有的主机进行自定义镜像的制作。 购买ECS服务器的具体操作请参考购买并登录Linux弹性云服务器。“CPU架构”选择“x86计算”,“镜像”选择“公共镜像”,推荐使用Ubuntu18
用的资源选择。 在ECS服务器挂载SFS Turbo存储 在ECS服务器挂载SFS Turbo存储后,支持将训练所需的数据通过ECS上传至SFS Turbo。 检查云服务环境。 ECS服务器和SFS的共享硬盘在相同的VPC或者对应VPC能够互联。 ECS服务器基础镜像用的是Ubuntu
认证用的app_key和app_secret硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以app_key和app_secret保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_AP
用于控制IB通信超时时间,算法为“4.096 µs * 2 ^ timeout”。如出现NCCL通信超时问题可适当调大,最大可调整至22。较大的值可能会影响性能,设置为18相对平衡。 NCCL_IB_RETRY_CNT 15 IB通信重试次数。建议设置为最大值15,减少IB通信失败的概率。
方式如下: 创建训练作业时,“输入”支持配置训练的输入参数名称(一般设置为“data_url”),以及输入数据的存储位置,“输出”支持配置训练的输出参数名称(一般设置为“train_url”),以及输出数据的存储位置。 训练作业运行成功之后,在训练作业列表中,您可以单击作业名称,
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
ECS文档购买一个Linux弹性云服务器。创建完成后,单击“远程登录”,可直接访问ECS服务器。 注意:CPU架构必须选择鲲鹏计算;镜像推荐选择EulerOS;ECS服务器确保可以访问公网,用于获取镜像和构建镜像。 图3 购买ECS ECS服务器挂载SFS Turbo ECS服务器中手动挂载SFS