检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ECS获取和上传基础镜像 Step1 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step2 登录ECS服务器 根据创建ECS服务器创建完成ECS服务器后,单击“远程登录”,可使用华为CloudShell远程登录如图所示。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。
ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办? 当在训练作业的启动脚本中使用os.system('cd xxx')无法进入相应的文件夹时,建议使用如下方法: import os os.chdir('/home/work/user-job-dir/xxx')
ut_storage,'obs://dyyolov8/yolov5_test/yolov5-7.0/datasets'), mox这个函数怎么定义以变量的形式填写OBS路径? 解决方案 变量定义参考如下示例: input_storage = './test.py' import moxing
正常打开页面,表示当前用户具备SFS的操作权限。 验证ECS权限。 在左上角的服务列表中,选择ECS服务,进入ECS管理控制台。 在ECS管理控制台,单击右上角的“购买弹性云服务器”,如果能正常打开页面,表示当前用户具备ECS的操作权限。 验证VPC权限。 在左上角的服务列表中,选择VPC服务,进入VPC管理控制台。
traceback): : Unable to connect to endpoint 原因分析 OBS连接不稳定可能会出现报错,“Unable to connect to endpoint”。 处理方法 对于OBS连接不稳定的现象,通过增加代码来解决。您可以在代码最前面增加如下代码,让TensorF
部署的在线服务状态为告警 问题现象 在部署在线服务时,状态显示为“告警”。 解决方法 使用状态为告警的服务进行预测,可能存在预测失败的风险,请从以下4个角度进行排查,并重新部署。 后台预测请求过多。 如果您使用API接口进行预测,请检查是否预测请求过多。大量的预测请求会导致部署的在线服务进入告警状态。
在大规模分布式作业上,每个节点都在复制同一个桶的文件,导致OBS桶限流。 OBS Client连接数过多,进程/线程之间的轮询,导致一个OBS Client与服务端连接30S内无响应,超过超时时间,服务端断开了连接。 处理方法 如果是限流问题,日志中还会出现如下报错,OBS相关的错误码解释请参见OBS官方文档,这种情况建议提工单。
上传数据和算法至SFS(首次使用时需要) 前提条件 ECS服务器已挂载SFS,请参考ECS服务器挂载SFS Turbo存储。 在ECS中已经创建ma-user和ma-group用户,请参考在ECS中创建ma-user和ma-group。 已经安装obsutil,请参考下载和安装obsutil。
本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1
NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 表4 VolumeReq 参数 是否必选 参数类型
请在“在线服务”详情页面的日志页签中查看对应的报错日志,分析报错原因。 图2 报错日志 从上图报错日志判断,预测失败是模型推理代码编写有问题。 解决方法 根据日志报错提示,append方法中缺少必填参数,修改模型推理代码文件“customize_service.py”中的代码,给append方法中传入合理的参数。
"D+"表示进程状态为"Uninterruptible Sleep (usually IO)",即进程正在等待I/O操作完成,此时无法被中断。 在正常情况下,nvidia-smi进程通常只会短暂地出现D+状态,因为它们是由内核控制的,该进程处于等待I/O操作完成的状态,可能是在读取或写入GPU相关的数据,这是正常的操
NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 key_pair_names 否 Array of strings SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 表4 CustomHooks 参数 是否必选
检查浏览器是否安装了过滤广告组件,如果是,请关闭该组件。 报错404 如果是IAM用户在创建实例时出现此错误,表示此IAM用户不具备对应存储位置(OBS桶)的操作权限。 解决方法: 使用账号登录OBS,并将对应OBS桶的访问权限授予该IAM用户。详细操作指导请参见:被授权用户。 IAM用户获得权限后,登录Mode
"No space") 解决方法 在遇到资源不足的情况时,ModelArts会进行三次重试,在服务重试期间,如果有资源释放出来,则服务可以正常部署成功。 如果三次重试后依然没有足够的资源,则本次服务部署失败。参考以下方式解决: 如果是在公共资源池部署服务,可等待其他用户释放资源后,再进行服务部署。
ECS中上传新镜像 Step1 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图1 复制登录指令 Step2 修改并上传镜像 在ECS服务器中输入登录指令后,使用下
ECS中上传新镜像 Step1 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图1 复制登录指令 Step2 修改并上传镜像 在ECS服务器中输入登录指令后,使用下
(8GB) | ARM: 3 核 6GB”资源为灰色,无法选择。 解决方案: 方法1:如果您希望使用公共资源池下的Ascend Snt3,可以等待其他用户释放,即其他使用Ascend Snt3芯片的服务停止,您即可选择此资源进行部署上线。 方法2:如果专属资源池还有Ascend Snt3资源,您可以创建一个Ascend
单击“Open”。如果首次登录,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“Accept”将证书保存到本地注册表中。 图6 询问是否接受服务器的安全证书 成功连接到云上Notebook实例。 图7 连接到云上Notebook实例 父主题: 使用Notebook进行AI开发调试
ssh SSHResp object SSH连接信息。 jupyter_lab JupyterLab object JupyterLab连接信息。 tensorboard Tensorboard object Tensorboard连接信息。 mindstudio_insight