检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
TMOUT=0 磁盘合并挂载。 成功购买裸金属服务器后,服务器上可能会有多个未挂载的nvme磁盘。因此在首次配置环境前,需要完成磁盘合并挂载。此操作需要放在最开始完成,避免使用一段时间后再挂载会冲掉用户已存储的内容。 首先通过“lsblk”查看是否有3个7T的磁盘未挂载,如下图所
AI开发流程科普视频 特性讲解 昇腾云服务 产品介绍 03:55 了解什么是昇腾云服务 华为云ModelArts服务视频 训练作业容错检查功能介绍 04:48 了解什么是训练作业容错检查功能 华为云ModelArts服务视频 高可用冗余节点功能介绍 03:07 了解什么是高可用冗余节点功能
该指标用于统计测量对象已使用的显存占显存容量的百分比。 百分比(Percent) 0~100% 磁盘可用容量 该指标用于统计测量对象可用的磁盘容量。 MB ≥0 磁盘容量 该指标用于统计测量对象磁盘总容量。 MB ≥0 磁盘利用率 该指标用于统计测量对象的磁盘使用率。 百分比(Percent) 0~100% GPU/NPU碎片数
kubectl是Kubernetes集群的命令行工具,配置kubectl后,您可通过kubectl命令操作Kubernetes集群。本文介绍如何配置kubectl工具,操作步骤如下。 登录ModelArts管理控制台,在左侧菜单栏中选择“AI专属资源池 > 弹性集群 Cluster”,进入“弹性集群 Cluster”页面,选择“Lite
left on device” 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。
通过SSH工具远程使用Notebook 本节操作介绍在Windows环境中使用PuTTY SSH远程登录云上Notebook实例的操作步骤。 前提条件 创建一个Notebook实例,并开启远程SSH开发,配置远程访问IP白名单。该实例状态必须处于“运行中”,具体参见创建Notebook实例章节。
如果需要升级/修改,请联系华为云技术支持。 切换或者重置操作系统。 服务器在进行过“切换或者重置操作系统”操作后,EVS系统盘ID发生变化,和下单时订单中的EVS ID已经不一致, 因此EVS系统盘将不支持扩容,并显示信息:“当前订单已到期,无法进行扩容操作,请续订”。 中 切换
训练作业 创建训练作业 查询训练作业列表 查询训练作业版本详情 删除训练作业版本 查询训练作业版本列表 创建训练作业版本 停止训练作业版本 更新训练作业描述 删除训练作业 获取训练作业日志的文件名 查询预置算法 查询训练作业日志 父主题: 训练管理(旧版)
工作空间管理权限 表1 工作空间管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建工作空间 POST /v1/{project_id}/workspaces modelarts:workspace:create - √ √ 查询工作空间列表 GET
新建文件夹将checkpoints里的数据移动到新的文件夹下。 图1 JupyterLab浏览器左侧导航无法打开checkpoints 操作步骤: 打开Terminal,用命令行进行操作。 方法一:执行cd checkpoints命令打开checkpoints文件夹。 方法二:新
Standard资源池 ModelArts支持使用ECS创建专属资源池吗? 1个节点的专属资源池,能否部署多个服务? 专属资源池购买后,中途扩容了一个节点,如何计费? 共享池和专属池的区别是什么? 如何通过ssh登录专属资源池节点? 训练任务的排队逻辑是什么? 专属资源池下的在线服
训练作业如何调用shell脚本,是否可以执行.sh文件? ModelArts支持调用shell脚本,可以使用python调用“.sh”。具体操作步骤如下: 上传“.sh”脚本至OBS桶,例如“.sh”所在存储位置为 “ /bucket-name/code/test.sh”。 在本地创建“
oolkit docker无法挂载GPU卡 本地磁盘挂载巡检 MountDiskSystem 重要 /etc/fstab中有无效的UUID 请检查/etc/fstab配置文件中UUID的正确性,否则可能会导致机器重启失败 挂载磁盘错误,导致机器重启异常 GPU:Ant系列机器动态路由配置错误
Notebook样例列表 样例 镜像 对应功能 场景 说明 将Notebook的Conda环境迁移到SFS磁盘 - 环境迁移 开发环境 本案例介绍如何将Notebook的Conda环境迁移到SFS磁盘上。 使用ModelArts PyCharm插件调试训练ResNet50图像分类模型 MindSpore
Code中上传数据至Notebook 不大于500MB数据量,直接复制至本地IDE中即可。 大于500MB数据量,请先上传到OBS中,再从OBS上传到云上开发环境。 操作步骤 上传数据至OBS。具体操作请参见上传文件至OBS桶。 或者在本地VS Code的Terminal中使用ModelArts SDK完成数据上传至OBS。首先在本地VS
系统盘:显示系统盘的磁盘类型和大小。系统盘的磁盘类型支持本地盘和云硬盘(包括通用SSO、高IO和超高IO)。部分规格的系统盘仅支持本地盘。 容器盘:显示容器盘的存储类型、大小和数量。部分规格的容器盘存储类型支持手动设置,可以选择本地盘或云硬盘。 容器盘高级配置:支持设置“指定磁盘空间”、“容器引擎空间大小”、写入模式。
如何安装C++的依赖库? 在训练作业的过程中,会使用到第三方库。以C++为例,请参考如下操作步骤进行安装: 将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。 将上传到OBS的源码使用Moxing复制到开发环境Notebook中。 以下为使用EVS挂载
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
ModelArts提供了两个昇腾迁移案例,方便您快速了解并完成昇腾迁移过程。 约束限制 当前仅贵阳一区域支持选择本案例中的规格及镜像。 操作步骤 ModelArts管理控制台左侧导航栏中选择“开发环境 > Notebook”,进入“Notebook”管理页面。 单击“创建”,进入“创建Notebook”页面。