检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
docker容器,并在容器内进行分布式训练。而install.sh则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图1 训练作业启动命令 父主题: 准备镜像
像、Workflow等资产。 图1 搜索资产 表1 快速搜索方式 区域 类型 搜索方式 支持的AI资产 1 搜索华为云官方资产 在页面单击“官方”,筛选出所有的华为云官方资产,该类资产均可免费使用。 Notebook、算法、模型 2 搜索精选商品 在页面单击“精选”,筛选出所有被标记为精选的资产。
--device=/dev/davinci0,..., --device=/dev/davinci7:挂载NPU设备,示例中挂载了8张卡davinci0~davinci7。 driver及npu-smi需同时挂载至容器。 不要将多个容器绑到同一个NPU上,会导致后续的容器无法正常使用NPU功能。 Step4 进入容器
本文主要指导如何在GPU A系列裸金属服务器上测试RoCE性能带宽。 前提条件 GPU A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。) 操作步骤 方法1:使用mlx硬件计数器,估算ROCE网卡收发流量
data.OBSPlaceholder(name="obs_placeholder_name", object_type="directory")),# CreateDatasetStep的输入,数据在运行时进行配置;data字段也可使用wf.data.OBSPath(obs_pat
已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 步骤一:配置委托访问授权 ModelArts使用过程中涉及到与OBS、SWR等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。 使用华为账号登录华为云,搜索ModelArts
需注意,更新节点池配置时,高级配置仅对新增的节点生效,其中“存量节点标签及污点”、“存量节点资源标签”支持对存量节点同步改动(勾选对应的复选框)。 节点池中更新的“资源标签”信息会同步到节点上。 图2 更新节点池 删除节点池 当有多个节点池时,支持删除节点池,此时在操作列会显示“删除”按钮,
Boolean 是否同步更新智能标注数据。可选值如下: true:同步更新智能标注数据 false:不同步更新智能标注数据 is_synchronize_data Boolean 是否同步更新数据:如上传文件、同步数据源、导入的未标注文件同步分配至团队成员。可选值如下: true:同步更新数据至团队成员
准备租户名ID和IAM用户名ID,用于OBS桶配置。 将您的租户名ID和IAM用户名ID提供给华为技术支持,华为云技术支持将根据您提供的信息,为您配置OBS桶策略,以便用户收集的日志可以上传至对应的OBS桶。 华为云技术支持配置完成后,会给您提供对应的OBS桶目录“obs_dir”,该目录用于后续配置的脚本中。
桶区域位置) obs:object:GetObject(获取对象内容、获取对象元数据) obs:object:GetObjectVersion(获取对象内容、获取对象元数据) obs:object:PutObject(PUT上传、POST上传、复制对象、追加写对象、初始化上传段任务、上传段、合并段)
免费资产无需支付费用,只需要支付在使用过程中消耗的硬件资源,硬件资源费用将根据实际使用情况由华为云ModelArts等管理控制台向使用方收取。 当前支持免费分享和订阅的资产类型有:Notebook代码样例、数据集、算法、模型、镜像。 商用资产由华为云云商店提供卖家发布和买家购买相关功能,AI Gallery仅提
通过DatasetImportStep将指定路径下的数据导入到数据集中,输出数据集对象 # 定义数据集对象 dataset = wf.data.DatasetPlaceholder(name="input_dataset") # 定义OBS数据对象 obs = wf.data.OBSPlaceholder(name
sdk会将代码自动上传至OBS,并同步到训练环境 train_file = TrainingFiles(code_dir=code_dir_local, boot_file=boot_file, obs_path=code_obs_path) # 指定OBS中的数据集路径,会自动
//npu卡设备 --device=/dev/davinci3 //npu卡设备 --device=/dev/davinci4 //npu卡设备 --device=/dev/davinci5 //npu卡设备 --device=/dev/davinci6 //npu卡设备 --device=/dev/davinci7
复制完,其他节点进行torch.distributed.init_process_group()导致超时。 处理方法 如果是多个节点复制不同步,并且没有barrier的话导致的超时,可以在复制数据之前,先进行torch.distributed.init_process_group
网关,配置网络检测对象IP和查询LLDP信息等。 Atlas 800训练服务器备件查询助手 备件查询助手可以帮助您查询服务器的所有部件、规格描述,数量等详细信息。 打开网站后请输入SN编码“2102313LNR10P5100077”, 若失效可以提工单至华为云ModelArts查询。
请提交工单联系华为工程师开启节点绑定。 ModelArts与OBS交互 ModelArts不支持从加密的OBS桶中读取数据,创建OBS桶时,请勿开启桶加密。 ModelArts不支持跨区域访问OBS桶,请确保使用的OBS与ModelArts在同一区域。
ModelArts开发环境 ModelArts作为华为云上的AI开发平台,提供交互式云上开发环境,包含标准化昇腾算力资源和完整的迁移工具链,帮助用户完成昇腾迁移的调测过程,进一步可在平台上将迁移的模型一键部署成为在线服务向外提供推理服务,或者运行到自己的运行环境中。 MindSpore Lite
如何获取访问密钥? 获取访问密钥 登录华为云,在页面右上方单击“控制台”,进入华为云管理控制台。 图1 控制台入口 在控制台右上角的账户名下方,单击“我的凭证”,进入“我的凭证”页面。 图2 我的凭证 在“我的凭证”页面,选择“访问密钥>新增访问密钥”,如图3所示。 图3 单击新增访问密钥
Boolean 是否同步更新智能标注数据。可选值如下: true:同步更新智能标注数据 false:不同步更新智能标注数据 is_synchronize_data Boolean 是否同步更新数据:如上传文件、同步数据源、导入的未标注文件同步分配至团队成员。可选值如下: true:同步更新数据至团队成员