检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
s/code/main.py”。 超参 当资源规格为单机多卡时,需要指定超参world_size和rank。 当资源规格为多机时(即实例数大于 1),无需设置超参world_size和rank,超参会由平台自动注入。 方式二:使用自定义镜像功能,通过torch.distributed
py并将此脚本作为“启动文件”。这样启动的作业将会持续运行60分钟。您可通过Cloud Shell进入容器进行调试。 sleep.py示例: import os os.system('sleep 60m') 图4 预置框架启动方式 如果训练作业使用的是自定义镜像 在创建训练作业时,“创建方式”选择“自
若用户的机器或资源池无法连通网络,并无法git clone下载代码、安装python依赖包的情况下,用户则需要找到已联网的机器(本章节以Linux系统机器为例)提前下载资源,以实现离线安装。用户可遵循以下步骤: 步骤一:资源下载 Python依赖包下载:进入 scripts/install
径。 检查使用的资源是否为CPU,CPU的“/cache”与代码目录共用10G,可能是空间不足导致,可在代码中使用如下命令查看磁盘大小。 os.system('df -hT') 磁盘空间满足,请执行5。 磁盘空间不足,请您使用GPU资源。 如果是在Notebook使用MoXing
资源包名称。支持本地文件,OBS路径及用户已上传到DLI资源管理系统的文件。如果需要指定多个参数,可以使用--resources resource1 --resources resource2。 --files Array of String 否 用户已上传到DLI资源管理系统的类型为file的资源包名。也支持
详细代码和指导可参考Bert。 图1 任务示意图 操作步骤 拉取镜像。本测试镜像为bert_pretrain_mindspore:v1,已经把测试数据和代码打进镜像中。 docker pull swr.cn-southwest-2.myhuaweicloud.com/os-pub
支持AdvanceStep算子,满足vllm投机推理场景 多个融合算子支持PTA图模式适配,满足AIGC场景 支持两种版本配套算子包(torch2.1.0和python3.9、torch2.3.1和python3.10) 无 父主题: 产品发布说明
昇腾云服务6.3.910版本说明(推荐) 本文档主要介绍昇腾云服务6.3.910版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 配套关系 Snt9B 西南-贵阳一 PyTorch: swr
支持AdvanceStep算子,满足vllm投机推理场景 多个融合算子支持PTA图模式适配,满足AIGC场景 支持两种版本配套算子包(torch2.1.0和python3.9、torch2.3.1和python3.10) 无 父主题: 产品发布说明
由于ModelArts产品的持续更新和迭代,第三方案例中的界面和步骤可能因时效性而与最新产品有所差异,仅供学习和参考。 表6 第三方案例列表 分类 文章名称 作者 Standard自动学习 2步打通ModelArts和Astro实现AI应用落地 胡琦 Standard开发环境 想不想让一张静态的照片动起来
rank,用于分析计算和任务下发的快慢卡)和集群带宽统计数值(slow link,用于分析集群中的网络通信慢链路)。点开slow rank模块,html中会基于表格展示每张卡不同step的计算耗时、通信耗时和空闲耗时。基于该表格,通常关注计算耗时(compute)和空闲耗时(free
昇腾云服务6.3.905版本说明 本文档主要介绍昇腾云服务6.3.905版本配套的镜像地址、软件包获取方式和支持的特性能力。 配套的基础镜像 镜像地址 获取方式 镜像软件说明 配套关系 PyTorch: 西南-贵阳一 swr.cn-southwest-2.myhuaweicloud
SDK构建自定义模型,需要了解2个核心基础类“PretrainedModel”和“PretrainedConfig”之间的交互。 “PretrainedConfig”:预训练模型的配置基类 提供模型配置的通用属性和两个主要方法,用于序列化和反序列化配置文件。 PretrainedConfig.from_pretrained(dir)
推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 表1 环境要求 名称 版本 CANN cann_8.0.rc1 PyTorch pytorch_2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 ascendcloud-aigc-6
昇腾云服务6.3.906版本说明 本文档主要介绍昇腾云服务6.3.906版本配套的镜像地址、软件包获取方式和支持的特性能力。 配套的基础镜像 镜像地址 获取方式 配套关系镜像软件说明 配套关系 PyTorch: 西南-贵阳一 swr.cn-southwest-2.myhuaweicloud
vors 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 continue 否 String 分页查询时上一页位置。 labelSelector
参数 参数类型 说明 type String 存储类型。 当前支持“obs”、“obsfs” 和“evs”,其中,obsfs类型当前仅支持部分专属资源池。若您需要挂载OBS并行文件系统,请提工单。 location Object 存储位置,如果type为“obs”类型,该参数必须
PU设备信息。 npu-smi info 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
train_evaluate_ratio 否 String 根据版本切分比例筛选数据集。例如:“0.0,1.0”,根据逗号分隔最小和最大切分比例,筛选出切分比例在此范围内的版本。说明:如果参数值为空或无该参数,系统默认不根据版本切分比例筛选数据集。 version_format 否 Integer 根据数据集发
昇腾云服务6.3.907版本说明 本文档主要介绍昇腾云服务6.3.907版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 镜像地址 获取方式 镜像软件说明 配套关系 西南-贵阳一 PyTorch: swr.cn-southwest-2