检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
、单机多卡和多机多卡的训练场景,满足不同AI模型训练的要求。针对第一次使用ModelArts的用户,本文提供端到端案例指导,帮助您快速了解如何在ModelArts上选择合适的训练方案并进行模型训练。 针对不同的数据量和算法情况,推荐以下训练方案: 单机单卡:小数据量(1G训练数据
处理方法 对于OBS连接不稳定的现象,通过增加代码来解决。您可以在代码最前面增加如下代码,让TensorFlow对ckpt和summary的读取和写入可以通过本地缓存的方式中转解决: import moxing.tensorflow as mox mox.cache() 父主题:
wf.AlgorithmParameters(name="save_model_secs", value=wf.Placeholder(name="save_model_secs", placeholder_type=wf.PlaceholderType.INT, default=60
Shell功能的操作指导请参见使用CloudShell登录训练容器。 是,则修改安全组的配置,具体操作请参见修改安全组规则。 否,则继续下一步。 确认SFS Turbo是否存在异常。 新建一个和SFS Turbo在同一个网段的ECS,用ECS去挂载SFS Turbo,如果挂载失败,则表示SFS
给子账号配置文件夹级的SFS Turbo访问权限 场景描述 本文介绍如何配置文件夹级的SFS Turbo访问权限,实现在ModelArts中访问挂载的SFS Turbo时,只允许子账号访问特定的SFS Turbo文件夹内容。 给子账号配置文件夹级的SFS Turbo访问权限为白名
x['input_ids'], sample[key])) return sample 支持的是预训练数据风格,会根据参数args.json_keys的设置,从数据集中找到对应关键字的文本内容。例如本案例中提供的 train-00000-of-00001-a09b74b3ef9c3b56.parquet
x['input_ids'], sample[key])) return sample 支持的是预训练数据风格,会根据参数args.json_keys的设置,从数据集中找到对应关键字的文本内容。例如本案例中提供的 train-00000-of-00001-a09b74b3ef9c3b56.parquet
x['input_ids'], sample[key])) return sample 支持的是预训练数据风格,会根据参数args.json_keys的设置,从数据集中找到对应关键字的文本内容。例如本案例中提供的 train-00000-of-00001-a09b74b3ef9c3b56.parquet
表2 模型镜像版本 模型 版本 CANN cann_8.0.rc3 驱动 23.0.6 PyTorch 2.1.0 步骤一 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个
BS的文件之间的关系 JupyterLab目录的文件与Terminal中work目录下的文件相同。即用户在Notebook中新建的,或者是从OBS目录中同步的文件。 挂载OBS存储的Notebook,JupyterLab目录的文件可以与OBS的文件进行同步,使用JupyterLa
-b881580 表2 模型镜像版本 模型 版本 CANN cann_8.0.rc2 PyTorch 2.1.0 步骤1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个
模型镜像版本 模型 版本 CANN cann_8.0.rc3 驱动 23.0.6 PyTorch 2.1.0 Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个
29a CANN:cann_8.0.rc2 PyTorch:2.1.0 基础镜像的使用 用户通过ECS获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像、ECS中构建新镜像、Notebook中构建新镜像的方式(三选一)来部署训练环境。方案的区别如下: 直接
注册镜像。登录ModelArts控制台,在左侧导航栏选择“镜像管理”,进入镜像管理页面。单击“注册镜像”,镜像源即为推送到SWR中的镜像。请将完整的SWR地址复制到这里即可,或单击可直接从SWR选择自有镜像进行注册,类型加上“GPU”,如图1所示。 图1 注册镜像 登录Model
模型镜像版本 模型 版本 CANN cann_8.0.rc2 驱动 23.0.5 PyTorch 2.1.0 Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个
连接远端开发环境时,一直处于"ModelArts Remote Connect: Connecting to instance xxx..."超过10分钟以上,如何解决? 问题现象 解决方法 单击“Canel”,并回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。 父主题: VS
连接远端开发环境时,一直处于"ModelArts Remote Connect: Connecting to instance xxx..."超过10分钟以上,如何解决? 问题现象 解决方法 单击“Canel”,并回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。 父主题: VS
组织名称。 单击右上角“登录指令”,获取登录访问指令。以root用户登录ECS环境,输入登录指令。 图1 在ECS中执行登录指令 登录SWR后,使用docker tag命令给上传镜像打标签。下面命令中的组织名称deep-learning,请替换为a.登录容器镜像服务控制台,选择区
├── requirements.txt # 第三方依赖 目前性能测试已经支持投机推理能力。 静态benchmark验证 本章节介绍如何进行静态benchmark验证。 已经上传benchmark验证脚本到推理容器中。如果在Step4 制作推理镜像步骤中已经上传过AscendCloud-LLM-x
Snt9B。 如果使用DevServer资源,请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254