检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
write(ttf.content) 35 # FONT_PATH = "SimSun.ttf" FONT_PATH = os.path.join(os.getenv('DATA'), "SimSun.ttf") 父主题: 训练脚本说明
的资源,“/cache”与代码目录共用10G,会造成内存不足,请更改为使用GPU资源。 请在代码中添加环境变量来解决。 import os os.system('export TMPDIR=/cache') 父主题: 硬盘限制故障
Mox日志反复输出的问题,需要您在“启动文件”中添加如下代码,当“MOX_SILENT_MODE = “1””时,可在日志中屏蔽mox的版本信息: import os os.environ["MOX_SILENT_MODE"] = "1" 父主题: MoXing
nci7。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统,dir为宿主机中文件目录,${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载到/
String 模型名称,名称只能字母,中文开头,为字母、数字、下划线、中文或者中划线组成的合法字符,支持1-64个字符。如果未输入该参数,系统会自动生成模型name。 model_version 是 String 模型版本,格式需为“数值.数值.数值”,其中数值为1-2位正整数。
TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断
TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断
最多支持添加20个标签。 查看资源池的磁盘规格 在资源池详情页的右上角,单击“更多>扩缩容”,在资源池扩缩容页面可以查看该资源规格中携带的系统盘、容器盘、数据盘的磁盘类型、大小、数量和写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。 父主题: 管理Standard专属资源池
进入地址,单击“Download”,选择“Archive Versions”,“Version”选择“4.3-1.0.1.0”,“OS Distribution”选择“Ubuntu”,“OS Distribution Version”选择“Ubuntu 16.04”,“Architecture”选择
# 形式1,数据在OBS上,且是一个压缩文件 obs_path = os.path.join(base_bucket_path, "dataset-zip/dataset.zip") data_local = os.path.join(base_local_path, "dataset/")
nci5。 -v ${dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的大文件系统,dir为宿主机中文件目录,${container_work_dir}为要挂载到的容器中的目录。为方便两个地址可以相同。 说明: 容器不能
用率或NPU利用率,并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化,则判定作业卡死。 系统预置了卡死检测的环境变量“MA_HANG_DETECT_TIME=30”,表示30分钟内进程IO无变化则判定作业卡死。如果需要修改卡死检测
model目录下放置label.json文件,此处读取 dir_path = os.path.dirname(os.path.realpath(self.model_path)) with open(os.path.join(dir_path, 'label.json')) as f:
在“数据处理”页面,单击“创建”进入“创建数据处理”页面。 在创建数据处理页面,填写相关算法参数。 填写基本信息。基本信息包括“名称”、“版本”和“描述”。其中“版本”信息由系统自动生成,按“V0001”、“V0002”规则命名,用户无法修改。 您可以根据实际情况填写“名称”和“描述”信息。 图1 创建数据处理基本信息
TP×PP×CP)的值进行整除。 Step4 开启训练故障自动重启功能 创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断
上,这样会导致下载数据很慢。 在训练作业中,使用如下代码进行“.tar”包解压: import moxing as mox import os mox.file.copy_parallel("obs://donotdel-modelarts-test/AI/data/PyTorch-1
Git插件相关操作,可以方便快捷地使用Github代码库。 Tabs 同时打开多个ipynb文件时,通过Tabs激活或选择文件。 Settings JupyterLab工具系统设置。 Help JupyterLab工具自带的帮助参考。 图15 ipynb文件菜单栏中的快捷键 表4 ipynb文件菜单栏中的快捷键 快捷键
码。 import pandas as pd import moxing as mox mox.file.shift('os', 'mox') # 将os的open操作替换为mox.file.File适配OBS路径的操作 param = {'encoding': 'utf-8'}
ls/{pool_name}/nodes/batch-reboot { "nodeNames" : [ "os-node-created-vrvrq", "os-node-created-4jczv" ] } 响应示例 状态码: 200 OK。 { "job_id" :
模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模型的存储路径,AI引擎选择“Custom”,引擎包选择准备镜像中上传的推理镜像。 系统运行架构选择“ARM”。 图2 设置AI应用 单击“立即创建”开始AI应用创建,待应用状态显示“正常”即完成AI应用创建。 若权重文件大于