检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
name_cn String 配额名称(中文)。 unit_cn String 数量单位(中文)。 name_en String 工作空间ID,系统生成的32位UUID,不带橫线。默认的工作空间id为'0'。 unit_en String 数量单位(英文)。 请求示例 PUT http
retrying”,则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量,该环境变量由系统自动注入,训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后,单击右侧“重建”,重新创建训练作业,提交训练作业后等待作业完成。
针对未完成验收的任务,可以继续验收。针对未发起过验收流程的任务,不支持“继续验收”,按钮为灰色。 在“任务统计>标注进展”页签中,针对需继续验收的任务,单击“继续验收”。系统直接进入“实时验收报告”页面,您可以继续验收未验收的图片,设置其“验收结果”。 完成验收 继续验收完成后,单击右上角“完成验收”在完成验收
检查containerd是否安装 在创建CCE集群时,会选择 containerd 作为容器引擎,并默认给机器安装。如尚未安装,说明机器操作系统安装错误。需要重新纳管机器,重新安装操作系统。 安装nerdctl工具。nerdctl是containerd的一个客户端命令行工具,使用方式和docker命令基本一致,可用于后续镜像构建步骤中。
sudo systemctl --now enable docker 安装NIVDIA容器插件。 distribution=$(. /etc/os-release;echo $ID$VERSION_ID) && curl -fsSL https://nvidia.github.io
volumes属性列表 参数 参数类型 说明 nfs Object 共享文件系统类型的存储卷。仅支持运行于已联通共享文件系统网络的资源池的训练作业。具体请参见表6。 host_path Object 主机文件系统类型的存储卷。仅支持运行于专属资源池中的训练作业。具体请参见表7。 表6
如何将开发环境Notebook A的数据复制到Notebook B中? 在Notebook中上传文件失败,如何解决? 动态挂载OBS并行文件系统成功,但是在Notebook的JupyterLab中无法看到本地挂载点 父主题: Standard Notebook
开通自动续费后,还可以手动续费该专属资源池。手动续费后,自动续费仍然有效,在新的到期时间前的第7天开始扣款。 自动续费的到期前7日自动扣款属于系统默认配置,您也可以根据需要修改此扣款日,如到期前6日、到期前5日等。 更多关于自动续费的规则介绍请参见自动续费规则说明。 前提条件 请确认包年/包月专属资源池还未到期。
计算节点规格:请根据界面显示的列表,选择可用的规格,置灰的规格表示当前环境无法使用。如果公共资源池下规格为空数据,表示当前环境无公共资源。建议使用专属资源池,或者联系系统管理员创建公共资源池。 计算节点个数:默认为1,输入值必须是1-5之间的整数。 是否自动停止:启用该参数并设置时间后,服务将在指定时间后自
delArts为用户自动创建委托并配置到ModelArts服务中。 一键式自动授权方式为保证使用业务过程中有足够的权限,基于依赖服务的预置系统策略指定授权范围,创建的委托的权限比较大,基本覆盖了依赖服务的全部权限。如果您需要对委托授权的权限范围进行精确控制,请使用定制化委托授权。更多权限控制的内容请参见权限管理章节。
'r') as f: print(f.read()) 例如,列举一个本地路径会使用如下Python代码。 1 2 import os os.listdir('/tmp/my_dir/') 如果要列举一个OBS路径,mox.file则需要如下代码: 1 2 import moxing
port是否正常打开,SFS Turbo所需要入方向的端口号为111、445、2049、2051、2052、20048,具体请参见创建文件系统的“安全组”参数。Cloud Shell功能的操作指导请参见使用CloudShell登录训练容器。 是,则修改安全组的配置,具体操作请参见修改安全组规则。
统一镜像Runtime的命名规范:<AI引擎名字及版本> - <硬件及版本:cpu或cuda或cann> - <python版本> - <操作系统版本> - <CPU架构> 当前支持自定义模型启动命令,预置AI引擎都有默认的启动命令,如非必要无需改动 表1 支持的常用引擎及其Runtime以及默认启动命令
object 网络资源的注释信息。 表4 NetworkMetadataLabels 参数 参数类型 描述 os.modelarts/name String 用户指定的network名称。 os.modelarts/workspace.id String 工作空间ID。获取方法请参见查询工作
epoch } if not os.path.isdir(train_url): os.makedirs(train_url) torch.save(checkpoint, os.path.join(train_url, 'ckpt_best_{}
模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模型的存储路径,AI引擎选择“Custom”,引擎包选择准备镜像中上传的推理镜像。 系统运行架构选择“ARM”。 图2 设置AI应用 单击“立即创建”开始AI应用创建,待应用状态显示“正常”即完成AI应用创建。 若权重文件大于
模型来源选择“从对象存储服务(OBS)中选择”,元模型选择转换后模型的存储路径,AI引擎选择“Custom”,引擎包选择准备镜像中上传的推理镜像。 系统运行架构选择“ARM”。 图2 设置AI应用 单击“立即创建”开始AI应用创建,待应用状态显示“正常”即完成AI应用创建。 首次创建AI应
PYTHONPATH=${MA_JOB_DIR}:${PYTHONPATH} 您选择的启动文件将会被系统自动以python命令直接启动,因此请确保镜像中的Python命令为您预期的Python环境。注意到系统自动注入的PATH环境变量,您可以参考下述命令确认训练作业最终使用的Python版本:
modelarts/name" : "auto-pool-os", "os.modelarts/workspace.id" : "0", "os.modelarts/resource.id" : "maos-auto-pool-os-72w8d" }, "annotations"
况为准。 本地代码目录 指定训练容器的本地目录,启动训练时系统会将代码目录下载至此目录。 此参数可选,默认本地代码目录为“/home/ma-user/modelarts/user-job-dir”。 工作目录 训练时,系统会自动cd到此目录下执行启动文件。 父主题: 制作自定义镜像用于训练模型