检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接? 配置训练专属资源池与SFS弹性文件系统的对等链接,需要资源池打通VPC,使得资源池与SFS弹性文件系统所配置的VPC相同。配置完成后,在创建训练作业时,就可以看到SFS的配置选项。 打通VPC步骤请参考打通VPC。
object 自定义配置参数。 os Os object 操作系统镜像信息。 表9 extendParams 参数 参数类型 描述 dockerBaseSize String 指定资源池节点的容器引擎空间大小。值为0时表示不限制大小。 表10 Os 参数 参数类型 描述 name
LogDir 参数 参数类型 描述 pfs PFSSummary object obs并行文件系统输出。 表29 PFSSummary 参数 参数类型 描述 pfs_path String obs并行文件系统路径url。 表30 DataSource 参数 参数类型 描述 job JobSummary
object 自定义配置参数。 os Os object 操作系统镜像信息。 表9 extendParams 参数 参数类型 描述 dockerBaseSize String 指定资源池节点的容器引擎空间大小。值为0时表示不限制大小。 表10 Os 参数 参数类型 描述 name
智能标注失败,如何处理? 当前智能标注为免费使用阶段,当系统的标注任务过多时,因免费资源有限,导致任务失败,请您重新创建智能标注任务或建议您避开高峰期使用。 智能标注时间过长,如何处理? 当前智能标注为免费使用阶段,当系统的标注任务过多时,因免费资源有限,需要排队,您的标注任务会
少1个容器。 步骤八 启动scheduler实例:可为CPU实例,用于启动api-server服务,负责接收推理请求,向全量或增量推理实例分发请求,收集推理结果并向客户端返回推理结果。服务调度实例不占用显卡资源,建议增加1个容器,也可以在全量推理或增量推理的容器上启动。 前提条件
Turbo”,在“文件系统”中选择SFS Turbo实例名称,并指定“存储位置”和“云上挂载路径”。系统会在训练作业启动前,自动将存储位置中的文件目录挂载到训练容器中指定路径。 图2 设置训练“SFS Turbo” 当前训练作业支持挂载多个弹性文件服务SFS Turbo,文件系统支持重复挂载
先切换至授权区域。 如表1所示,包括了ModelArts的所有系统策略权限。如果系统预置的ModelArts权限,不满足您的授权要求,可以创建自定义策略,可参考策略JSON格式字段介绍。 表1 ModelArts系统策略 策略名称 描述 类型 ModelArts FullAccess
少1个容器。 步骤八 启动scheduler实例:可为CPU实例,用于启动api-server服务,负责接收推理请求,向全量或增量推理实例分发请求,收集推理结果并向客户端返回推理结果。服务调度实例不占用显卡资源,建议增加1个容器,也可以在全量推理或增量推理的容器上启动。 前提条件
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。 原因分析
查看训练作业资源占用情况 约束限制 训练作业的资源占用情况系统会自动保存30天,过期会被清除。 如何查看训练作业资源使用详情 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单
服务流量限制 服务流量限制是指每秒内一个服务能够被访问的次数上限。 运行日志输出 默认关闭,在线服务的运行日志仅存放在ModelArts日志系统。 启用运行日志输出后,在线服务的运行日志会输出存放到云日志服务LTS。LTS自动创建日志组和日志流,默认缓存7天内的运行日志。如需了解L
T网关即可访问公网。 图1 专属资源池连通公网 前提条件 已拥有需要部署SNAT的弹性云服务器。 待部署SNAT的弹性云服务器操作系统为Linux操作系统。 待部署SNAT的弹性云服务器网卡已配置为单网卡。 步骤一:打通VPC 通过打通VPC,可以方便用户跨VPC使用资源,提升资源利用率。
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 问题现象 裸金属服务器EulerOS 2.8系统下,使用yum update -y命令,导致软件NetworkManagre-config-server升级到高版本,出现SSH链接故障无法访问。
8.0-cp36-cp36m-manylinux1_x86_64.whl 方式二:可以在启动文件添加如下代码安装依赖包: import os os.system('pip install xxx') 方式一在训练作业启动前即可完成相关依赖包的下载与安装,而方式二是运行启动文件过程中进行依赖包的下载与安装。
04内核自动升级? 场景描述 在Ubuntu 20.04每次内核升级后,系统需要重新启动以加载新内核。如果您已经安装了自动更新功能,则系统将自动下载和安装可用的更新,这可能导致系统在不经意间被重启,如果使用的软件依赖于特定版本的内核,那么当系统自动更新到新的内核版本时,可能会出现兼容性问题。在使用Ubuntu20
过打开全量日志访问链接进行搜索。全量日志访问链接打开的新页面可以通过Ctrl+F进行搜索。 系统日志过滤 图8 系统日志复选框 如果勾选了系统日志复选框,则日志中呈现系统日志和用户日志。如果去勾选,则只显示用户日志。 父主题: 管理模型训练作业
络(包含混合精度)再到NPU上排查精度问题。常见的精度调测手段,包含使用全精度FP32,或者关闭算子融合开关等,先进行排查。对于精度问题,系统工程人员需要对算法原理有较深入的理解,仅从工程角度分析有时候会非常受限,同时也可联系华为工程师进行诊断与优化。 父主题: GPU训练业务迁移至昇腾的通用指导
个容器。 Step8 启动scheduler实例:可为CPU实例,用于启动api-server服务,负责接收推理请求,向全量或增量推理实例分发请求,收集推理结果并向客户端返回推理结果。服务调度实例不占用显卡资源,建议增加1个容器,也可以在全量推理或增量推理的容器上启动。 前提条件
Torch,训练使用的资源是CPU或GPU。 本实践教程仅适用于新版训练作业。 场景描述 本示例使用Linux x86_64架构的主机,操作系统ubuntu-18.04,通过编写Dockerfile文件制作自定义镜像。 目标:构建安装如下软件的容器镜像,并在ModelArts平台