检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果一个自定义策略中包含多个服务的授权语句,这些服务必须是同一属性,即都是全局级服务或者项目级服务。 由于OBS为全局服务,ModelArts为项目级服务,所以需要创建两条“作用范围”别为“全局级服务”以及“项目级服务”的自定义策略,然后将两条策略同时授予用户。 创建ModelArts相关OBS的最小化权限的自定义策略。
Lite模式DevServer节点操作系统 HCE2.0(推荐)/EulerOS 2.10 Lite模式Cluster节点操作系统 EulerOS 2.10(CCE标准版)/HCE2.0(CCE Turbo) Standard模式集群节点操作系统 EulerOS 2.10(CCE标准版)
创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。 需要由IAM用户设置SFS Turbo FullAccess权限,用于授权ModelArts云服务使用SFS Turbo。 详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS
户的权限管理,各个云服务都提供了一些预置的“系统策略”供用户直接使用。如果预置的策略不能满足您的细粒度权限控制要求,则可以通过“自定义策略”来进行精细控制。 表1列出了ModelArts的所有预置系统策略。 表1 ModelArts系统策略 策略名称 描述 类型 ModelArts
支持单机多卡、多机多卡的分布式训练,有效加速训练过程 支持训练作业的故障感知、故障诊断与故障恢复,包含硬件故障与作业卡死故障,并支持进程级恢复、容器级恢复与作业级恢复,提供容错与恢复能力,保障用户训练作业的长稳运行 提供训练作业断点续训与增量训练能力,即使训练因某些原因中断,也可以基于ch
oints?type=host_endpoints 方式一:图形界面的软件获取服务的IP和端口号 图6 接口返回示例 方式二:Python语言获取IP和端口号 Python代码如下,下述代码中以下参数需要手动修改: project_id:用户项目ID,获取方法请参见获取项目ID和名称。
模型名称。 model_usage Integer 模型用途。 1代表图像分类 2代表检测物体的类别和位置 3代表图像语义分割 4代表自然语言处理 5图嵌入 model_precision String 模型精度描述。 model_size Long 模型大小,单位为字节(Byte)。
过打开全量日志访问链接进行搜索。全量日志访问链接打开的新页面可以通过Ctrl+F进行搜索。 系统日志过滤 图8 系统日志复选框 如果勾选了系统日志复选框,则日志中呈现系统日志和用户日志。如果去勾选,则只显示用户日志。 父主题: 管理模型训练作业
开关打开:表示当由于环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。 打开开关后,可以设置“最大重启次数”和是否启用“无条件自动重启”。 重启次数的取值范围是1~128,缺省值为3。创建调优任务后不支持修改重启次数,请合理设置次数。 开启无条件自动重启后,只要系统检测到训练异
如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。 如果是触发了欧拉操作系统的限制,有如下建议措施。 分目录处理,减少单个目录文件量。 减慢创建文件的速度。 关闭ext4文件系统的dir_index属性,具体可参考:https://access.redhat.co
表2 Query参数 参数 是否必选 参数类型 描述 email 否 String 标注团队成员邮箱。 locale 否 String 语言。可选值如下: zh-cn:中文 en-us:英文(默认值) sample_state 否 String 查询指定样本状态下的统计信息。可选样本状态如下:
查询OS的配额 功能介绍 获取ModelArts OS服务中部分资源的配额,如资源池配额、网络配额等。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1
ummary文件先上传到OBS并行文件系统,并确保OBS并行文件系统与ModelArts在同一区域。在Notebook中启动MindInsight时,Notebook会自动从挂载的OBS并行文件系统目录中读取Summary数据。 Step3 启动MindInsight 在开发环境
的Summary文件先上传到OBS并行文件系统,并确保OBS并行文件系统与ModelArts在同一区域。在Notebook中启动TensorBoard时,Notebook会自动从挂载的OBS并行文件系统目录中读取Summary数据。 Step3 启动TensorBoard 在开发
如果是分布式作业有的节点有错误,有的节点正常,建议提工单请求隔离有问题的节点。 如果是触发了欧拉操作系统的限制,有如下建议措施。 分目录处理,减少单个目录文件量。 减慢创建文件的速度。 关闭ext4文件系统的dir_index属性,具体可参考:https://access.redhat.co
e_path。 import os current_path = os.path.dirname(os.path.realpath(__file__)) # BootfileDirectory, 启动文件所在的目录 project_root = os.path.dirname(current_path)
止后会被保留,存储支持在线按需扩容。 只能在单个开发环境中使用 。 并行文件系统PFS 说明: 并行文件系统PFS为白名单功能,如需使用,请联系华为技术支持开通。 仅支持挂载同一区域下的OBS并行文件系统(PFS)。 适合直接使用PFS桶作为持久化存储进行AI开发和探索,使用场景如下。
查询OS的配置参数 功能介绍 获取ModelArts OS服务的配置参数,如网络网段,用户资源配额等。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1
方法得到较好的应用。通用的训练任务调优、参数调优可以通过可观测数据来进行分析与优化,一般来说分段对比GPU的运行性能会有比较好的参考。算子级的调优某些情况下如果是明显的瓶颈或者性能攻坚阶段,考虑到门槛较高,可以联系华为工程师获得帮助。 精度问题根因和表现种类很多,会导致问题定位较
REBOOT_FAILED: 重启失败; CHANGINGOS: 切换操作系统中: CHANGINGOS_FAILED: 切换操作系统失败: REINSTALLINGOS: 重装操作系统中: REINSTALLINGOS_FAILED。重装操作系统失败。 vpc_id String 实例所在虚拟私有云ID。