检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据直接从一台计算机的内存传输到另一台计算机。 RoCE:RDMA over Converged Ethernet(RoCE)是一种网络协议,允许应用通过以太网实现远程内存访问。 IB:InfiniBand (IB) 是一种高性能计算机网络通信协议,专为高性能计算和数据中心互连设计。
当节点的可用、异常、创建中、删除中的数量发生变化时,因资源池节点状态变化,会将此变化信息记录到事件中。 图1 查看资源池事件 查看资源池节点 在资源池详情页,切换到“节点”页签。您可以查看资源池中所有的节点,并且能查看每个节点资源占用的情况。当把鼠标放在节点名称上方时,会显示节点名称和资源ID,资源ID可用于查询账
查询专属资源池列表。 资源管理接口 表13 配置管理 API 说明 查询OS的配置参数 获取ModelArts OS服务的配置参数,如网络网段,用户资源配额等。 表14 插件模板管理 API 说明 查询插件模板 获取指定插件模板的详细信息。 表15 节点管理 API 说明 查询节点列表 查询资源池中的节点列表。
为了支持客户对ModelArts的权限做精细化控制,提供了3个方面的能力来支撑,分别是:权限、委托和工作空间。下面分别讲解。 理解ModelArts的权限与委托 图1 权限管理抽象 ModelArts每个功能都通过IAM的权限来进行控制。比如,用户(此处指IAM子用户,而非租户)希
总览页查看监控信息 在总览页查看全部事件时,如果顶部事件总数和底部的“总条数”数量不一致,请刷新重试。 在各模块资源监控页签查看ModelArts监控指标 训练作业:用户在运行训练作业时,可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。 在线服务
镜像预热配置,具体操作请参见(可选)配置镜像预热。 更多相关操作 其它更多操作如下: 节点池管理操作请参见管理Lite Cluster节点池 节点管理操作请参见管理Lite Cluster节点 扩缩容Lite Cluster资源池操作请参见扩缩容Lite Cluster资源池 升级Lite
服务类型管理页面。您可以单击“操作”列的“启动”,启动服务。 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署”,进入目标服务类型管理页面。单击目标服务名称,进入服务详情页面。您可以单击页面右上角“启动”,启动服务。 部署方式为ModelArts边缘节点和ModelArts边缘资源池的服务不支持启动。
在新版自动学习页面,单击创建成功的项目名称,查看当前工作流的执行情况。 在“预测分析”节点中,待节点状态由“运行中”变为“运行成功”,即完成了模型的自动训练。 训练完成后,您可以在预测分析节点中单击查看训练详情,如“标签列”和“标签列数据类型”、“准确率”、“评估结果”等。 该示例为二分类的离散型数值,评估效果参数说明请参见表1。
continuous:指定时表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时,控制台显示为输入框。 discrete:指定时表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时,控制台显示为下拉选择框架。 lower_bound String 超参下界。 upper_bound
资源管理 查询OS的配置参数 查询插件模板 查询节点列表 批量删除节点 批量重启节点 查询事件列表 创建网络资源 查询网络资源列表 查询网络资源 删除网络资源 更新网络资源 查询资源实时利用率 创建资源池 查询资源池列表 查询资源池 删除资源池 更新资源池 资源池监控 资源池统计
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40
服务管理 通过patch操作对服务进行更新 查询服务监控信息 查询服务列表 部署服务 查询支持的服务部署规格 查询服务详情 更新服务配置 删除服务 更新模型服务的单个属性 查询专属资源池列表 查询服务事件日志 启动停止边缘节点服务实例 查询服务更新日志 添加资源标签 删除资源标签
出现该问题的可能原因如下: 如果在此之前是有进行数据复制的,每个节点复制的速度不是同一个时间完成的,然后有的节点没有复制完,其他节点进行torch.distributed.init_process_group()导致超时。 处理方法 如果是多个节点复制不同步,并且没有barrier的话导致的超时,可以在复制数据之前,先进行torch
队标注作业的名称后带有标识。) 单击作业操作列的“更多>标注人员管理”。或单击作业名称进入作业详情,继续单击右上角“团队标注>标注人员管理”,进入成员管理页面。 图3 进入标注人员管理页(1) 图4 进入标注人员管理页(2) 添加成员: 单击页面“添加成员”,选择成员名称,单击确定。
JobInput objects 节点的输入项。 outputs Array of JobOutput objects 节点的输出项。 step_uuid String 节点的UUID,唯一性标识。 properties Map<String,Object> 节点的属性。 events Array
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40