检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
false:不支持预览 process_parameter 否 String 图像缩略设置,同OBS缩略图设置,详见OBS缩略图设置。如:image/resize,m_lfit,h_200表示等比缩放目标缩略图并设置高度为200像素。 sample_state 否 String 样本状态。可选样本状态如下:
Cluster监控指标章节。 本章节主要介绍如何在AOM上查看Lite Cluster监控指标。 AOM上查看已有监控指标 登录控制台,搜索AOM,进入“应用运维管理 AOM”控制台。 单击“监控 > 指标浏览”,进入“指标浏览”“页面”,单击“添加指标查询”。 图1 示例图片 添加指标查询信息。
文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ##安装obsutil,完成AKSK配置。建议在基础镜像里做好。
资源池驱动进行升级。 专属资源池提供了故障节点修复的功能,可参考修复Standard专属资源池故障节点修复故障节点。 专属资源池提供了动态设置作业类型的功能,可参考修改Standard专属资源池支持的作业类型更新作业类型。 专属资源池提供了工作空间功能,管理员可以根据工作空间,隔
分页列表的起始页,默认为0。 process_parameter 否 String 图像缩略设置,同OBS缩略图设置,详见OBS缩略图设置。如:image/resize,m_lfit,h_200表示等比缩放目标缩略图并设置高度为200像素。 sample_state 否 String 样本状态。可选样本状态如下:
问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数: vim
在创建训练作业页面配置环境变量“ROUTE_PLAN”,取值为“true”,具体操作请参见管理训练容器环境变量。 代码示例 训练作业的启动脚本示例如下。 启动脚本中设置plog生成后存放在“/home/ma-user/modelarts/log/modelarts-job-{id}/worker-{ind
在Notebook列表中,对于要保存的Notebook实例,单击右侧“操作”列中的“更多 > 保存镜像”,进入“保存镜像”对话框。 图1 保存镜像 在保存镜像对话框中,设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。 在“组织”下拉框中选择一个组织。如果没有组织,可以单击右侧的“立即创建”,创建
在Notebook列表中,对于要保存的Notebook实例,单击右侧“操作”列中的“更多 > 保存镜像”,进入“保存镜像”对话框。 图1 保存镜像 在保存镜像对话框中,设置组织、镜像名称、镜像版本和描述信息。单击“确定”保存镜像。 在“组织”下拉框中选择一个组织。如果没有组织,可以单击右侧的“立即创建”,创建
启动两个终端,并在每个终端均设置下述环境变量。 export MASTER_ADDR=127.0.0.1 export MASTER_PORT=29001 export RANK=x # x等于终端的编号,如开启2个终端,x在两个终端中依次设置为0,1 export WORLD_SIZE=2
png",Linux格式"/opt/data/test.png"),也可以使用相对路径(如"./test.png")。 在线服务的调用地址和输入参数信息,可以在控制台的“在线服务详情 > 调用指南”页面获取。 “API接口公网地址”即在线服务的调用地址。当模型配置文件中apis定义了路径,调用地址后需拼
问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数: vim
where the trained ckpt file') args = parser.parse_args() ... # 下载的代码无需设置,后续涉及训练数据和输出路径数据使用data_url和train_url即可 #下载数据参数至容器本地,在代码中使用local_data_path代表训练输入位置
免由服务端发起关闭连接。如您使用的Gunicorn来作为web server,可以通过Gunicorn命令的--keep-alive参数来设置该值。其他方式导入的模型,服务内部已做处理。 协议错误 请求报错:{"error_code":"ModelArts.4503", "error_msg":"Failed
用户将指定路径下已标注的数据导入到数据集中(同时导入标签信息),后续可增加数据集版本发布节点进行版本发布。 数据准备:提前在ModelArts管理控制台,创建数据集,并将已标注的数据上传至OBS中。 from modelarts import workflow as wf # 通过Data
装完成后需要看是否加载到内核,通过执行“lsmod | grep peer”查看是否加载。 如果git clone拉不下来代码,可能需要先设置下git的配置: git config --global core.compression -1 export GIT_SSL_NO_VERIFY=1
${dockerfile_image_name}:在步骤三 构建ModelArts Lite训练镜像中使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:Step3中自己创建的组织名称。示例:GROUP_NAME <镜
${dockerfile_image_name}:在步骤三 构建ModelArts Lite训练镜像中使用Dockerfile创建的新镜像名称。 <镜像仓库地址>:可在SWR控制台上查询,容器镜像服务中登录指令末尾的域名即为镜像仓库地址。 <组织名称>:Step3中自己创建的组织名称。示例:GROUP_NAME <镜
式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS Turbo文件系统前,确认已有可用的VPC。 需要由IAM用户设置SFS Turbo FullAccess权限,用于授权ModelArts云服务使用SFS Turbo。 详细操作指导请参考创建SFS Turbo文件系统。
模型推荐的参数与NPU卡数设置 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量 训练策略类型 文本序列长度(SEQ_LEN) 并行参数设置 micro