检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String 导入表格数据集,数据库名字。 input 否 String 表格数据集,HDFS路径。例如/datasets/demo。 ip 否
run,对应固件文件为Ascend-hdk-910b-npu-firmware_7.5.0.3.220.run,请申请下载。 安装固件命令如下,安装完后需要reboot重启机器。 chmod 700 *.run ./Ascend-hdk-910b-npu-firmware_7.5.0.3.220.run --full
train_auto_resume false 【可选】是否开启【故障快恢】功能,【true、false】默认false不开启,当训练中断时重启任务会从最新生成权重文件处继续训练。可参考断点续训和故障快恢说明 handler-name GeneralPretrainHandler
S指定的可用卡数一致。 --address:头节点IP+端口号,头节点创建成功后,会有打印。 环境变量每个节点都要设置。 更新环境变量需要重启Ray集群。 选择其中一个节点,添加指定分布式后端参数【--distributed-executor-backend=ray】,其他参数与
divided by 4, (counting in double words, 32 bits), received on all VLs from the port. (counting in double words, 32 bits ≥0 NA NA NA 网卡发送数据总量 ma
设置待部署模型的流量限制QPS。 单位:次/秒 说明: 在部署过程中出现错误码“ModelArts.4206”时,表示QPS请求数量达到限制,建议等待限流结束后再重启服务。 实例数 设置服务器个数。 推荐实例数 = 流量限制 ÷ 推荐的单实例流量限制 推荐的单实例流量限制请参见单实例QPS的推荐值说明。
否,则在高级配置的“plugins”参数下添加“{"name":"cabinet"}”,单击下方的“安装”使Volcano调度器更新配置,完成滚动重启。 修改torch_npu训练启动脚本。 脚本要使用torch.distributed.launch/run命令启动,不能使用mp.spa
install modelarts_workflow-1.0.1-py2.py3-none-any.whl 如果导入失败,建议重新执行安装命令,或者重启kernel后再次执行安装命令。 方法二:使用本地IDE远程连接Notebook准备环境 使用本地IDE如PyCharm开发工作流,您只需
duration Integer 启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”, 表示可以无限制保存。 billing_flavor String 计费规格。当该字段为空时,使用规格名称计费。
duration Integer 启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”, 表示可以无限制保存。 billing_flavor String 计费规格。当该字段为空时,使用规格名称计费。
使用PyCharm上传数据至Notebook 不大于500MB数据量,直接复制至本地IDE中即可。 大于500MB数据量,请先上传到OBS中,再从OBS下载到云上Notebook。 图1 数据通过OBS中转上传到Notebook 上传数据至OBS,具体操作请参见上传文件至OBS桶。
train_auto_resume false 【可选】是否开启【故障快恢】功能,【true、false】默认false不开启,当训练中断时重启任务会从最新生成权重文件处继续训练。详见断点续训和故障快恢说明 handler-name GeneralPretrainHandler G
LD_LIBRARY_PATH=\$LD_LIBRARY_PATH:/home/ma-user/lib/lib" >> ~/.bashrc 如果重启docker后,环境变量需要重新配置,否则会报错找不到 libavformat.so.60: cannot open shared object
户可以根据自己的实际情况进行选择。虚拟私有云VPC是一套为实例构建的逻辑隔离的、由用户自主配置和管理的虚拟网络环境。为云服务器、云容器、云数据库等资源构建隔离的、用户自主配置和管理的虚拟网络环境,提升用户资源的安全性,简化用户的网络部署。 登录ModelArts管理控制台,在左侧导航栏中选择“AI专属资源池
0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String 导入表格数据集,数据库名字。 input 否 String 表格数据集,HDFS路径。例如/datasets/demo。 ip 否
service failed SMN服务访问失败 系统错误,请联系技术支持。 500 ModelArts.5009 Database operation failed 数据库操作异常 系统错误,请联系技术支持。 500 ModelArts.5010 OBS operation failed
d的对应配置。 图9 使用当前DashBoard的配置 创建Dashboards查看指标 打开“DashBoards”,单击“New”,选择“New Dashboards”。 在New Dashboards界面,单击“Add a new panel”。 在New dashboard
部署为在线服务,服务处于运行中状态,预测时报错:{ "erno": "MR.0105", "msg": "Recognition failed","words_result": {}}。 图1 预测报错 原因分析 请在“在线服务”详情页面的日志页签中查看对应的报错日志,分析报错原因。 图2 报错日志
0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String 导入表格数据集,数据库名字。 input String 表格数据集,HDFS路径。例如/datasets/demo。 ip String
托管数据集到AI Gallery AI Gallery上每个资产的文件都会存储在线上的AI Gallery存储库(简称AI Gallery仓库)里面。每一个数据集实例视作一个资产仓库,数据集实例与资产仓库之间是一一对应的关系。例如,模型名称为“Test”,则AI Gallery仓