检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
完成配置后,在ModelArts控制台的权限管理列表,可查看到此账号的委托配置信息。 步骤1:准备训练数据 从AI Gallery下载训练数据,单击链接四类花卉图像分类小数据集,进入数据集详情页。 选择“数据集文件”页签后,单击“下载文件”跳转至下载详情页面。 在下载详情页面,填写参数。
字、中划线、下划线和点。 namespace 否 String 镜像所属组织,可以在SWR控制台“组织管理”创建和查看。 tag 否 String 镜像tag,长度限制64个字符, 支持大小写字母、数字、中划线、下划线和点。 description 否 String 该镜像所对应的描述信息,长度限制512个字符。
deployment_constraints object 模型部署约束(tag:hc,hk) 表4 GuideDoc 参数 是否必选 参数类型 描述 doc_url 是 String 文档http(s)链接。 doc_name 是 String 文档名称,支持1-48位可见字符(
开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。 k8s Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS
开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。 k8s Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS
开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。 k8s Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS
send_bytes_rate 上行速率 统计ModelArts用户服务的 出方向网络流速。 单位:bit/min ≥bit/min ModelArts模型负载 1分钟 recv_bytes_rate 下行速率 统计ModelArts用户服务的 入方向网络流速。 ≥bit/min ModelArts模型负载 1分钟
上传镜像至容器镜像服务镜像仓库。 使用docker tag命令给上传镜像打标签。 #region和domain信息请替换为实际值,组织名称deep-learning也请替换为自定义的值。 sudo docker tag mpi:3.0.0-cuda11.1 swr.cn-north-4
上传镜像至容器镜像服务镜像仓库。 使用docker tag命令给上传镜像打标签。 #region和domain信息请替换为实际值,组织名称deep-learning也请替换为自定义的值。 sudo docker tag mpi:3.0.0-cuda11.1 swr.cn-north-4
式部署;该种部署方式,需要机器在同一个集群,NPU卡之间IP能够ping通方可,具体步骤如下: 查看卡IP。 for i in $(seq 0 7);do hccn_tool -i $i -ip -g;done 检查卡之间的网络是否通。 # 在另一个节点上执行,29.81.3.172是上一步输出的ipaddr的值
completion with error 12, opcode 1, len 32478, vendor err 129等通信信息时,说明当前网络不是很稳定。 解决方案3 可加入3个环境变量。 NCCL_IB_GID_INDEX=3: 使用RoCE v2协议,默认使用RoCE v1,
字、中划线、下划线和点。 namespace 否 String 镜像所属组织,可以在SWR控制台“组织管理”创建和查看。 tag 否 String 镜像tag,长度限制64个字符,支持大小写字母、数字、中划线、下划线和点。 workspace_id 否 String 工作空间ID
要负责保护自己的数据和应用程序,以及遵守相关的合规性要求。 具体而言,云服务提供商应该提供以下服务和功能: 建立和维护安全的基础设施,包括网络、服务器和存储设备等。 提供安全的底层基础平台,保证底层环境的运行时安全。 提供安全的身份验证和访问控制机制,以确保只有授权用户可以访问云服务,保证租户之前的相互隔离。
shm 无 大于1GB 磁盘空间-/cache目录 disk-size cache 无 大于32GB ulimit检查 ulimit 使用IB网络时 max locked memory > 16000 open files > 1000000 stack size > 8000 max
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net
执行,可以在下方的Terminal中看到代码输出信息。 如果执行较长时间的训练作业,建议使用nohup命令后台运行,否则SSH窗口关闭或者网络断连会影响正在运行的训练作业,命令参考: nohup your_train_job.sh > output.log 2>&1 & tail
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net
母、数字、中划线、下划线和点。 namespace String 镜像所属组织,可以在SWR控制台“组织管理”创建和查看。 tag String 镜像tag,长度限制64个字符, 支持大小写字母、数字、中划线、下划线和点。 description String 该镜像所对应的描述信息,长度限制512个字符。