检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
样例列表。ModelArts也提供了常用AI引擎对应的自定义脚本示例,请参见自定义脚本代码示例。 如果您在导入元模型过程中遇到问题,可联系华为云技术支持协助解决故障。 模型包结构示例 TensorFlow模型包结构 发布该模型时只需要指定到“ocr”目录。 OBS桶/目录名 |──
订阅或购买主要是获取AI资产的使用配额和使用权,支持在配额定义的约束下,有限地使用AI资产。 使用AI资产时,可能需要消耗硬件资源,硬件资源费用将根据实际使用情况,由华为云ModelArts等管理控制台向使用方收取。 已发布的AI资产,如果不需要在资产列表中展示该资产,可以将资产下架。下架后,已发布资产仅发
准备镜像主机 Step4 制作自定义镜像 Step5 上传镜像至SWR服务 Step6 在ModelArts上创建训练作业 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和
准备镜像主机 Step4 制作自定义镜像 Step5 上传镜像至SWR服务 Step6 在ModelArts上创建训练作业 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和
算子依赖包:AscendCloud-OPP 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的特性 表1 本版本支持的特性说明 分类 软件包特性说明 参考文档 三方大模型,包名:AscendCloud-LLM
开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。 k8s Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS
开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。 k8s Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS
开启高级选项:输入容器引擎空间大小(推荐输入最大空间),容器引擎选择Containerd。 k8s Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 其中k8s Cluster的容器中挂载存储支持OBS、SFS
send_bytes_rate 上行速率 统计ModelArts用户服务的 出方向网络流速。 单位:bit/min ≥bit/min ModelArts模型负载 1分钟 recv_bytes_rate 下行速率 统计ModelArts用户服务的 入方向网络流速。 ≥bit/min ModelArts模型负载 1分钟
completion with error 12, opcode 1, len 32478, vendor err 129等通信信息时,说明当前网络不是很稳定。 解决方案3 可加入3个环境变量。 NCCL_IB_GID_INDEX=3: 使用RoCE v2协议,默认使用RoCE v1,
ModelArts 6.3.911 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 获取模型权重文件 获取对应模型的权重文件,获取链接参考表1。 权重文件下载有如下几种方式,但不仅限于以下方式: 方法
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net
shm 无 大于1GB 磁盘空间-/cache目录 disk-size cache 无 大于32GB ulimit检查 ulimit 使用IB网络时 max locked memory > 16000 open files > 1000000 stack size > 8000 max
系统升级中,请稍后重试。 System is upgrading, please try again later. - 异常 获取源镜像失败。认证错误,token已失效。 Failed to access source image. Authenticate Error, token
在ModelArts控制台上购买Lite Cluster资源。请参考Lite Cluster资源开通。 资源配置:完成资源购买后,需要对网络、存储、驱动进行相关配置。请参考Lite Cluster资源配置。 资源使用:完成资源配置后,您可以使用集群资源运行训练和推理训练,具体案例可参考Lite
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net
执行,可以在下方的Terminal中看到代码输出信息。 如果执行较长时间的训练作业,建议使用nohup命令后台运行,否则SSH窗口关闭或者网络断连会影响正在运行的训练作业,命令参考: nohup your_train_job.sh > output.log 2>&1 & tail
可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。 NT_NPU_NET NPU 链路 npu dcmi net异常。 NPU网络链接异常。 可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。 NT_NPU_CARD_LOSE NPU 掉卡 NPU卡丢失。