检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
存溢出的错误。 可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity full \ --recompute-method block
存溢出的错误。 可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity full \ --recompute-method block
个/秒(Packets/Second) ≥0 连续2个周期原始值 > 1 紧急告警 网络丢包,建议提工单联系运维支持,排查网络问题。 上行速率 ma_container_network_transmit_bytes 该指标用于统计测试对象的出方向网络流速。 字节/秒(Bytes/Second) ≥0 NA NA
包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.907中的AscendCloud-LLM-xxx
ModelArts 6.3.910 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.910中的AscendCloud-LLM-xxx
包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.909中的AscendCloud-LLM-xxx
包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.908中的AscendCloud-LLM-xxx
空间),容器引擎选择Containerd。 图1 购买Lite专属池 k8s Cluster资源配置 若已完成集群资源购买和开通,则需要对网络、存储、容器镜像等内容进行配置。请参考k8s Cluster环境配置详细流程。 kubectl访问集群配置 本步骤需要在节点机器,对kubectl进行集群访问配置。
Mindspore版本与CANN版本,CANN版本与Ascend驱动/固件版本均有严格的匹配关系,版本不匹配会导致训练失败。 前提条件 已注册华为账号并开通华为云,且在使用ModelArts前检查账号状态,账号不能处于欠费或冻结状态。 Step1 创建OBS桶和文件夹 在OBS服务中创建桶和
cp,在ModelArts上使用OBSutil) 可以用一个run脚本把整个流程包起来。run.sh脚本的内容可以参考如下示例: #!/bin/bash ##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK
npu dcmi net异常。 NPU网络链接异常。 A050129 NPU 其他 NPU其他错误。 检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 A050149 NPU 链路 hccn tool网口闪断检查。 NPU网络不稳定,存在闪断情况。通过“hccn_tool-i
际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表2 基础容器镜像地址 配套软件版本 镜像用途
cp,在ModelArts上使用OBSutil) 可以用一个run脚本把整个流程包起来。run.sh脚本的内容可以参考如下示例: #!/bin/bash ##认证用的AK和SK硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK
get-docker.sh 准备名为context的文件夹。 mkdir -p context 准备可用的pip源文件pip.conf 。本示例使用华为开源镜像站提供的pip源,其pip.conf文件内容如下。 [global] index-url = https://repo.huaweicloud
内仍未支付欠款,那么付费资源(如计算规格、OBS桶)、等都将被冻结,资源进入保留期。保留期的资源不支持任何操作。如果用户在宽限期内充值,则华为云会自动扣取欠费金额(含宽限期内产生的费用) 保留期到期时仍未支付欠款(含宽限期内产生的费用),则付费资源将释放,数据无法恢复。 宽限期和保留期的详细规则请参见宽限期保留期。
ModelArts 6.3.911 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.911中的AscendCloud-LLM-xxx
包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.909中的AscendCloud-LLM-xxx
成,部署成功后的在线服务详情页中可查看API接口公网地址。 图1 API接口公网地址 --app-code:获取方式见访问在线服务(APP认证)。 --tokenizer:tokenizer路径,HuggingFace的权重路径。若服务部署在notebook中,该参数为noteb
ModelArts 6.3.911 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.911中的AscendCloud-LLM-xxx
1 2 3 4 5 6 7 8 9 10 from modelarts.session import Session # 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; # 本示例以ak