检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Qwen2.5-72B-1K、Qwen2.5-32B调优的Checkpoint创建模型时,权重校验失败 问题现象 使用Qwen2.5-72B-1K、Qwen2.5-32B调优的Checkpoint创建模型时,权重校验失败。 版本详情的报错信息如下: Insufficient storage
在CCE纳管过程中,需要通过cloudinit userdata机制拉取cce-agent,但是在服务器上查看没有拉cce-agent的动作,理论上该动作是cloudinit中的脚本在创建时自动执行的,可能是由于安装脚本没有注入userdata或者注入了但未执行。 经查看是由于userdata未执行,可
可选默认和自定义。 默认:系统随机分配一个不冲突的网段供用户使用,因后续不支持修改建议商用场景选择手动分配,确保网段符合用户诉求。 自定义:需要自定义K8S容器网段和K8S服务网段。 K8S容器网段:集群下容器使用的网段,决定了集群下容器的数量上限。创建后不可修改。 K8S服务网段:
OBS-Python-SDK-3.1.2 原因分析 出现该问题的可能原因如下 pip源中的pip包更新了,之前能跑通的代码,在包更新之后产生了不兼容的情况,例如transformers包,导致import的时候出现了错误。 用户代码问题,出现了内存越界、非法访问内存空间的情况。 未知系统问题导致,建议先尝试
Integer 作业排队位置。 createTime Integer 作业创建时间。 gvk String 作业的k8s资源类型、分组和版本。 hostIps String 作业运行的节点IP列表,逗号分隔。 表5 resourceRequirement 参数 参数类型 描述 cpu String
考txt和csv文件的最后一行,举例如下: npu: mmlu:46.6 gpu: mmlu:47 NPU打分结果(mmlu取值46.6)和GPU打分结果(mmlu取值47)进行对比,误差在1以内(计算公式:(47-46.6) < 1)认为NPU精度和GPU对齐。NPU和GPU的
得更好的推理性能收益。 ModelArts针对上述使用场景,在给出系统化推理业务昇腾迁移方案的基础上,提供了即开即用的云上集成开发环境,包含迁移所需要的算力资源和工具链,以及具体的Notebook代码运行示例和最佳实践,并对于实际的操作原理和迁移流程进行说明,包含迁移后的精度和性能验证、调试方法说明。
一般情况下,onnx模型推理的结果可以认为是标杆数据,单独替换某个onnx模型为MindSpore Lite模型,运行得到的结果再与标杆数据做对比,如果没有差异则说明pipeline的差异不是由当前替换的MindSpore Lite模型引入。 如果有差异,则说明当前模型与原始onnx的结果存在差异
监控Lite Cluster资源:ModelArts支持使用AOM和Prometheus对资源进行监控,方便您了解当前的资源使用情况。 释放Lite Cluster资源:针对不再使用的Lite Cluster资源,您可以释放资源。 图1 Lite Cluster资源管理介绍 父主题: Lite
yaml创建pod。 kubectl apply -f config.yaml 检查pod启动情况,执行下述命令。如果显示“1/1 running”状态代表启动成功。 kubectl get pod -A 进入容器,{pod_name}替换为您的pod名字(get pod中显示的名字)
发布和管理AI Gallery模型 构建模型 托管模型到AI Gallery 发布模型到AI Gallery 管理AI Gallery模型 父主题: AI Gallery(新版)
Integer 资源规格的弹性使用量,物理池该值和count相同。 azs Array of azs objects 资源所在的AZ的数量。 nodePool String 节点池名称。比如:nodePool-1。 表14 azs 参数 参数类型 描述 az String AZ的名称。 count
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
在训练作业详情页的左侧,可以查看此次训练作业的基本信息和算法配置的相关信息。 训练作业基本信息 表1 训练作业基本信息 参数 说明 “作业ID” 训练作业唯一标识。 “作业状态” 训练作业状态。 说明: 如果昇腾以及MindSpore框架的训练作业运行失败,您可以在作业状态的提示信息中
见Step6 购买Cluster资源。 查看节点列表 当您想查看某一节点池下的节点相关信息,可单击操作列的“节点列表”,可查询节点的名称、规格及可用区。 更新节点池 当您想更新节点池配置时,可单击操作列的“更新”,相关参数介绍请参见Step6 购买Cluster资源。 需注意,更
${image_name}:Step3 制作推理镜像构建的推理镜像名称。 ${node-path}:节点自定义目录,该目录下包含pod配置文件config.yaml。 ${model-path}:Step1 上传权重文件中上传的模型权重路径。 参考Step4 创建pod创建pod以用于后续进行模型量化 Step2
${image_name}:Step3 制作推理镜像构建的推理镜像名称。 ${node-path}:节点自定义目录,该目录下包含pod配置文件config.yaml。 ${model-path}:Step1 上传权重文件中上传的模型权重路径。 参考Step4 创建pod创建pod以用于后续进行模型量化 Step2
${image_name}:Step3 制作推理镜像构建的推理镜像名称。 ${node-path}:节点自定义目录,该目录下包含pod配置文件config.yaml。 ${model-path}:Step1 上传权重文件中上传的模型权重路径。 参考Step4 创建pod创建pod以用于后续进行模型量化 Step2