检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.911)
推理模型量化 使用AWQ量化工具转换权重 使用SmoothQuant量化工具转换权重 使用kv-cache-int8量化 使用GPTQ量化 父主题: 主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.910)
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 父主题: 准备工作
PyTorch迁移性能调优 性能调优总体原则和思路 MA-Advisor性能调优建议工具使用指导 MindStudio-Insight性能可视化工具使用指导 父主题: GPU训练业务迁移至昇腾的通用指导
准备镜像 镜像方案说明 ECS获取和上传基础镜像 使用基础镜像 ECS中构建新镜像 Notebook中构建新镜像 父主题: 准备工作
https://gitee.com/ascend/msit.git 进入到msit/msmodelslim的目录;并在进入的msmodelslim目录下,运行安装脚本install.sh。 cd msit/msmodelslim bash install.sh 执行install过程会下载依赖包,因此需要确保能够访问到pip源。
”。“整柜”参数为创建资源池时选择,扩缩容时不可修改。用户通过增减“数量”来改变“目标总实例数”。 在“专属资源池扩缩容”页面,设置“资源配置 > 可用区”,可用区可选择“随机分配”和“指定AZ”。 选择随机分配时,扩缩容完成后,节点的可用区分布由系统后台随机选择。 选择指定AZ
调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 spec_total_count Integer 作业资源规格总数。 specs specs结构数组 资源规格参数列表,如表4所示。 表4 specs属性列表说明 参数 参数类型 说明 spec_id Long 资源规格的ID。 core String
若单机精度正常但多机精度异常,有可能是多机通信造成的精度问题,此时可以用精度工具的通信精度检测功能进行定位。部分集合通信算子要求通信域内各rank结果一致,如AllReduce、AllGather等,利用这一特性,工具将多机模型训练中产生的通信输出存盘,并传输到同一节点来比较其一致性,从
同步或添加图片 在“数据标注”节点单击“实例详情”进入数据标注页面,数据标注的图片来源有两种,通过本地添加图片和同步OBS中的图片数据。 图3 添加本地图片 图4 同步OBS图片数据 添加数据:您可以将本地图片快速添加到ModelArts,同时自动上传至创建项目时所选择的OBS路径中。单击“
图1 自动学习生成的模型 自动学习生成的模型,支持哪些其他操作 支持部署为在线服务、批量服务或边缘服务。 在自动学习页面中,仅支持部署为在线服务,如需部署为批量服务或边缘服务,可在“模型管理 > 模型”页面中直接部署。 支持发布至市场 将产生的模型发布至AI Gallery,共享给其他用户。
Cluster或Lite Server时,所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小等资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。具体配额项如下。 表1 ModelArts Lite涉及的资源配额 服务 资源类型 ECS资源类型 ECS实例数 CPU核心数 RAM容量(MB)
对于使用公共资源池创建的自动学习作业: 登录ModelArts控制台,在自动学习作业列表中,删除正在扣费的自动学习作业。在训练作业列表中,停止因运行自动学习作业而创建的训练作业。在“在线服务”列表中,停止因运行自动学习作业而创建的服务。操作完成后,ModelArts服务即停止计费。 登录OBS控制台,进
Lite Cluster高危操作一览表 当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite Lite Cluster资源时,可能会导致资源池部分功能异常。下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容。 高危操作风险等级说明: 高:对于可能直
emory等)的使用情况以及开发环境、训练作业、推理服务的关键资源的使用情况,并上报到AOM,用户可直接在AOM上查看。 登录AOM控制台查看监控指标 登录控制台,搜索AOM,进入“应用运维管理”控制台。 在左侧导航栏中选择“指标浏览”。 从指标源下拉列表选择“Prometheus_AOM_Default”实例。
driver version : 440.95.01 gpu driver version : 440.95.01(GPU驱动在宿主机中安装,镜像中无需安装) cuda runtime version : 10.2(PyTorch自带,无需关心) cudnn version : 7.6
存储的是节点名称;此时if_then_steps中的step跳过不执行。 使用案例 根据需求参考简单示例或进阶示例。 简单示例 通过参数配置实现 import modelarts.workflow as wf left_value = wf.Placeholder(name="left_value"
镜像在SWR上显示只有13G,安装少量的包,然后镜像保存过程会提示超过35G大小保存失败,为什么? 问题现象 我的镜像在SWR侧看,只有13G左右,在开发环境Notebook镜像管理注册,启动Notebook实例后,安装一些包后,镜像保存过程会提示超过35G大小,保存失败? 原因分析
最佳实践。\n\n2.培训和教育:确保您和您的同事接受了必要的培训和教育,以了解正确的安全准则和行为。\n\n3.使用正确的工具和设备:确保您使用正确的工具和设备,并且它们得到了正确的维护和保养。\n\n4.个人防护装备:确保您和您的同事穿戴正确的个人防护装备,如安全鞋、透明眼镜或面罩、手套等。\n\n5