检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
听器中所选的超时处理。 会签用户任务: 并行多任务事件:提交流程时,该流程节点上的所有责任人都会同时收到审批任务。因此,此类型组件的超时处理触发时间与普通用户任务相同。 时序多任务事件:提交流程时,系统会基于配置的完成条件,按照配置的责任人,依次审批。因此,此类型组件的超时处理触发时间有如下区别:
阶段,如果想要进行新的一轮灰度,可以重启灰度。重启灰度后分流规则将在SLB生效,满足分流规则条件的消息分发到灰度机器群组,不满足分流规则条件的消息分发到正常机器群组。 请在确认服务有新版本的情况下进行重启灰度。 在灰度服务管理页面,单击灰度服务列表当前状态列的“重启灰度”。 在重启灰度页面,单击“重启灰度”。
选择“后端集群上下线”页签,单击“选择监听集群”。 在弹出的窗口中选择SLB监听,然后选择集群,单击。 已选集群区域展示选择的集群,单击“确定”。 在后端集群上下线页签下展示已选的集群及节点信息。 配置目标灰度状态、节点状态和权重。 单击“保存”。 任务创建完后,在部署服务变更管理中执行变更。 创建灰度切换任务
查看资源组详细信息 单击资源组列表中的资源组名称,查看并修改资源组信息。 预览配置文件 单击资源组列表操作列的“配置文件预览”,查看资源组配置文件。 资源组排序 单击资源组列表操作列的“资源组排序”,在弹出的窗口中单击“上移”/“下移”,对该SLB实例下的资源组进行排序。 删除资源组 选择资源组列表操作列的“更多
填写备注信息。 主库IP 显示主IP信息。 读写分离 单击“启用”,设置读写权重。 说明: 此处设置的权重和华为云设置的读权重意义不同,读流量先通过SDK配置的权重进行分配,再通过华为云设置的权重进行再次分配。 是否支持快速感知数据库连接失效 单击开关开启,开启后可以快速感知数据库连接失效。
驱动程序可能已经正确配置,从而解决了这个问题。 硬件问题:如果GPU之间的NVLINK连接存在硬件故障,那么这可能会导致带宽受限。重新安装软件后,重启系统,可能触发了某种硬件自检或修复机制,从而恢复了正常的带宽。 系统负载问题:最初测试GPU卡间带宽时,可能存在其他系统负载,如进
选择左侧导航栏的“实例管理 > 实例列表”。 单击实例列表操作列的“账号”。 选择“账号清单”页签,选择“业务账号”或“治理账号”页签。 选择账号列表操作列的“更多 > 新增权限”。 在“选择电子流”窗口中,选择以下任一方式: 运维操作记录选择“关联电子流”,并选择要关联的电子流,单击“提交”。
通过对ModelArts数据集能力进行封装,实现数据集的数据导入功能。数据集导入节点主要用于将指定路径下的数据导入到数据集或者标注任务中,主要应用场景如下: 适用于数据不断迭代的场景,可以将一些新增的原始数据或者已标注数据导入到标注任务中,并通过后续的数据集标注节点进行标注。 对于一些已标注好的原始数据,可以直接导
其中x_center、y_center、width和height分别表示归一化后的目标框中心点x坐标、归一化后的目标框中心点y坐标、归一化后的目标框宽度、归一化后的目标框高度。 只支持JPG、JPEG、PNG、BMP格式的图片,单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。 图像分割 ModelArts
per-channel Step1 模型量化 可以在Huggingface开源社区获取AWQ量化后的模型权重;或者获取FP16/BF16的模型权重之后,通过autoAWQ工具进行量化。 方式一:从开源社区下载发布的AWQ量化模型。 https://huggingface.co/models?so
运行完成后,会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数 该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中,供推理时使用。 使用的抽取脚本由vllm社区提供:
使用AWQ量化工具转换权重 AWQ(W4A16/W8A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何在Notebook使用AWQ量化工具实现推理量化。 量化方法:W4A16 per-group/per-channel
运行完成后,会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。 Step2 抽取kv-cache量化系数 该步骤的目的是将Step1使用tensorRT量化工具进行模型量化中生成的scale系数提取到单独文件中,供推理时使用。 使用的抽取脚本由vllm社区提供:
量化 W4A16量化 W8A8量化 W8A16量化 kv-cache-int8量化 父主题: 推理关键特性使用
PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具,通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。 Ascend PyTorch
在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 Yi模型 在使用Yi模型的chat版本时,由于transformer 4.38版本的bug,导致在读取toke
开启图模式后,服务第一次响应请求时会有一个较长时间的图编译过程,并且会在当前目录下生成.torchair_cache文件夹来保存图编译的缓存文件。当服务第二次启动时,可通过缓存文件来快速完成图编译的过程,避免长时间的等待,并且基于图编译缓存文件来启动服务可获得更优的推理性能,因此请在有图编译缓存文件的前提下启动服务
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 Git下载代码时报错 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.910)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 Git下载代码时报错 父主题: 主流开源大模型基于Lite Server适配ModelLink PyTorch NPU训练指导(6.3.907)
创建训练作业后,会在节点机器中使用基础镜像创建docker容器,并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后,对应的容器也会同步销毁。 图1 训练作业启动命令 父主题: 准备镜像