检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
NPU_Flash_Attn融合算子约束 query、key、value都需要梯度。默认开启重计算,则前向时qkv没有梯度,如果需要关闭重计算,可以在yaml配置 `disable_gradient_checkpointing: true` 关闭,但显存占用会直线上升。 attn_mask
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5
使用kv-cache-int8量化 kv-cache-int8是实验特性,在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化和per-tensor+per-head静态量化,支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant的组合。
执行SFT全参微调训练任务 Step1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
训练启动脚本说明和参数配置 本代码包中集成了不同模型的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。若未完成,则执行脚本,自动完成数据预处理和权重转换的过程。 若用户进行自定义数据集预处理以及权重转换,可通过编辑 1_preprocess_data
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
基于ServiceStage将应用部署到弹性伸缩组中的ECS实例 基于华为云ServiceStage,将应用部署到华为云弹性伸缩(AS)组中的ECS实例。 该模板涉及的部署步骤如下所示: 详细步骤操作请参考ServiceStage组件部署2.0。 父主题: 使用ServiceStage应用部署模板创建并部署应用
站点拓扑图不显示链路怎么办 当设备(AP、交换机、AR、防火墙和AC设备)上线华为乾坤云平台后,如果站点首页的设备拓扑图不显示设备间链路,请进行以下操作: 登录华为乾坤控制台。 进入站点首页。单击工作台右上角“资源中心 > 站点管理”,选择目标站点名称,进入站点首页。 刷新站点拓
format可选格式为yuv420p、rgba和texture2d,如果需要外部传入texture2d编码的数据,需要设置format为texture2d,否则传入yuv420p或者rgba。texture2d视频数据,kirin系列970以上芯片走texture2d硬编,其他芯片都是走texture2d软编。 se
GAUSS-01231 -- GAUSS-01240 GAUSS-01231: "COPY file signature not recognized" SQLSTATE: 22P04 错误原因:COPY数据文件签名无法识别。 解决办法:COPY数据文件被破坏,请检查文件。 GAUSS-01232:
"returnCode": "0", "returnMessage": "Parse data successfully" } 要素说明 参数名 参数类型 备注 returnCode String 返回状态值,取值包括如下: 0:表示成功。 1:表示失败。 returnMessage
基本概念 指标 指标是对资源性能的数据描述或状态描述,指标由命名空间、维度、指标名称和单位组成。 其中,命名空间特指指标的命名空间,可将其理解为存放指标的容器,不同命名空间中的指标彼此独立,因此来自不同应用程序的指标不会被错误地聚合到相同的统计信息中。维度是指标的分类,每个指标都
(NetworkAttachmentDefinition)中的安全组。 约束与限制 v1.19及以上的CCE Turbo集群支持此功能,v1.19以下版本CCE Turbo集群需要升级到v1.19及以上版本后才能启用此功能。 1个工作负载最多可绑定5个安全组。 通过界面创建 登录CCE控制台,单击集群名称,进入集群。
打开行访问控制策略开关: 1 ALTER TABLE web_returns_p1 ENABLE ROW LEVEL SECURITY; 创建行级访问控制策略web_returns_rsl。其中wr_returned_date_sk为web_returns_p1分区表的分区名,801为分区值: 1
批量获取智能数据(TLV)图片下载路径 功能介绍 批量获取智能图片下载路径 URI POST /v1/{user_id}/intelligence-data/pictures 表1 路径参数 参数 是否必选 参数类型 描述 user_id 是 String 用户ID:由数字组成,长度范围[15,25],获取方式参考获取user
设置Netezza配置参数可在迁移Netezza数据库脚本时自定义迁移工具的行为。 打开config文件夹中的features-netezza.properties文件,并根据实际需要设置表1中的参数。 表1 features-netezza.properties文件中的配置参数 参数 说明 取值范围 默认值
"name": "转试产", "nameEn": "TurnToTrialProduce", "description": "转试产评审基线", "descriptionEn": "Turn to trial-produce review baseline"
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 问题原因 显存可能某个地方存在异常。 问题影响 可能影响一个或多个GPU的相关应用程序。 处理方法 执行nvidia-smi命令,查看显卡信息。 如果在volatile