检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
购买云堡垒机 背景信息 云堡垒机实例对应一个独立运行的云堡垒机运维管理系统环境。首先用户需购买云堡垒机实例,获得一个云堡垒机账户,再登录云堡垒机系统并配置运维管理环境,才能实现云堡垒机实时远程高效运维管理。 前提条件 已获取待纳管资源信息,且待纳管资源在CBH支持使用的区域内。 已购买至少一个弹性公网
读取MySQL的binlog时报“binlog probably contains events generated with statement or mixed based replication forma”错误 问题描述 组合任务运行失败,界面报错为binlog probably
安装服务器板载网卡驱动 操作背景 当服务器配套有X722板载网卡时,需要参考此章节安装服务器板载网卡驱动。 本文以CentOS 7.6为例介绍如何安装服务器板载网卡驱动,其他操作系统的安装方法类似。 操作步骤 将准备工作中获取的“NIC-X710_X722_XL710_XXV710
从0制作自定义镜像用于创建训练作业(Tensorflow+GPU) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是Tensorflow,训练使用的资源是GPU。 本实践教程仅适用于新版训练作业。 场景描述 本示例使用Linux
从0制作自定义镜像用于创建训练作业(Pytorch+Ascend) 本章节介绍如何从0到1制作镜像,并使用该镜像在ModelArts平台上进行训练。镜像中使用的AI引擎是PyTorch,训练使用的资源是专属资源池的Ascend芯片。 准备工作 准备一套可以连接外部网络,装有Linux
NetworkManager服务无法启动,报错:Failed to restart NetworkManager.service: Unit NetworkManager.service is masked 问题描述 NetworkManager启动时报错:Failed to restart
断点续训和故障快恢说明 相同点 断点续训(Checkpointing)和故障快恢都是指训练中断后可从训练中一定间隔(${save-interval})保存的模型(包括模型参数、优化器状态、训练迭代次数等)继续训练恢复,而不需要从头开始。 不同点 断点续训:可指定加载训练过程中生成的
模型NPU卡数、梯度累积值取值表 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 NPU卡数、加速框架、梯度配置取值表 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值
工作负载Pod异常 Pod状态为Pending 当Pod状态为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。具体参考链接为工作负载状态异常定位方法。 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name
语言模型推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
MindStudio-Insight性能可视化工具使用指导 对于高阶的调优用户,可以使用可视化工具MindStudio Insight查看profiling数据详情并分析可优化点,其提供了丰富的调优分析手段,可视化呈现真实软硬件运行数据,多维度分析性能瓶颈点,支持百卡、千卡及以上规模的可视化集群性能分析
各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架: DeepSpeed和Accelerate都是针对深度学习训练加速的工具,但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架,主要针对大规模模型和大规模数据集的训练。DeepSpeed
W4A16量化 大模型推理中,模型权重数据类型(weight),推理计算时的数据类型(activation)和kvcache一般使用半精度浮点FP16或BF16。量化指将高比特的浮点转换为更低比特的数据类型的过程。例如int4、int8等。 模型量化分为weight-only量化,
kv-cache-int8量化 什么是kv-cache-int8量化 kv-cache-int8是实验特性,在部分场景下性能可能会劣于非量化。 约束限制 当前支持per-token动态量化(推荐), per-tensor静态量化以及per-tensor+per-head静态量化。
保存ckpt时超时报错 在多节点集群训练完成后,只有部分节点会保存权重,而其他节点会一直在等待通信。当等待时间超过36分钟时,会发生超时的错误。 图1 报错提示 解决方法 1. 需要保证磁盘IO带宽正常,可以在36分钟内将文件保存到磁盘。单个节点内,最大只有60G(实际应该在40G
查询APIVersions 功能介绍 get available API versions 调用方法 请参见如何调用API。 URI GET /api 请求参数 表1 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。
最新动态 本文介绍了云数据库 GaussDB(for MySQL)各特性版本的功能发布和对应的文档动态,新特性将在各个区域(Region)陆续发布,欢迎体验。 2023年8月 1 GaussDB(for MySQL)新增慢SQL。 慢SQL分析功能通过对实例记录的慢SQL进行用户来源
ALM-135462958 单板整体功能失效 告警解释 The board totally failed. (EntPhysicalIndex=[EntPhysicalIndex], EntPhysicalName=[EntPhysicalName], EntityType=[EntityType
语言和框架支持 CodeArts IDE内置了强大的Java语言支持和编码辅助功能。此外,它还为JavaScript和TypeScript的Web开发提供了丰富的内置支持,为HTML、CSS、SCSS和JSON等Web技术也提供了出色的工具支持。
座席设置自定义状态 前置条件 座席已签入。 场景描述 座席设置自定义状态。 接口方法 设置成“POST”。该接口仅支持POST方法,不支持PUT、GET和DELETE等方法。 接口URI https://ip:port/agentgateway/resource/onlineagent