检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
工具介绍及准备工作 本章节主要介绍针对LLaMAFactory开发的测试工具benchmark,支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置,用户查看默认yaml文件即可知道最优性能的配置
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注意
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可对tokenizer文件进行编辑。 LLama2模型 在当前的软件版本中,由于transformers的版本过高(transformers=
工具介绍及准备工作 本章节主要介绍针对LLaMAFactory开发的测试工具benchmark,支持训练、性能对比、下游任务评测、loss和下游任务对比能力。对比结果以excel文件呈现。方便用户验证发布模型的质量。所有配置都通过yaml文件设置,用户查看默认yaml文件即可知道最优性能的配置
将数据预热到SFS Turbo 训练任务开始前可通过数据预热功能将文件元数据和数据内容全部从OBS导入到SFS Turbo高性能文件存储中,数据预热功能的具体操作请参考创建SFS Turbo 和 OBS 之间的联动任务。 在ECS服务器挂载SFS Turbo已经将SFS Turbo
使用kv-cache-int8量化 kv-cache-int8是实验特性,在部分场景下性能可能会劣于非量化。当前支持per-tensor静态量化、per-tensor+per-head静态量化以及per-token,支持kv-cache-int8量化和FP16、BF16、AWQ、smoothquant
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压AscendCloud
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 图1 网卡名称错误 export GLOO_SOCKET_IFNAME
日志提示Custom op has no reg_op_name attr 问题现象 日志提示:Custom op has no reg_op_name attr。 图1 报错提示 原因分析 无。 处理方法 定义context时无需指定: context.ascend.provider
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程
为了在TICS平台实现多方作业,必须先在TICS中邀请成员。 邀请成员 空间成员登录TICS控制台。 在TICS控制台左侧,单击“空间管理”,在“我创建的空间”页签查找需要邀请合作方的空间并单击“邀请合作方”。
开通服务 本章节介绍如何在“华北-北京四”区域开通一个标准版免费实例单元,以进行IoTDA平台快速入门的体验。 访问设备接入服务,单击“控制台”进入设备接入控制台。 在左侧导航栏,选择“IoTDA实例”,单击“开通免费单元”。
数据类型 本章节列出了全平台C++ SDK的所有数据类型,您可以结合IHRTCEngine接口和回调进行开发。
查询单个AMQP队列 可调用此接口查询物联网平台中指定队列的详细信息。 删除AMQP队列 可调用此接口在物联网平台上删除指定AMQP队列。 接入凭证管理 API 说明 生成接入凭证 接入码是用于客户端使用AMQP等协议与平台建链的一个认证凭据,调用该接口将会生成一对新的接入码。