正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SEED 1234 随机种子数。每次数据采样时,保持一致。 CONVERT_MG2HF True 表示训练完成的权重文件会自动转换为Hugging Face格式权重。若不需要自动转换,则删除该环境变量。
SEED 1234 随机种子数。每次数据采样时,保持一致。 不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
这通常在数据集发生变化,或者需要重新生成缓存时使用 preprocessing_num_workers 16 用于指定预处理数据的工作线程数。随着线程数的增加,预处理的速度也会提高,但也会增加内存的使用。
SEED 1234 随机种子数。每次数据采样时,保持一致。 不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
--tensor-parallel-size:模型并行数。取值需要和启动的NPU卡数保持一致,可以参考1。此处举例为1,表示使用单卡启动服务。 --block-size:PagedAttention的block大小,推荐设置为128。
可设置可用区的节点数。 节点数量 选择专属资源池的节点数,选择的节点数越多,计算性能越强。 当“可用区”选择“指定AZ”时,节点数量会根据可用区的数据自动计算,此处无须再次设置。 说明: 单次创建时,节点数建议不大于30,否则可能触发限流导致创建失败。
limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,100],默认为10。 父主题: 样本管理
shared_count Number 订阅的服务数。 父主题: 服务管理
gpu Number GPU数。 表9 NpuInfo 参数 参数类型 描述 brand String 品牌。 version String 卡类型。 unit String 单位 memory Integer 卡内存大小。 npu Integer NPU数。
SEED 1234 随机种子数。每次数据采样时,保持一致。 CONVERT_MG2HF True 表示训练完成的权重文件会自动转换为Hugging Face格式权重。如果不需要自动转换,则删除该环境变量。
CPU过载 减少线程数。 排查办法 根据错误信息判断,报错原因来源于用户代码。 您可以通过以下两种方式排查: 线上环境调试代码(仅适用于非分布式代码) 在开发环境(notebook)申请相同规格的开发环境实例。 在notebook调试用户代码,并找出问题的代码段。
SEED 1234 随机种子数。每次数据采样时,保持一致。 CONVERT_MG2HF True 表示训练完成的权重文件会自动转换为Hugging Face格式权重。如果不需要自动转换,则删除该环境变量。
SEED 1234 随机种子数。每次数据采样时,保持一致。 CONVERT_MG2HF True 表示训练完成的权重文件会自动转换为Hugging Face格式权重。如果不需要自动转换,则删除该环境变量。
百分比(Percent) 0~100% GPU/NPU碎片数 由于资源调度产生碎片,导致某些卡虽然空闲,但无法被多卡任务所使用。不同卡数的任务,根据已占用卡的分布不同,实际会有不同的碎片情况,且随时间变化,表格中仅表示当前时间的状态。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
用于训练的文本,至少有2种以上的分类,每种分类样本数据数不少20行。 创建数据集 数据准备完成后,需要创建相应项目支持的类型的数据集,具体操作请参考创建数据集。 父主题: 使用自动学习实现文本分类
shared_count Number 订阅的服务数。 父主题: 服务管理
模型不同最少NPU卡数不同,NPU卡数建议值可参考表1。
--tensor-parallel-size:模型并行数。取值需要和启动的NPU卡数保持一致,可以参考附录:基于vLLM不同模型推理支持最小卡数和最大序列说明。此处举例为1,表示使用单卡启动服务。 --block-size:kv-cache的block大小,推荐设置为128。
cpu_core_usage Float 已使用CPU核数。 cpu_core_total Float 总CPU核数。 model_name String 模型名称,在线服务字段。 cpu_memory_usage Integer 已使用内存,单位MB。