正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
--tensor-parallel-size:模型并行数。取值需要和启动的NPU卡数保持一致,可以参考附录:基于vLLM不同模型推理支持最小卡数和最大序列说明。此处举例为1,表示使用单卡启动服务。 --block-size:kv-cache的block大小,推荐设置为128。
例如,集群共2个节点,每个节点都空闲了4张卡,总剩余卡数为8张卡,但用户的作业要求为1节点8张卡,因此无法调度上。 父主题: 一般性问题
摄氏度(℃) 自然数 网络IO 下行速率 ma_container_network_receive_bytes 该指标用于统计测试对象的入方向网络流速。
Available/Total Nodes 当“Specifications”选择专属资源池规格时,显示专属资源池的可用节点数和总节点数,用户选择“Compute Nodes”的个数不要超过可用节点数。
专家鉴别器模型评估间隔步数 syncnet_checkpoint_interval 专家鉴别器模型保存间隔步数 父主题: 数字人模型训练推理
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数,用来确认对应卡数已经挂载 npu-smi info -t
--tensor-parallel-size:模型并行数。取值需要和启动的NPU卡数保持一致,可以参考1。此处举例为1,表示使用单卡启动服务。 --block-size:PagedAttention的block大小,推荐设置为128。
选择随机分配时,可通过增减“目标总节点数”实现扩缩容,请用户根据本身业务诉求进行调整。增加目标节点数量即表示扩容,减少目标节点数量即表示缩容。扩缩容完成后,节点的可用区分布由系统后台随机选择。 选择指定AZ时,可指定扩缩容完成后节点的可用区分布。
训练数据: 训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。 训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。 如果某一列的取值只有一种,会被视为无效列。请确保标签列的取值至少有两个且无数据缺失。
seed_all函数可固定随机数的范围如下表。
吞吐计算公式为"num_input_tokens_seen / train_runtime / 训练卡数"。相关参数可查看表1。 loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。
吞吐计算公式为"num_input_tokens_seen / train_runtime / 训练卡数"。相关参数可查看表1。 loss收敛情况:日志里存在lm loss参数 ,lm loss参数随着训练迭代周期持续性减小,并逐渐趋于稳定平缓。
选择随机分配时,可通过增减“目标总节点数”实现扩缩容,请用户根据本身业务诉求进行调整。增加目标节点数量即表示扩容,减少目标节点数量即表示缩容。扩缩容完成后,节点的可用区分布由系统后台随机选择。 选择指定AZ时,可指定扩缩容完成后节点的可用区分布。
表7 GPUInfo 参数 参数类型 描述 gpu Integer GPU卡数。 gpu_memory String GPU内存。 type String GPU类型。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。
top_p 否 1.0 Float 控制要考虑的前几个tokens的累积概率的浮点数。必须在 (0, 1] 范围内。设置为1表示考虑所有tokens。 temperature 否 1.0 Float 控制采样的随机性的浮点数。较低的值使模型更加确定性,较高的值使模型更加随机。
若需添加多个密钥,可以单击“+”新增密钥数。 添加镜像预热配置 若需添加多个镜像,可单击此按键。 图2 预置镜像预热 图3 预置镜像选择 图4 自定义镜像预热 创建密钥所需的仓库地址、用户名、密码、可以参考对应租户的SWR登录指令。
--tensor-parallel-size:模型并行数。取值需要和启动的NPU卡数保持一致,可以参考1。此处举例为1,表示使用单卡启动服务。 --block-size:PagedAttention的block大小,推荐设置为128。
ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU - ZeRO-3 Optimizer States、Gradient、Model Parameter分布到不同的NPU 增加卡数重新训练
core_num Integer 核数。 表44 Gpu 参数 参数类型 描述 unit_num Integer gpu卡数。 product_name String 产品名。 memory String 内存。