检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。 可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity
可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。 可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity
可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。 可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity
可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。 可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity
可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。 可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity
可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。 可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity
可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。 可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity
logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_
可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。 可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity
可调整参数:SEQ_LEN要处理的最大的序列长度(seq-length),参数值过大很容易发生显存溢出的错误。 可添加参数:在3_training.sh文件中添加开启重计算的参数。其中recompute-num-layers的值为模型网络中num-layers的参数值。 --recompute-granularity
"/home/ma-user/work/data" # OBS数据上传至Notebook mox.file.copy_parallel(obs_data_dir, local_data_dir) # Notebook数据上传至OBS mox.file.copy_parallel(local_data_dir
"/home/ma-user/work/data" # OBS数据上传至Notebook mox.file.copy_parallel(obs_data_dir, local_data_dir) # Notebook数据上传至OBS mox.file.copy_parallel(local_data_dir
配额约束下可以继续使用该模型。 我的资产 > 数据 展示个人发布和下载的数据集列表。 “我的发布”:可以查看个人发布的数据集信息,如文件大小、文件数量等。通过右侧的“重试”或“删除”可以管理已发布的数据集。 “我的下载”:可以查看个人下载的数据集信息。单击下拉三角,可以查看数据集ID、下载方式、目标区域等信息。
单击kubectl配置时,会弹出图3步骤页面。 图2 配置中心 根据图3,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图3 kubectl访问集群配置 在节点机器中,输入命令,查看Kubernetes集群信息。如果显示如图4的内容,则配置成功。
单击kubectl配置时,会弹出图3步骤页面。 图2 配置中心 根据图3,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图3 kubectl访问集群配置 在节点机器中,输入命令,查看Kubernetes集群信息。如果显示如图图4的内容,则配置成功。
类型。例如本案例使用的数据集,系统匹配为“图片”类型。 数据集输出位置:用来存放输出的数据标注的相关信息,或版本发布生成的Manifest文件等。单击图标选择OBS桶下的空目录,且此目录不能与输入位置一致,也不能为输入位置的子目录。 数据集输入位置:用来存放源数据集信息,例如本案例中从AI
单击kubectl配置时,会弹出图3步骤页面。 图2 配置中心 根据图3,按步骤进行:判断是否安装 kubectl、下载kubectl配置文件、在机器中安装和配置kubectl。 图3 kubectl访问集群配置 在节点机器中,输入命令,查看Kubernetes集群信息。若显示如图图4的内容,则配置成功。
0版本。 仅支持FP16和BF16数据类型推理。 本案例仅支持在专属资源池上运行。 专属资源池驱动版本要求23.0.6。 支持的模型列表和权重文件 本方案支持vLLM的v0.5.0版本。不同vLLM版本支持的模型列表有差异,具体如表1所示。 表1 支持的模型列表和权重获取地址 序号 模型名称
表1 软件配套版本和获取地址 软件名称 说明 下载地址 插件代码包 AscendCloud-3rdAIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息
-34b-hf") 步骤二:启动量化服务 使用量化模型需要在NPU的机器上运行。 在模型的保存目录中创建quant_config.json文件,bits必须设置为8,指定量化为int8;group_size必须设置为-1,指定不使用pergroup;desc_act必须设置为false,内容如下: