检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
k。 在Notebook对应操作列,单击“更多 > 变更镜像”,打开“变更镜像”弹出框,变更镜像选择“自定义镜像”,将当前镜像变更为Step2 构建成功的镜像注册到镜像管理模块注册的镜像,如图7所示。 图7 变更镜像 启动变更后的Notebook,并打开。进入Terminal运行界面,在工作目录,运行启动脚本run
Cache计算时间,从而减少prefill的时间。 更高效的显存使用:当正在处理的请求相互之间存在公共前缀时,公共前缀部分的KV Cache可以共用,不必重复占用多份显存。 约束限制 该特性不能和Chunked-prefill、KV Cache量化特性同时使用。 该特性暂不支持与LoRA特性配合。 多模态模型暂不支持prefix
方法四:使用Git clone,官方提供了 git clone repo_url 的方式下载,但是不支持断点续传,并且clone 会下载历史版本占用磁盘空间。 随后可通过以下两种方式,将下载到本地的模型文件上传至SFS Turbo中。 本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS
方法四:使用Git clone,官方提供了 git clone repo_url 的方式下载,但是不支持断点续传,并且clone 会下载历史版本占用磁盘空间。 随后可通过以下两种方式,将下载到本地的模型文件上传至SFS Turbo中。 本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS
GBS/MBS的值能够被NPU/(TP×PP×CP)的值进行整除。 模型推荐的参数与NPU卡数设置 不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表2 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量
路径,“default-shm-size”代表容器启动默认分配的共享内容大小,不配置时默认为64M,可以根据需要改大,避免分布式训练时共享内存不足导致训练失败。 图10 docker配置 保存后,执行如下命令重启docker使配置生效。 systemctl daemon-reload
删除网络资源 更新网络资源 查询资源实时利用率 创建资源池 查询资源池列表 查询资源池 删除资源池 更新资源池 资源池监控 资源池统计 查询资源规格列表 查询专属资源池作业列表 查询专属资源池作业统计信息
问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,如果低于v0.76.1,请升级Remote-SSH。 打开命令面板(Windows: Ctrl+Shift+P,macOS:Cmd+Shift+P),搜索“Kill VS
'original_max_position_embeddings': 8192, 'rope_type': 'llama3'} 解决方法:升级transformers版本到4.43.1:pip install transformers --upgrade 问题5:使用Smooth
otebook实例。 镜像选择已注册的自定义镜像,资源类型选择创建好的专属资源池,资源规格推荐选择“Ascend: 8*ascend-snt9b”。 图2 Notebook中选择自定义镜像与规格 存储配置选择“弹性文件服务SFS”,并且选择已创建的SFS Turbo实例,子目录挂载可选择默认不填写。
指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次,根据实际需要修改。一个Epo
指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次,根据实际需要修改。一个Epo
feature 否 String 实例类别,默认为NOTEBOOK。枚举值如下: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 limit 否 Integer 每一页的数量,默认值10。 name 否 String 实例名称,支
feature 否 String 实例类别,默认为NOTEBOOK。枚举值如下: DEFAULT:CodeLab免费规格实例,每个用户最多只能创建一个。 NOTEBOOK:计费规格实例。 limit 否 Integer 每一页的数量,默认值10。 name 否 String 实例名称,支
见Step6 购买Cluster资源。 查看节点列表 当您想查看某一节点池下的节点相关信息,可单击操作列的“节点列表”,可查询节点的名称、规格及可用区。 更新节点池 当您想更新节点池配置时,可单击操作列的“更新”,相关参数介绍请参见Step6 购买Cluster资源。 需注意,更
“快速型”:仅使用已标注的样本进行训练。 “精准型”:会额外使用未标注的样本做半监督训练,使得模型精度更高。 计算节点规格 即智能标注任务使用的资源规格。 说明: 智能标注创建时免费,但OBS存储会按需收费,请参考计费详情。为保证您的资源不浪费,标注作业与后续任务完成后,请及时清理您的OBS桶。
placeholder_type=wf.PlaceholderType.JSON, description="训练资源规格") ) ), # 训练资源规格信息 policy=wf.steps.StepPolicy( skip_conditi
import_origin 否 String 数据来源。可选值如下: obs:OBS桶(默认值) dws:GaussDB(DWS)服务 dli:DLI服务 rds:RDS服务 mrs:MRS服务 inference:推理服务 import_path 是 String 导入的OBS路径或manifest路径。
“队列名称”:系统自动将当前账号下的DLI队列展现在列表中,您可以在下拉框中选择您所需的队列。 “数据库名称”:根据选择的队列展现所有的数据库,请在下拉框中选择您所需的数据库。 “表名称”:根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。 DLI的详细功能说明,请参见《DLI用户指南》。
根据具体报错信息定位到报错的代码行,分析上下文逻辑。 历史SDK包常见的报错如下 服务部署节点运行报错 输入服务相关的参数后,执行报错如下: 解决方案 以上两种常见报错均可通过升级最新的SDK包解决。 父主题: Standard Workflow