检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
的华为方技术支持。 适配的CANN版本是cann_8.0.rc2,驱动版本是23.0.5。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,只有llama3-8B/70B支持该功能。 本案例仅支持在专属资源池上运行。 支持的模型列表 本方案支持以下模型的训练,如表1所示。
obs_data_dir) 不同模型推荐的训练参数和计算规格要求如表1所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量 文本序列长度 并行参数设置 规格与节点数 1 llama2 llama2-7b
资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。 公共资源池 规格 选择规格,规格中描述了服务器类型、型号等信息,仅显示模型支持的资源。 xxx 计算节点个数 当计算节点个数大于1,将启动多节点分布式训练。详细信息,请参见分布式训练功能介绍。
创建新的作业。 旧版训练管理是否停止新购? 是的,旧版训练管理将于2023年6月30日 00:00(北京时间)正式退市。 旧版训练管理如何升级到新版训练? 请参考新版训练指导文档(模型训练)来体验新版训练。 旧版训练迁移至新版训练需要注意哪些问题? 新版训练和旧版训练的差异主要体现在以下3点。
BS桶名称)。预下载至本地目录选择“不下载”。 “资源类型”:选择GPU单卡的规格。如果有免费GPU规格,可以选择免费规格进行训练。 其他参数保持默认即可。 本样例代码为单机单卡场景,选择GPU多卡规格会导致训练失败。 单击“提交”,确认训练作业的参数信息,确认无误后单击“确定”。
随机种子数。每次数据采样时,保持一致。 不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表2 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量 文本序列长度 并行参数设置 规格与节点数 1 llama2 llama2-7b
资源设置 资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。 实例规格 选择实例规格,规格中描述了服务器类型、型号等信息。 流量限制(QPS) 设置待部署模型的流量限制QPS。 单位:次/秒 说明: 在部署过程中出现错误码“ModelArts
资源设置 资源池类型 资源池分为公共资源池与专属资源池。 公共资源池供所有租户共享使用。 专属资源池需单独创建,不与其他租户共享。 实例规格 选择实例规格,规格中描述了服务器类型、型号等信息。 更多选项 永久保存日志 选择是否打开“永久保存日志”开关。 开关关闭(默认关闭):表示不永久保
业务失败&硬件正常 隔离故障节点后,系统会在新的计算节点上重新创建训练作业。如果资源池规格紧张,重新下发的训练作业会以第一优先级进行排队。如果排队时间超过30分钟,训练作业会自动退出。该现象表明资源池规格任务紧张,训练作业无法正常启动,推荐您购买专属资源池补充计算节点。 如果您使用专属
请严格遵照版本配套关系使用本文档。 Finetune训练使用单机8卡资源。 Lora训练使用单机单卡资源。 确保容器可以访问公网。 资源规格要求 推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。 软件配套版本 表1 获取软件 分类 名称
0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String 导入表格数据集,数据库名字。 input String 表格数据集,HDFS路径。例如/datasets/demo。 ip String
Storage Service)与SFS Turbo文件系统联动,可以实现灵活数据管理、高性能读取等。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格。 适配的CANN版本是cann_8.0.rc3,驱动版本是23.0.6。 本案例仅支持在专属资源池上运行,确保专属资源池可以访问公网。
IMAGE_SAVE:Notebook实例保存镜像。 resource_categories Array of strings 镜像支持的规格。枚举值如下: CPU GPU ASCEND service_type String 镜像支持服务类型。枚举值如下: COMMON:通用镜像。
'original_max_position_embeddings': 8192, 'rope_type': 'llama3'} 解决方法: 升级transformers版本到4.43.1 pip install transformers --upgrade 问题4:使用Smooth
0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String 导入表格数据集,数据库名字。 input String 表格数据集,HDFS路径。例如/datasets/demo。 ip String
”如何解决? VS Code连接远端Notebook时报错“XHR failed” VS Code连接后长时间未操作,连接自动断开 VS Code自动升级后,导致远程连接时间过长 使用SSH连接,报错“Connection reset”如何解决? 使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决?
免费服务的最大值为{个数}。 删除无用的免费服务释放配额。 400 ModelArts.3857 A maximum of {number} free service instances are allowed. 免费服务实例的最大值为{个数}。 删除无用的免费服务释放配额。 400 ModelArts
JSON Array 标注对象列表,详细请见表4。 表3 source参数 参数 参数类型 描述 database String 数据集名称,比如“The VOC2007 Database”。 annotation String 标注,比如“PASCAL VOC2007”。 image
ModelArts底层采用容器技术,自定义镜像指的是用户自行制作容器镜像并在ModelArts上运行。自定义镜像功能支持自由文本形式的命令行参数和环境变量,灵活性比较高,便于支持任意计算引擎的作业启动需求。 发布区域:华北-北京一、华北-北京四、华北-乌兰察布一、华东-上海一
更多 开发环境 在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多? ModelArts的Notebook实例upload后,数据会上传到哪里? 开发环境中不同Notebook规格资源“/cache”目录的大小 在Notebook中,如何使用昇腾多卡进行调试?