正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Lite Cluster资源池上使用Snt9B完成分布式训练任务 场景描述 本案例介绍如何在Snt9B上进行分布式训练任务,其中Cluster资源池已经默认安装volcano调度器,训练任务默认使用volcano job形式下发lite池集群。训练测试用例使用NLP的bert模型,详细代码和指导可参考Bert。
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
训练的数据集预处理说明 以 llama2-13b 举例,使用训练作业运行:0_pl_pretrain_13b.sh 训练脚本后,脚本检查是否已经完成数据集预处理。 如果已完成数据集预处理,则直接执行预训练任务。若未进行数据集预处理,则会自动执行 scripts/llama2/1_preprocess_data
显存溢出错误 在训练过程中,常见显存溢出报错,示例如下: RuntimeError: NPU out of memory. Tried to allocate 1.04 GiB (NPU 4; 60.97 GiB total capacity; 56.45 GiB already
附录:基于vLLM不同模型推理支持最小卡数和最大序列说明 基于vLLM(v0.5.0)部署推理服务时,不同模型推理支持的最小昇腾卡数和对应卡数下的max-model-len长度说明,如下面的表格所示。 以下值是在gpu-memory-utilization为0.9时测试得出,为服
SFT全参微调数据处理 SFT全参微调(SFT fine-tuning)前需要对数据集进行预处理,转化为.bin和.idx格式文件,以满足训练要求。 下载数据 SFT全参微调涉及的数据下载地址:https://huggingface.co/datasets/silk-road/a
创建WeLink触发规则使用WeLink消息触发并执行EAP流程 通过WeLink触发规则可以使用WeLink消息触发并执行welink_trigger类型的流程。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 已创建类型为welink_trigger的流程,具体操作请参见创建流程。
创建预案对多流程进行管理与执行 预案是给同一套流程配置不同的参数,方便用户及时执行当前流程。本章节介绍预案的创建操作。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 已创建流程。 步骤一:创建预案 进入AppStage运维中心。 在顶部导航栏选择服务。
Websphere集群部署 实例说明 创建概要文件 服务启动 创建集群 IHS的部署 安装插件 应用部署与启动应用程序 父主题: Websphere中部署ABI
Hdfs、大数据相关驱动安装与Standalone模式local配置 配置驱动 hadoop依赖.zip。 影响数据源中hdfs数据源的连接。 压缩包内的jar包放入工作目录:lib\edi\hadoop目录下。 此目录会内自带edi-hadoop-deps-4.4.1-SNAPSHOT
打开另一个We码小程序 打开另一个We码小程序或网页,也可在当前We码小程序打开一个新的We码小程序页面。 扫码体验: 打开We码小程序或新页面,只支持传递参数为h5 url。如h5://… 打开网页,只支持传递参数为http url。如 http://… 或 https://…
AstroZero对象数据迁移概述 导入导出元数据和数据主要用于实现数据的迁移和备份,如迁移旧的元数据和数据去新的环境,保持对象的一致和兼容。从而实现在不同的账号间或环境间的数据迁移,避免重复开发和不兼容的开发。 AstroZero支持通过“定时/立即导出”、“按计划导出”两种方
如何处理启动一个新服务后导致一个节点内存使用率过高的问题? 问题描述 启动一个新服务导致一个节点内存使用率过高,怎么处理? 解决方法 设置调度策略亲和性,可以使服务实例按亲和性节点部署即可。 父主题: 应用运维
微服务专享版引擎版本从1.x升级到2.x时有哪些注意事项? 微服务引擎专享版从1.x升级到2.x的过程中及升级完以后可能会出现的现象及解决方法如下: 现象1:在微服务引擎专享版从1.x版本升级至2.x版本的过程中,使用接口获取配置或更新配置失败,报connection refused或Connection
在WiseDBA中下线及还原Schema 下线Schema是从WiseDBA的Schema列表中进行软删除,业务数据库中的Schema并没有被删除,所有下线的Schema在回收站中展示,下线的Schema支持还原。 约束与限制 GaussDB和RDS for PostgreSQL数据库不支持此功能。
数据类型不匹配问题如何处理? 报错“data type not equal”时,按照堆栈信息,将对应的行数的数据类型修改为匹配的类型。 图1 报错信息 处理该问题时,pipeline_onnx_stable_diffusion_img2img_mslite.py文件的第454行修改如下:
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压A
日志提示Custom op has no reg_op_name attr 问题现象 日志提示:Custom op has no reg_op_name attr。 图1 报错提示 处理方法 定义context时无需指定: context.ascend.provider = "ge"
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。
ECS中构建新镜像 通过ECS获取和上传基础镜像获取基础镜像后,可通过ECS运行Dockerfile文件,在镜像的基础上构建新镜像。 Step1 构建新ModelArts Standard训练镜像 获取模型软件包,并上传到ECS的目录下(可自定义路径),获取地址参考表1。 解压A