检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建训练作业时,超参目录为什么有的是/work有的是/ma-user? 问题描述 创建训练作业时,输入输出参数的超参目录有的是/work,有的是/ma-user。 图1 目录是/ma-user 图2 目录是/work 解决方案 这是创建训练作业选用的算法有差异导致的。 如果选择的算法是使用旧版镜像创建的
算法运行时需要依赖鉴权服务,公共资源池是否支持两者打通网络? 不支持,公共资源池不能打通网络。可通过专属资源池打通网络,使用ModelArts服务。 父主题: Standard资源池
开启AstroZero根证书认证对方服务端身份 当AstroZero调用其他服务(包括原生服务)的HTTPS请求时,可以通过开启根证书校验来认证对方服务端的身份(公钥持有者的身份)是否安全。 前提条件 已获取对方服务的根证书。若对方服务没有提供根证书且其根证书为标准证书,可通过以下方式获取
管理组件 什么是组件 组件(即Widget)是可复用的页面组成元素,一个页面由一个或多个Widget拼装而成。如果将一个页面看成拼图游戏的完整图案,那么Widget相当于拼图的每一小块。 在AstroZero环境配置中,可以管理当前环境中该账号下的组件资源。AstroZero组件分为如下两种
管理库 AstroZero支持用户通过引用第三方库的方式,在降低组件开发复杂度的同时丰富组件的功能。因此,库是支撑高级页面组件运行的第三方依赖。若缺少相应的库,则页面组件不能正常运行。在AstroZero环境配置中,可管理当前环境中该账号下的库资产。 查看库详情 在AstroZero
CES告警接入监控服务 云监控服务CES提供对监控指标的告警功能,用户可以对云服务的核心监控指标设置告警规则,当监控指标触发用户设置的告警条件时通知用户,让用户在第一时间得知云服务发生异常,迅速处理故障,避免因资源问题造成业务损失。 AppStage运维中心支持将CES产生的告警接入至监控服务中
在监控服务开发业务报表 监控服务支持对业务数据进行报表开发,为报表添加表格、折线图、柱状图等类型图表来体现业务数据的动态变化,如图1所示。 图1 报表示例 当前支持折线图、柱状图、饼状图、比例进度条、表格、地图、飞行图、CityBar、仪表盘、热力图、信号图、Block、漏斗图、箱线图和拓扑图共
绑定公网IP 未绑定公网IP的微服务引擎专享版,绑定公网IP后可提供公网访问引擎的能力。 未开启安全认证的微服务引擎无认证鉴权能力,开放到公网面临安全风险,增加系统的脆弱性。如:配置、服务信息等数据资产可能会被窃取。 请不要在生产环境和安全要求较高的网络环境中使用该功能。 前提条件
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info.json
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest
训练的权重转换说明 以llama2-13b举例,使用训练作业运行obs_pipeline.sh脚本后,脚本自动执行权重转换,并检查是否已经完成权重转换的过程。 如果已完成权重转换,则直接执行训练任务。如果未进行权重转换,则会自动执行scripts/llama2/2_convert_mg_hf.sh
GitLab自动触发Jenkins构建 GitLab触发Jenkins构建,有以下两种方式: 方式一:通过配置好的Webhook来Push events,触发Jenkins构建任务。 方式二:修改构建配置指定分支的文件来Push events,触发Jenkins构建任务。 本章节通过方式一为例
部署组件到指定CCE集群 本章节指导您部署组件到使用前准备时已经创建好的指定环境(例如:env-cce-az1)下的CCE集群。 操作步骤 登录ServiceStage控制台。 单击“应用管理”,进入应用列表。 单击创建应用时创建的应用名称(例如:test-app)“操作”栏的“新增组件
训练中的权重转换说明 以 llama2-13b 举例,运行 0_pl_pretrain_13b.sh 脚本。脚本同样还会检查是否已经完成权重转换的过程。 若已完成权重转换,则直接执行预训练任务。若未进行权重转换,则会自动执行 scripts/llama2/2_convert_mg_hf.sh
使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。 本章节介绍如何使用AWQ量化工具实现推理量化。 量化方法:per-group Step1 模型量化 可以在Huggingface
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。 本章节介绍如何使用SmoothQuant量化工具实现推理量化。
训练场景和方案介绍 Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。 方案概览 本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模型的训练过程
使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。 本章节介绍如何使用SmoothQuant量化工具实现推理量化
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.908)