搜索_华为云

创建训练作业时，超参目录为什么有的是/work有的是/ma-user？ - AI开发平台ModelArts

创建训练作业时，超参目录为什么有的是/work有的是/ma-user？问题描述创建训练作业时，输入输出参数的超参目录有的是/work，有的是/ma-user。图1 目录是/ma-user 图2 目录是/work 解决方案这是创建训练作业选用的算法有差异导致的。如果选择的算法是使用旧版镜像创建的

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 创建训练作业
算法运行时需要依赖鉴权服务，公共资源池是否支持两者打通网络？ - AI开发平台ModelArts

算法运行时需要依赖鉴权服务，公共资源池是否支持两者打通网络？不支持，公共资源池不能打通网络。可通过专属资源池打通网络，使用ModelArts服务。父主题： Standard资源池

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard资源池
开启AstroZero根证书认证对方服务端身份 - Astro轻应用 AstroZero

开启AstroZero根证书认证对方服务端身份当AstroZero调用其他服务（包括原生服务）的HTTPS请求时，可以通过开启根证书校验来认证对方服务端的身份（公钥持有者的身份）是否安全。前提条件已获取对方服务的根证书。若对方服务没有提供根证书且其根证书为标准证书，可通过以下方式获取

 帮助中心 > Astro轻应用 AstroZero > 用户指南（低代码） > AstroZero低代码平台管理中心 > 管理AstroZero中用户及权限
管理组件 - Astro轻应用 AstroZero
管理组件 - Astro轻应用 AstroZero

管理组件什么是组件组件（即Widget）是可复用的页面组成元素，一个页面由一个或多个Widget拼装而成。如果将一个页面看成拼图游戏的完整图案，那么Widget相当于拼图的每一小块。在AstroZero环境配置中，可以管理当前环境中该账号下的组件资源。AstroZero组件分为如下两种

 帮助中心 > Astro轻应用 AstroZero > 用户指南（低代码） > AstroZero低代码平台管理中心 > 管理AstroZero中已安装应用的资源 > 管理应用中的页面资源
管理库 - Astro轻应用 AstroZero
管理库 - Astro轻应用 AstroZero

管理库 AstroZero支持用户通过引用第三方库的方式，在降低组件开发复杂度的同时丰富组件的功能。因此，库是支撑高级页面组件运行的第三方依赖。若缺少相应的库，则页面组件不能正常运行。在AstroZero环境配置中，可管理当前环境中该账号下的库资产。查看库详情在AstroZero

帮助中心 > Astro轻应用 AstroZero > 用户指南（低代码） > AstroZero低代码平台管理中心 > 管理AstroZero中已安装应用的资源 > 管理应用中的页面资源
CES告警接入监控服务 - 应用平台 AppStage

CES告警接入监控服务云监控服务CES提供对监控指标的告警功能，用户可以对云服务的核心监控指标设置告警规则，当监控指标触发用户设置的告警条件时通知用户，让用户在第一时间得知云服务发生异常，迅速处理故障，避免因资源问题造成业务损失。 AppStage运维中心支持将CES产生的告警接入至监控服务中

 帮助中心 > 应用平台 AppStage > 运维中心用户指南 > 使用监控服务进行资源及业务监控 > 其他公有云数据接入运维中心监控服务
在监控服务开发业务报表 - 应用平台 AppStage

在监控服务开发业务报表监控服务支持对业务数据进行报表开发，为报表添加表格、折线图、柱状图等类型图表来体现业务数据的动态变化，如图1所示。图1 报表示例当前支持折线图、柱状图、饼状图、比例进度条、表格、地图、飞行图、CityBar、仪表盘、热力图、信号图、Block、漏斗图、箱线图和拓扑图共

 帮助中心 > 应用平台 AppStage > 运维中心用户指南 > 使用监控服务进行资源及业务监控 > 使用业务报表进行业务监控
绑定公网IP - 应用管理与运维平台 ServiceStage

绑定公网IP 未绑定公网IP的微服务引擎专享版，绑定公网IP后可提供公网访问引擎的能力。未开启安全认证的微服务引擎无认证鉴权能力，开放到公网面临安全风险，增加系统的脆弱性。如：配置、服务信息等数据资产可能会被窃取。请不要在生产环境和安全要求较高的网络环境中使用该功能。前提条件

 帮助中心 > 应用管理与运维平台 ServiceStage > 用户指南 > 微服务引擎 > 管理微服务引擎 > 管理微服务引擎公网访问
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误保存ckpt时超时报错父主题：主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907）
准备数据（可选） - AI开发平台ModelArts

准备数据（可选）此小节为自定义数据集执行过程，如非自定义数据集此小节忽略。本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集，目前支持alpaca格式和sharegpt格式的微调数据集；使用自定义数据集时，请更新代码目录下data/dataset_info.json

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909） > 准备工作
镜像方案说明 - AI开发平台ModelArts

镜像方案说明准备大模型训练适用的容器镜像，包括获取镜像地址，了解镜像中包含的各类固件版本，配置Standard物理机环境操作。基础镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
训练的权重转换说明 - AI开发平台ModelArts

训练的权重转换说明以llama2-13b举例，使用训练作业运行obs_pipeline.sh脚本后，脚本自动执行权重转换，并检查是否已经完成权重转换的过程。如果已完成权重转换，则直接执行训练任务。如果未进行权重转换，则会自动执行scripts/llama2/2_convert_mg_hf.sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
GitLab自动触发Jenkins构建 - 应用管理与运维平台 ServiceStage

GitLab自动触发Jenkins构建 GitLab触发Jenkins构建，有以下两种方式：方式一：通过配置好的Webhook来Push events，触发Jenkins构建任务。方式二：修改构建配置指定分支的文件来Push events，触发Jenkins构建任务。本章节通过方式一为例

 帮助中心 > 应用管理与运维平台 ServiceStage > 最佳实践 > 使用GitLab对接Jenkins自动构建并升级部署到ServiceStage的组件 > 构建验证
部署组件到指定CCE集群 - 应用管理与运维平台 ServiceStage

部署组件到指定CCE集群本章节指导您部署组件到使用前准备时已经创建好的指定环境（例如：env-cce-az1）下的CCE集群。操作步骤登录ServiceStage控制台。单击“应用管理”，进入应用列表。单击创建应用时创建的应用名称（例如：test-app）“操作”栏的“新增组件

 帮助中心 > 应用管理与运维平台 ServiceStage > 最佳实践 > 使用ServiceStage基于发布管理实现组件跨可用区搬迁和顺序升级
训练中的权重转换说明 - AI开发平台ModelArts

训练中的权重转换说明以 llama2-13b 举例，运行 0_pl_pretrain_13b.sh 脚本。脚本同样还会检查是否已经完成权重转换的过程。若已完成权重转换，则直接执行预训练任务。若未进行权重转换，则会自动执行 scripts/llama2/2_convert_mg_hf.sh

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.905） > 训练脚本说明
使用AWQ量化 - AI开发平台ModelArts

使用AWQ量化 AWQ(W4A16)量化方案能显著降低模型显存以及需要部署的卡数。降低小batch下的增量推理时延。支持AWQ量化的模型列表请参见表3。本章节介绍如何使用AWQ量化工具实现推理量化。量化方法：per-group Step1 模型量化可以在Huggingface

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见表3。本章节介绍如何使用SmoothQuant量化工具实现推理量化。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907） > 推理模型量化
训练场景和方案介绍 - AI开发平台ModelArts

训练场景和方案介绍 Stable Diffusion（简称SD）是一种基于扩散过程的图像生成模型，应用于文生图场景，能够帮助用户生成图像。方案概览本方案介绍了在ModelArts Lite DevServer上使用昇腾计算资源Ascend Snt9B开展SDXL和SD1.5模型的训练过程

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
使用SmoothQuant量化 - AI开发平台ModelArts

使用SmoothQuant量化 SmoothQuant(W8A8)量化方案能降低模型显存以及需要部署的卡数。也能同时降低首token时延和增量推理时延。支持SmoothQuant(W8A8)量化的模型列表请参见支持的模型列表和权重文件。本章节介绍如何使用SmoothQuant量化工具实现推理量化

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
常见错误原因和解决方法 - AI开发平台ModelArts

常见错误原因和解决方法显存溢出错误网卡名称错误父主题：主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.908）

总条数： 10000

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

创建训练作业时，超参目录为什么有的是/work有的是/ma-user？ - AI开发平台ModelArts

算法运行时需要依赖鉴权服务，公共资源池是否支持两者打通网络？ - AI开发平台ModelArts

开启AstroZero根证书认证对方服务端身份 - Astro轻应用 AstroZero

管理组件 - Astro轻应用 AstroZero

管理库 - Astro轻应用 AstroZero

CES告警接入监控服务 - 应用平台 AppStage

在监控服务开发业务报表 - 应用平台 AppStage

绑定公网IP - 应用管理与运维平台 ServiceStage

常见错误原因和解决方法 - AI开发平台ModelArts

准备数据（可选） - AI开发平台ModelArts

镜像方案说明 - AI开发平台ModelArts

训练的权重转换说明 - AI开发平台ModelArts

GitLab自动触发Jenkins构建 - 应用管理与运维平台 ServiceStage

部署组件到指定CCE集群 - 应用管理与运维平台 ServiceStage

训练中的权重转换说明 - AI开发平台ModelArts

使用AWQ量化 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

使用SmoothQuant量化 - AI开发平台ModelArts

常见错误原因和解决方法 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线