检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.907)
训练中的权重转换说明 以 llama2-13b 举例,运行 0_pl_pretrain_13b.sh 脚本。脚本同样还会检查是否已经完成权重转换的过程。 若已完成权重转换,则直接执行预训练任务。若未进行权重转换,则会自动执行 scripts/llama2/2_convert_mg_hf
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr
在DevServer上部署SD WebUI推理服务 本章节主要介绍如何在ModelArts的DevServer环境上部署Stable Diffusion的WebUI套件,使用NPU卡进行推理。 步骤一 准备环境 请参考DevServer资源开通,购买DevServer资源,并确保
准备数据(可选) 此小节为自定义数据集执行过程,如非自定义数据集此小节忽略。 本教程使用到的是LLamaFactory代码包自带数据集。您也可以自行准备数据集,目前支持alpaca格式和sharegpt格式的微调数据集;使用自定义数据集时,请更新代码目录下data/dataset_info
非分离部署推理服务 本章节介绍如何使用vLLM 0.6.3框架部署并启动推理服务。 什么是非分离部署 全量推理和增量推理在同一节点上进行。 前提条件 已准备好DevServer环境,具体参考资源规格要求。推荐使用“西南-贵阳一”Region上的DevServer和昇腾Snt9b资源。
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.911)
部署组件到指定CCE集群 本章节指导您部署组件到使用前准备时已经创建好的指定环境(例如:env-cce-az1)下的CCE集群。 操作步骤 登录ServiceStage控制台。 单击“应用管理”,进入应用列表。 单击创建应用时创建的应用名称(例如:test-app)“操作”栏的“新增组件”。
CES告警接入监控服务 云监控服务CES提供对监控指标的告警功能,用户可以对云服务的核心监控指标设置告警规则,当监控指标触发用户设置的告警条件时通知用户,让用户在第一时间得知云服务发生异常,迅速处理故障,避免因资源问题造成业务损失。 AppStage运维中心支持将CES产生的告警
在监控服务开发业务报表 监控服务支持对业务数据进行报表开发,为报表添加表格、折线图、柱状图等类型图表来体现业务数据的动态变化,如图1所示。 图1 报表示例 当前支持折线图、柱状图、饼状图、比例进度条、表格、地图、飞行图、CityBar、仪表盘、热力图、信号图、Block、漏斗图、
开启AstroZero根证书认证对方服务端身份 当AstroZero调用其他服务(包括原生服务)的HTTPS请求时,可以通过开启根证书校验来认证对方服务端的身份(公钥持有者的身份)是否安全。 前提条件 已获取对方服务的根证书。若对方服务没有提供根证书且其根证书为标准证书,可通过以下方式获取:
管理禁用资产 当用户不再使用某些组件、库或桥接器时,可在AstroZero环境配置中禁用相应资产。资产禁用后,可在此处查看、启用或删除已禁用的资产。 管理禁用资产 在AstroZero服务控制台,单击“进入首页”,进入应用开发页面。 在页面左上方单击,选择“环境管理 > 环境配置”,进入环境配置。
管理页面模板 AstroZero支持用户将高级页面发布为页面模板,便于后续复用,减少重复开发,提高交付效率。在页面模板管理中,可以管理该账号下所有用户创建的高级页面模板。 管理页面模板 在AstroZero服务控制台,单击“进入首页”,进入应用开发页面。 在页面左上方单击,选择“环境管理
根据配置文件历史ID获取配置文件历史信息 功能介绍 此API用于通过配置文件历史ID获取配置文件历史信息。 URI GET /v3/{project_id}/cas//configs/{config_id}/histories/{config_history_id} 表1 路径参数
发布已定义的流程服务编排 发布流程服务编排 登录流程引擎。 在左侧导航栏中,选择“流程编排服务 > 流程服务编排”,进入“流程服务编排”页面。 在“流程服务编排”页面,您可以通过如下方式发布流程服务编排。 单个发布:在“服务状态”为“草稿”的流程服务编排所在行,单击。 图1 单个发布流程服务编排
如何处理操作微服务引擎专享版时遇到非微服务引擎本身错误? 问题描述 在对微服务引擎专享版执行创建、删除、升级等操作时,可能会遇到非微服务引擎本身的错误。 例如,在创建微服务引擎专享版时,集群部署失败,报错如下: {"error_code":"SVCSTG.00500400","e
如何将Java或者Tomcat应用打包成压缩包用于虚拟机部署方式部署组件? 使用虚拟机部署方式部署组件时,ServiceStage支持将Java或者Tomcat应用打包成zip或者tar.gz压缩包用于部署。 应用压缩包内目录总体结构说明 Java应用压缩包示例:https://github
模型的自定义镜像制作流程 如果您使用了ModelArts不支持的AI引擎开发模型,也可通过制作自定义镜像,导入ModelArts创建为模型,并支持进行统一管理和部署为服务。 制作流程 场景一: 预置镜像的环境软件满足要求,只需要导入模型包,就能用于创建模型,通过镜像保存功能制作。
在JupyterLab使用Git克隆代码仓 在JupyterLab中使用Git插件可以克隆GitHub开源代码仓库,快速查看及编辑内容,并提交修改后的内容。 前提条件 Notebook处于运行中状态。 打开JupyterLab的git插件 在Notebook列表中,选择一个实例,
在Workflow中使用大数据能力(DLI/MRS) 功能介绍 该节点通过调用MRS服务,提供大数据集群计算能力。主要用于数据批量处理、模型训练等场景。 应用场景 需要使用MRS Spark组件进行大量数据的计算时,可以根据已有数据使用该节点进行训练计算。 使用案例 在华为云MR