检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
执行预训练任务 步骤一 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 基础镜像 swr.cn-southwest
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.909)
录入并绑定华为云镜像仓SWR AppStage运维中心将镜像仓SWR进行统一管理,可以绑定使用该镜像仓中的镜像用于服务的容器升级变更。 创建SWR 通过创建SWR将华为云镜像仓SWR录入至运维中心进行统一管理。 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维
在WiseDBA中下线及还原Schema 下线Schema是从WiseDBA的Schema列表中进行软删除,业务数据库中的Schema并没有被删除,所有下线的Schema在回收站中展示,下线的Schema支持还原。 约束与限制 GaussDB和RDS for PostgreSQL数据库不支持此功能
在WiseDBA中查看数据库会话 支持对TaurusDB、GaussDB及RDS(for MySQL)类型数据库会话进行实时展示,按不同维度统计、筛选,并提供紧急情况下批量Kill会话能力。 查看实时会话列表 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发
在WiseDBA中查看数据库状态 支持查询TaurusDB、GaussDB及RDS(for MySQL)类型数据库的Innodb引擎状态、全局变量、全局状态。 查看状态 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“微服务开发 > 数据库治理”。 选择左侧导航栏的
在监控服务新增业务报表页面 业务报表以页面来呈现和管理,本章节介绍如何新建业务报表页面。 前提条件 已新增业务报表数据源。 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 新建业务报表页面 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维
在ENS中创建隔离域规划 隔离域规划是将不同安全要求的资源放到不同的隔离域中。因此创建隔离域后,需要完成隔离域规划,为产品规划隔离域。 前提条件 已创建隔离域。 已获取基础运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建隔离域规划 进入AppStage运维中心。 单击
在监控服务管理业务报表页面 对于已新增的页面,需要发布后,其他成员才能在“业务报表”页面进行查看,并且支持对页面进行管理操作。 发布页面 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight)”。 选择左侧导航栏的“监控
将弹性云服务器主机设置为执行机 已纳管的Linux主机可以设置为执行机,执行机将在部署服务虚拟机部署、监控服务日志接入/脚本执行、演练服务执行快速演练任务、负载均衡创建实例、数据库治理纳管实例和数据查询时使用。 前提条件 已获取基础运维岗位权限或运维管理员权限,权限申请操作请参见申请权限
查看弹性伸缩-HPA策略运行情况 ServiceStage支持查看已设置好的弹性伸缩-HPA策略的运行状态和运行事件。 前提条件 已设置组件弹性伸缩-HPA策略,请参考设置弹性伸缩-HPA策略。 查看弹性伸缩-HPA策略运行情况 登录ServiceStage控制台。 选择以下任意方式进入组件
中间件相关 双网卡、Vmware 说明:软件注册会绑定网卡的MAC地址,所以在有双网卡的或者安装了VMware软件的时候,请确认根据那个网卡注册的。并且双网卡有可能会引起集群失效的问题,建议先关闭一个网卡,注册和配置完毕后再开启。 Tomcat 如果使用tomcat部署,需要修改配置文件
发布本地AI应用到AI Gallery 场景描述 AI Gallery自定义AI应用能力为您提供了一个自由灵活的AI应用创建方式,您可以基于AI Gallery上提供的基础能力,发挥您的创造力,通过自定义代码的形式,自由地构建出您需要的AI应用形态。 准备AI应用运行文件“app.py
查看APP未绑定的API列表 功能介绍 查询指定环境上某个APP未绑定的API列表,包括自有API和从云市场购买的API。 URI GET /v1/{project_id}/apic/instances/{instance_id}/app-auths/unbinded-apis 表
查询后端API列表 功能介绍 获取某个实例下的所有后端API。 URI GET /v1/{project_id}/apic/instances/{instance_id}/livedata-apis 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String
创建训练作业时,超参目录为什么有的是/work有的是/ma-user? 问题描述 创建训练作业时,输入输出参数的超参目录有的是/work,有的是/ma-user。 图1 目录是/ma-user 图2 目录是/work 解决方案 这是创建训练作业选用的算法有差异导致的。 如果选择的算法是使用旧版镜像创建的
算法运行时需要依赖鉴权服务,公共资源池是否支持两者打通网络? 不支持,公共资源池不能打通网络。可通过专属资源池打通网络,使用ModelArts服务。 父主题: Standard资源池
管理库 AstroZero支持用户通过引用第三方库的方式,在降低组件开发复杂度的同时丰富组件的功能。因此,库是支撑高级页面组件运行的第三方依赖。若缺少相应的库,则页面组件不能正常运行。在AstroZero环境配置中,可管理当前环境中该账号下的库资产。 查看库详情 在AstroZero