检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
关联基线泳道组件 基线泳道需要关联应用中的所有基线版本组件,当微服务调用链中不存在某个组件的时候,会默认访问基线泳道中的对应组件。 使用限制 如果待关联组件绑定了注册配置中心且使用Sermant Agent接入方式接入,在使用容器部署方式创建组件时参考添加组件环境变量、使用虚拟机
删除命名空间 本章节指导您删除Kubernetes类型环境下绑定的CCE集群中不再使用的用户创建命名空间。 删除命名空间会删除该命名空间下所有的资源(如工作负载、配置项等),可能会导致运行在该命名空间下的组件无法正常升级单个组件版本配置、批量升级组件版本配置或者回滚组件版本配置。
组件实例伸缩策略概述 伸缩策略设置后,可基于资源变化、固定时间、固定周期自动触发实例的增减,从而降低人为反复调整资源以应对业务变化和高峰压力的工作量,帮助您节约资源和人力成本。 ServiceStage支持设置以下伸缩策略: 手动伸缩 弹性伸缩-HPA 父主题: 设置组件实例伸缩策略
设置虚拟机配置 添加组件环境变量 环境变量是应用运行环境中设定的一个变量,可以在组件部署后滚动发布方式升级组件版本配置时修改,为应用提供极大的灵活性。组件下设置的环境变量,属于局部环境变量,仅对该组件起作用。 如果您在该组件所在的应用下添加了应用环境变量,且应用环境变量的变量名称
安装ModelArts SDK报错“ERROR: Could not install packages due to an OSError” 问题现象 安装ModelArts SDK报错,完整报错信息“ERROR: Could not install packages due to
创建Notebook失败,查看事件显示JupyterProcessKilled 问题现象 创建Notebook失败,查看事件显示JupyterProcessKilled。 图1 查看事件 原因分析 出现此故障是因为Jupyter进程被清理掉了,一般情况Notebook会自动重启的
使用Rainbow SDK(Spring Cloud框架) 引入Rainbow SDK Rainbow SDK依赖Cloud Map的注册和发现能力,在引入Rainbow SDK之前,要先引入STS SDK和Cloud Map SDK,并完成STS和Cloud Map的初始化,具体请参见使用STS
ModelArts中的作业为什么一直处于等待中? 当前训练任务排队的逻辑是先进先出,前面的任务没运行完后面的任务不会运行,有可能会造成小任务被“饿死”,需要用户注意。 饿死指的是前面的任务被一个大的任务堵着(例如是64卡),需要等空闲64卡这个任务才能运行,64卡的任务后面跟着1
在ModelArts中物体检测标注时能否自定义标签? 可以通过修改数据集给标签添加自定义属性来设置一些自定义的属性。 图1 修改数据集 父主题: Standard数据准备
获取训练作业日志的文件名 功能介绍 获取训练作业日志的文件名。 URI GET /v1/{project_id}/training-jobs/{job_id}/versions/{version_id}/log/file-names 参数说明如表1所示。 表1 参数说明 参数 是否必选
创建训练作业参数 功能介绍 创建训练作业参数。 URI POST /v1/{project_id}/training-job-configs 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。
创建ModelArts数据校验任务 前提条件 数据已准备完成:已经创建数据集或者已经将数据上传至OBS。 确保您使用的OBS与ModelArts在同一区域。 创建数据处理任务 登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备>数据处理”,进入“数据处理”页面。 在
创建ModelArts数据选择任务 前提条件 数据已准备完成:已经创建数据集或者已经将数据上传至OBS。 确保您使用的OBS与ModelArts在同一区域。 创建数据处理任务 登录ModelArts管理控制台,在左侧的导航栏中选择“数据准备 > 数据处理”,进入“数据处理”页面。
开发用于预置框架训练的代码 当您使用ModelArts Standard提供的预置框架创建算法时,您需要提前完成算法的代码开发。本章详细介绍如何改造本地代码以适配ModelArts上的训练。 创建算法时,您需要在创建页面提供代码目录路径、代码目录路径中的启动文件、训练输入路径参数
管理训练容器环境变量 什么是环境变量 本章节展示了训练容器环境中预置的环境变量,方便用户查看,主要包括以下类型。 路径相关环境变量 分布式训练作业环境变量 NCCL(Nvidia Collective multi-GPU Communication Library)环境变量 OBS环境变量
ModelArts支持的预置镜像列表 ModelArts预置镜像更新说明 ModelArts统一镜像列表 Notebook专属预置镜像列表 训练专属预置镜像列表 推理专属预置镜像列表 父主题: 制作自定义镜像用于ModelArts Standard
业务恢复并上线 登录SAP GUI,解锁所有的后台作业,解锁所有的用户,恢复业务。 父主题: 迁移上线阶段实施步骤
环境准备 迁移环境简介 ModelArts开发环境针对推理昇腾迁移的场景提供了云上可以直接访问的开发环境,具有如下优点: 利用云服务的资源使用便利性,可以直接使用到不同规格的昇腾设备。 通过指定对应的运行镜像,可以直接使用预置的、在迁移过程中所需的工具集,且已经适配到最新的版本可以直接使用。
主流开源大模型基于Standard适配PyTorch NPU训练指导(6.3.905) 场景介绍 准备工作 预训练 SFT全参微调训练 LoRA微调训练 查看日志和性能 训练脚本说明 父主题: LLM大语言模型训练推理
主流开源大模型基于Standard适配PyTorch NPU推理指导(6.3.905) 场景介绍 准备工作 在Notebook调试环境中部署推理服务 在推理生产环境中部署推理服务 推理精度测试 推理性能测试 父主题: LLM大语言模型训练推理