检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
SFT全参微调训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的llm_train/AscendSpeed代码目录。
准备Notebook(可选) 本步骤为可选操作。ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看Notebook使用场景介绍。 本案例中,若用户需要自定义开发,可通过Notebook环境进行数据预处理、权重转换等
准备Notebook(可选) 本步骤为可选操作。ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看开发环境介绍。 本案例中,如果用户需要自定义开发,可通过Notebook环境进行数据预处理、权重转换等操作。并且No
准备环境 资源规格要求 本文档中的模型运行环境是ModelArts Lite的Lite k8s Cluster。推荐使用“西南-贵阳一”Region上的资源和Ascend Snt9B。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
设置弹性伸缩-HPA策略 弹性伸缩-HPA是Kubernetes内置组件,实现Pod水平自动伸缩的功能,即Horizontal Pod Autoscaling。在Kubernetes社区HPA功能的基础上,增加了应用级别的冷却时间窗和扩缩容阈值等功能。 前提条件 仅容器部署方式部
修改弹性伸缩-HPA策略 您可以根据实际业务需要,编辑已设置好的弹性伸缩-HPA策略,重新设置策略参数。 前提条件 已设置组件弹性伸缩-HPA策略,请参考设置弹性伸缩-HPA策略。 修改弹性伸缩-HPA策略 登录ServiceStage控制台。 选择以下任意方式进入组件“伸缩”页面:
在VS Code中上传下载文件 在VS Code中上传数据至Notebook 不大于500MB数据量,直接复制至本地IDE中即可。 大于500MB数据量,请先上传到OBS中,再从OBS上传到云上开发环境。 操作步骤 上传数据至OBS。具体操作请参见上传文件至OBS桶。 或者在本地VS
ModelArts预置镜像更新说明 本章节提供了ModelArts预置镜像的变更说明 ,比如依赖包的变化,方便用户感知镜像能力的差异,减少镜像使用问题。 统一镜像更新说明 表1 统一镜像更新说明 镜像名称 更新时间 更新说明 mindspore_2.3.0-cann_8.0.rc1-py_3
接口的默认网关地址,默认网关地址必须与接口的IPv4地址在同一网段。 首选DNS服务器 首选DNS服务器的IP地址。 备用DNS服务器 备用DNS服务器的IP地址。 自动获取IP地址(DHCP)。 接口通过DHCP方式自动获取IPv4地址。 配置防火墙注册到华为乾坤云平台。 单击“系统 > 管理员 > 设置”,单击
程。本章节介绍预案的创建操作。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 已创建流程。 步骤一:创建预案 进入AppStage运维中心。 在顶部导航栏选择服务。 单击,选择“运维 > 监控服务(ServiceInsight)”。 选择左侧导航栏的“EAP&JOB
ssh 上传公钥到服务器。 例如用户名为root,服务器地址为192.168.222.213,则将公钥上传至服务器的命令如下: ssh-copy-id -i ~/.ssh/id_rsa.pub root@192.168.222.213 通过如下命令可以看到客户端写入到服务器的id_rsa
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.910)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 保存ckpt时超时报错 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.907)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导(6.3.908)
如何访问云服务器备份 云服务器备份提供了Web化的服务管理平台,即管理控制台和基于HTTPS请求的API(Application programming interface)管理方式。 API方式 如果用户需要将云服务平台上的服务器备份集成到第三方系统,用于二次开发,请使用API
成长地图 | 华为云 设备接入服务 设备接入服务(IoTDA)是华为云的物联网平台,提供海量设备连接上云、设备和云端双向消息通信、批量设备管理、远程控制和监控、OTA升级、设备联动规则等能力,并可将设备数据灵活流转到华为云其他服务。 产品介绍 图说ECS 立即使用 立即使用 成长地图
用云消息服务的智能信息需同步开通消息&短信服务相关权限,并在IAM控制台创建用户组时,授予消息&短信服务执行权限“RTC Administrator”。 具体请参见:创建用户并授权使用消息&短信服务。 本章节为您介绍对用户授权的方法,操作流程如图1所示。 前提条件 给用户组授权之
AXE模式绑定信息修改接口 接口功能 该接口用于客户向隐私保护通话平台修改已设置的AXE绑定关系的相关信息。 请求方向 客户应用(客户端) → 隐私保护通话平台(服务端) 使用说明 前提条件 已设置至少一组AXE绑定关系。 若需要修改自定义放音,需要提前在放音文件管理页面上传并等待审核通过。
景的管理功能,用户可上传符合平台规范的自定义场景,也可将场景下载至本地开发。Octopus平台自研场景标签分类体系,从多维度深层次科学分类场景。仿真场景库可自建仿真场景库,集合相同场景格式的不同条件仿真场景,检验在特定条件下仿真算法控制质量。 仿真服务场景管理分为三大类型: 场景和场景库。