检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练脚本说明 训练启动脚本说明和参数配置【旧】 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导(6.3.912)
准备工作 准备环境 准备代码 准备镜像环境 DockerFile构建镜像(可选) 准备数据(可选) 父主题: 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导(6.3.912)
训练脚本说明参考 训练参数配置说明【旧】 训练tokenizer文件说明 断点续训和故障快恢说明 父主题: 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导(6.3.912)
不同模型推荐的参数与NPU卡数设置 表1 不同模型推荐的参数与NPU卡数设置 模型 Template 模型参数量 训练策略类型 序列长度cutoff_len 梯度累积值 优化工具 (Deepspeed) 规格与节点数 Qwen-VL Qwen-VL 7B full 2048 gr
发布数据集到AI Galley参数说明 参数 说明 资产标题 在AI Gallery显示的资产名称。 来源 可选择“ModelArts”、“对象存储服务(OBS)”、“本地上传”。 ModelArts区域 选择当前控制台所在的区域。 OBS区域 选择与当前控制台一致的区域。 存储位置 用来存储发布的资产。
VS Code连接远端Notebook时报错“XHR failed” 问题现象 VS Code连接远端Notebook时报错“XHR failed”。 原因分析 可能是所在环境的网络有问题,无法自动下载VS Code Server,请手动安装。 解决方法 打开VS Code,选择
Query参数 参数 是否必选 参数类型 描述 type 否 String 作业所属业务。可选值如下: train:训练作业 infer:推理服务 notebook:Notebook作业 status 否 String 作业状态。可选值如下: Queue:排队中 Pending:等待中
节点的类型,枚举值如下: job 训练 labeling 标注 release_dataset 数据集发布 model 模型发布 service 服务部署 mrs_job MRS作业 dataset_import 数据集导入 create_dataset 创建数据集 inputs Array
验证登录账号。 填写Token描述并选择权限,选择私有仓库访问权限,单击“Generate token”生成Token。 复制生成的Token到编译构建服务即可。 Token生成后,请及时保存,下次刷新页面将无法读取,需要重新生成新Token。 注意填写有效的Token描述信息,避免误删除导致构建失败。
连接远端开发环境时,一直处于"Setting up SSH Host xxx: Downloading VS Code Server locally"超过10分钟以上,如何解决? 问题现象 原因分析 当前本地网络原因,导致远程自动安装VS Code Server时间过长。 解决方法
检查运行过程中输入的内容是否正确,格式是否与提示信息中要求的一致。 根据具体报错信息定位到报错的代码行,分析上下文逻辑。 历史SDK包常见的报错如下 服务部署节点运行报错 输入服务相关的参数后,执行报错如下: 解决方案 以上两种常见报错均可通过升级最新的SDK包解决。 父主题: Standard Workflow
多模态 什么是多模态 多模态(Multimodality)是集成和处理两种或两种以上不同类型的信息或数据的方法和技术。具体来说,在机器学习和人工智能领域,多模态涉及的数据类型通常包括但不限于文本、图像、视频、音频和传感器数据。 多模态的主要目标是利用来自多种模态的信息来提升任务的
能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器获取宿主
节点的类型,枚举值如下: job 训练 labeling 标注 release_dataset 数据集发布 model 模型发布 service 服务部署 mrs_job MRS作业 dataset_import 数据集导入 create_dataset 创建数据集 inputs 否 Array
在Lite Cluster资源池上使用ranktable路由规划完成Pytorch NPU分布式训练 场景描述 ranktable路由规划是一种用于分布式并行训练中的通信优化能力,在使用NPU的场景下,支持对节点之间的通信路径根据交换机实际topo做网络路由亲和规划,进而提升节点之间的通信速度。
完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS各类各项云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这
data_type Integer 数据类型。可选值如下: 0:OBS桶(默认值) 1:GaussDB(DWS)服务 2:DLI服务 3:RDS服务 4:MRS服务 5:AI Gallery 6:推理服务 schema_maps Array of SchemaMap objects 表格数据对应的schema映射信息。
在ModelArts的Notebook中如何在代码中打印GPU使用信息? 用户可通过shell命令或python命令查询GPU使用信息。 使用shell命令 执行nvidia-smi命令。 依赖CUDA nvcc watch -n 1 nvidia-smi 执行gpustat命令。
查询Notebook支持的有效规格列表 功能介绍 查询运行Notebook实例所支持的有效规格列表。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI
请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。 通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型