检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练脚本说明 yaml配置文件参数配置说明 各个模型深度学习训练加速框架的选择 模型NPU卡数取值表 各个模型训练前文件替换 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.907)
常见问题 报错提示RuntimeError: Default process group has not been initialized, please make sure to call init_process_group 训练运行报错AttributeError: 'torch_npu
单机多卡 准备镜像 上传数据和算法至SFS(首次使用时需要) 使用Notebook进行代码调试 创建训练任务 父主题: 调试与训练
权限控制方式 IAM 依赖和委托 工作空间 父主题: Standard权限管理
配置ModelArts基本使用权限 场景描述 Step1 创建用户组并加入用户 Step2 为用户配置云服务使用权限 Step3 为用户配置ModelArts的委托访问授权 Step4 测试用户权限 父主题: 典型场景配置实践
FAQ 使用ModelArts时提示“权限不足”,如何解决? 父主题: Standard权限管理
主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.908) 场景介绍 准备工作 执行预训练任务 执行SFT全参微调训练任务 执行LoRA微调训练任务 查看日志和性能 训练脚本说明参考 常见错误原因和解决方法 父主题: LLM大语言模型训练推理
训练脚本说明参考 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.908)
准备工作 准备环境 准备代码 准备镜像环境 准备数据(可选) 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.908)
训练脚本说明 Yaml配置文件参数配置说明 模型NPU卡数、梯度累积值取值表 各个模型训练前文件替换 NPU_Flash_Attn融合算子约束 录制Profiling 父主题: 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导(6.3.908
训练脚本说明参考 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练中的权重转换说明 训练tokenizer文件说明 离线训练安装包准备说明 父主题: 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导(6.3.911)
常见错误原因和解决方法 显存溢出错误 网卡名称错误 工作负载Pod异常 父主题: 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导(6.3.911)
SD WEBUI套件适配PyTorch NPU的推理指导(6.3.908) SD WebUI推理方案概览 在DevServer上部署SD WebUI推理服务 在Standard上部署SD WebUI推理服务 SD WebUI推理性能测试 父主题: AIGC模型训练推理
工作空间管理 查询工作空间详情 修改工作空间 删除工作空间 查询工作空间配额 修改工作空间配额 查询工作空间列表 创建工作空间
配额管理 查询OS的配额
资源管理 查询OS的配置参数 查询插件模板 查询节点列表 批量删除节点 批量重启节点 查询事件列表 创建网络资源 查询网络资源列表 查询网络资源 删除网络资源 更新网络资源 查询资源实时利用率 创建资源池 查询资源池列表,可通过标签、资源池状态筛选查询资源池列表 查询资源池 删除资源池
Workflow工作流管理 获取Workflow工作流列表 新建Workflow工作流 删除Workflow工作流 查询Workflow工作流 修改Workflow工作流 总览Workflow工作流 查询Workflow待办事项 在线服务鉴权 创建在线服务包 获取Execution
训练作业参数配置 创建训练作业参数 查询训练作业参数列表 更新训练作业参数 删除训练作业参数 查询训练作业参数详情 父主题: 训练管理(旧版)
权限策略和授权项 策略及授权项说明 数据管理权限 开发环境权限 训练作业权限 模型管理权限 服务管理权限 工作空间管理权限 DevServer权限
如何调用API 构造请求 认证鉴权 返回结果