搜索_华为云

InternVL2基于DevServer适配PyTorch NPU训练指导（6.3.910) - AI开发平台ModelArts

本文档适配昇腾云ModelArts 6.3.910版本，请参考获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。获取软件和镜像表1 获取软件和镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
CogVideoX训练推理基于DevServer适配PyTorch NPU指导（6.3.910） - AI开发平台ModelArts

文档。确保容器可以访问公网。步骤一：准备环境请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
LLaVA-NeXT基于DevServer适配Pytorch NPU训练微调指导（6.3.910） - AI开发平台ModelArts

本文档适配昇腾云ModelArts 6.3.910版本，请参考获取配套版本的软件包和镜像，请严格遵照版本配套关系使用本文档。确保容器可以访问公网。资源规格要求推荐使用“西南-贵阳一”Region上的DevServer资源和Ascend Snt9B。获取软件和镜像表1 获取软件和镜像

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
托管模型到AI Gallery - AI开发平台ModelArts

当文件状态变成“上传成功”表示数据文件成功上传至AI Gallery仓库进行托管。单击“完成”返回模型文件页面。图1 上传成功文件上传过程中请耐心等待，不要关闭当前上传页面，关闭页面会中断上传进程。父主题：发布和管理AI Gallery模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > 发布和管理AI Gallery模型
报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exitng now.”如何解决？ - AI开发平台ModelArts

可能为/home/ma-user/work磁盘空间不足。解决方法删除/home/ma-user/work路径下无用文件。父主题： VS Code连接开发环境失败常见问题

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > VS Code连接开发环境失败常见问题
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

connect returned Connection refused, retrying”，则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量，该环境变量由系统自动注入，训练代码中无需设置。训练代码

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
数据准备与处理 - AI开发平台ModelArts

数据准备与处理数据准备使用流程创建ModelArts数据集导入数据到ModelArts数据集处理ModelArts数据集中的数据标注ModelArts数据集中的数据发布ModelArts数据集中的数据版本分析ModelArts数据集中的数据特征导出ModelArts数据集中的数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

准备AscendSpeed训练代码。准备镜像准备训练模型适用的容器镜像。准备Notebook 本案例需要创建一个Notebook，以便能够通过它访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

结合当前购买的SFS盘性能规划业务，建议不要运行到性能上限。可以购买多个SFS Turbo实例分担业务压力，或者更换高性能的SFS盘。一个SFS实例容量建议不要太大，建议以同样的成本换成购买多个SFS实例。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备预测分析数据 - AI开发平台ModelArts

必须小于200列，数据总大小不能超过100MB。上传OBS操作步骤：执行如下操作，将数据导入到您的数据集中，以便用于模型训练和构建。登录OBS管理控制台，在ModelArts同一区域内创建桶。如果已存在可用的桶，需确保OBS桶与ModelArts在同一区域。参考上传文件，

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
训练作业进程被kill - AI开发平台ModelArts

减少线程数。排查办法根据错误信息判断，报错原因来源于用户代码。您可以通过以下两种方式排查：线上环境调试代码（仅适用于非分布式代码）在开发环境（notebook）申请相同规格的开发环境实例。在notebook调试用户代码，并找出问题的代码段。通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。，

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
通过patch操作对服务进行更新 - AI开发平台ModelArts

请求链路编号，可用于日志追踪表6 响应Body参数参数参数类型描述 update_time String 本次更新时间，仅触发服务配置升级时会返回，比如修改config参数，可根据此时间从服务更新记录中过滤出此次的更新结果；修改描述或启停服务不会返回此参数。 resource_ids

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
在ModelArts Standard上运行GPU训练任务的场景介绍 - AI开发平台ModelArts

作业运行中，已经输出1兆的日志文本，单击训练详情页面需要多久加载出日志。 2.5秒训练详情页作业运行中，没有用户日志情况下，在ModelArts控制台主页面单击训练详情页面后加载页面内容。 2.5秒 JupyterLab页面进入JupyterLab页面后加载页面内容。 0.5秒 Notebook列表页

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行GPU训练任务
推理性能测试 - AI开发平台ModelArts

etions"拼接而成，部署成功后的在线服务详情页中可查看API接口公网地址。图1 API接口公网地址 --app-code：获取方式见访问在线服务（APP认证）。 --tokenizer：tokenizer路径，HuggingFace的权重路径。若服务部署在notebook中

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.905）
SDK简介 - AI开发平台ModelArts
SDK简介 - AI开发平台ModelArts

ModelArts服务软件开发工具包（ModelArts SDK）是对ModelArts服务提供的REST API进行的Python封装，以简化用户的开发工作。用户直接调用ModelArts SDK即可轻松管理数据集、启动AI训练以及生成模型并将其部署为在线服务。 ModelArts SDK目

 帮助中心 > AI开发平台ModelArts > SDK参考
使用CTS审计ModelArts服务 - AI开发平台ModelArts

使用CTS审计ModelArts服务 ModelArts支持云审计的关键操作查看ModelArts相关审计日志

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
使用ModelArts Standard训练模型 - AI开发平台ModelArts

使用ModelArts Standard训练模型模型训练使用流程准备模型训练代码准备模型训练镜像创建调试训练作业创建算法创建生产训练作业分布式模型训练模型训练存储加速增量模型训练自动模型优化（AutoSearch）模型训练高可靠性管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard）
管理Lite Cluster节点池 - AI开发平台ModelArts

查看节点池的存储配置在节点池管理的更新页面，可以查看该节点池配置的系统盘、容器盘或数据盘的磁盘类型、大小、数量、写入模式、容器引擎空间大小、挂载路径磁盘配置等参数。在Lite资源池的扩缩容页面，也可以查看节点池的存储配置信息。查找搜索节点池在节点池管理页面的搜索栏中，支持通过节点池名称、规格

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
创建算法 - AI开发平台ModelArts
创建算法 - AI开发平台ModelArts

确保您使用的OBS目录与ModelArts在同一区域。进入算法创建页面。登录ModelArts管理控制台，单击左侧菜单栏的“资产管理 > 算法管理”。在“我的算法”管理页面，单击“创建”，进入“创建算法”页面。填写算法的基本信息，包含“名称”和“描述”。设置算法启动方式，有以下三种方式可以选择。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

场景介绍方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU训练指导（6.3.906）

总条数： 1335

上一页
1
...
39
40
41
...
67
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

InternVL2基于DevServer适配PyTorch NPU训练指导（6.3.910) - AI开发平台ModelArts

CogVideoX训练推理基于DevServer适配PyTorch NPU指导（6.3.910） - AI开发平台ModelArts

LLaVA-NeXT基于DevServer适配Pytorch NPU训练微调指导（6.3.910） - AI开发平台ModelArts

托管模型到AI Gallery - AI开发平台ModelArts

报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exitng now.”如何解决？ - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

数据准备与处理 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

使用SFS盘出现报错rpc_check_timeout:939 callbacks suppressed - AI开发平台ModelArts

准备预测分析数据 - AI开发平台ModelArts

训练作业进程被kill - AI开发平台ModelArts

通过patch操作对服务进行更新 - AI开发平台ModelArts

在ModelArts Standard上运行GPU训练任务的场景介绍 - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

SDK简介 - AI开发平台ModelArts

使用CTS审计ModelArts服务 - AI开发平台ModelArts

使用ModelArts Standard训练模型 - AI开发平台ModelArts

管理Lite Cluster节点池 - AI开发平台ModelArts

创建算法 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线