搜索_华为云

如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

device 原因分析因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。解决方法对于GP Vnt1的显卡，GPU算力为-gencode arch=compute_70,code=[sm_70,compute_70]，设置setup.py中的编译参数即可解决。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 代码运行故障
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

获取对应模型的权重文件，获取链接参考表1。权重文件下载有如下几种方式，但不仅限于以下方式：方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是 Hugging

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.912） > 准备工作
远程连接处于retry状态如何解决？ - AI开发平台ModelArts

载。解决方法方法一（本地）：打开命令面板（Windows： Ctrl+Shift+P，macOS：Cmd+Shift+P），搜索“Kill VS Code Server on Host”，选择出问题的实例进行自动清除，然后重新进行连接。图1 清除异常的实例方法二（远端）：在VS

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

out"如何解决？问题现象原因分析原因分析一：实例配置的白名单IP与本地网络访问IP不符。解决方法：请修改白名单为本地网络访问IP或者去掉白名单配置。原因分析二：本地网络不通。解决方法：检查本地网络以及网络限制。父主题： VS Code连接开发环境失败故障处理

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
在线服务预测报错MR.0105 - AI开发平台ModelArts

报错日志从上图报错日志判断，预测失败是模型推理代码编写有问题。解决方法根据日志报错提示，append方法中缺少必填参数，修改模型推理代码文件“customize_service.py”中的代码，给append方法中传入合理的参数。如需了解更多模型推理代码编写说明，请参考模型推理代码编写说明。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

|---annotations |---train2017 |---val2017 更多obsutil的操作，可参考obsutil简介。将文件设置归属为ma-user： chown -R ma-user:ma-group coco 代码云上适配下载YOLOX代码。代码仓地址：https://github

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 调试与训练 > 单机多卡
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

获取对应模型的权重文件，获取链接参考表1。权重文件下载有如下几种方式，但不仅限于以下方式：方法一：网页下载：通过单击表格中权重文件获取地址的访问链接，即可在模型主页的Files and Version中下载文件。方法二：huggingface-cli：huggingface-cli是 Hugging

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
使用AWQ量化工具转换权重 - AI开发平台ModelArts

size参数，指定-1时为per-channel权重量化，W4A16支持128和-1，W8A16支持-1。 --w-bit：量化比特数，W4A16设置4，W8A16设置8。 --calib-data：数据集路径，推荐使用：https://huggingface.co/datasets/mit-ha

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
准备资源 - AI开发平台ModelArts
准备资源 - AI开发平台ModelArts

Standard，用户需要购买专属资源池，具体步骤请参考创建资源池。资源规格要求：计算规格：不同模型训练推荐的NPU卡数请参见不同模型推荐的参数与NPU卡数设置。硬盘空间：至少200GB。昇腾资源规格： Ascend: 1*ascend-snt9b表示昇腾单卡。 Ascend: 8*ascend-snt9b表示昇腾8卡。

帮助中心 > AI开发平台ModelArts > 最佳实践 > MLLM多模态模型训练推理 > Qwen-VL基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.912） > 准备工作
使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务背景说明 Server-Sent Events（SSE）是一种服务器向客户端推送数据的技术，它是一种基于HTTP的推送技术，服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据，例如聊天应用、实时新闻更新等。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
日志提示“no socket interface found” - AI开发平台ModelArts

原因分析可能原因如下：原因1：未设置环境变量NCCL_IB_TC、NCCL_IB_GID_INDEX、NCCL_IB_TIMEOUT，因此会导致通信速度慢且不稳定，最后造成IB通信断连，偶发上述现象。原因2：NCCL_SOCKET_IFNAME设置错误。当用户的NCCL版本低于2

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

使用Gallery CLI配置工具上传文件在服务器（ModelArts Lite云服务器或者是本地Windows/Linux等服务器）上登录Gallery CLI配置工具后，通过命令“gallery-cli upload”可以往AI Gallery仓库上传资产。命令说明登录Gallery

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

8中会出现的情况，该日志是Info级别的，并不是错误信息，可以通过设置环境变量来屏蔽INFO级别的日志信息。环境变量的设置一定要在import tensorflow或者import moxing之前。处理方法您需要通过在代码中设置环境变量“TF_CPP_MIN_LOG_LEVEL”来屏

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件在服务器（ModelArts Lite云服务器或者是本地Windows/Linux等服务器）上登录Gallery CLI配置工具后，通过命令“gallery-cli download”可以从AI Gallery仓库下载资源。命令说明登录Gallery

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（新版） > Gallery CLI配置工具指南
场景介绍及环境准备 - AI开发平台ModelArts

场景介绍及环境准备场景介绍 DiT（Diffusion Transformers）模型是一种将Transformer架构引入扩散模型的新方法。传统的扩散模型通常使用U-Net架构，而DiT模型则用Transformer替代了U-Net，处理图像生成和去噪等任务。核心思想是通过T

帮助中心 > AI开发平台ModelArts > 最佳实践 > GPU业务迁移至昇腾训练推理 > Dit模型PyTorch迁移与精度性能调优
ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

部署在线服务时，您可以选择性能更好的“实例规格”提高预测速度。例如使用GPU资源代替CPU资源。部署在线服务时，您可以增加“实例数”。如果实例数设置为1，表示后台的计算模式是单机模式；如果实例数设置大于1，表示后台的计算模式为分布式的。您可以根据实际需求进行选择。推理速度与模型复杂度强相关，您可以尝试优化模型提高预测速度。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
使用AWQ量化工具转换权重 - AI开发平台ModelArts

size参数，指定-1时为per-channel权重量化，W4A16支持128和-1，W8A16支持-1。 --w-bit：量化比特数，W4A16设置4，W8A16设置8。 --calib-data：数据集路径，推荐使用：https://huggingface.co/datasets/mit-ha

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910） > 推理模型量化
ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？ - AI开发平台ModelArts

system('cd xxx')无法进入文件夹怎么办？当在训练作业的启动脚本中使用os.system('cd xxx')无法进入相应的文件夹时，建议使用如下方法： import os os.chdir('/home/work/user-job-dir/xxx') 父主题： Standard模型训练

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
使用AWQ量化工具转换权重 - AI开发平台ModelArts

size参数，指定-1时为per-channel权重量化，W4A16支持128和-1，W8A16支持-1。 --w-bit：量化比特数，W4A16设置4，W8A16设置8。 --calib-data：数据集路径，推荐使用：https://huggingface.co/datasets/mit-ha

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911） > 推理模型量化
增量模型训练 - AI开发平台ModelArts

增量模型训练什么是增量训练增量训练（Incremental Learning）是机器学习领域中的一种训练方法，它允许人工智能（AI）模型在已经学习了一定知识的基础上，增加新的训练数据到当前训练流程中，扩展当前模型的知识和能力，而不需要从头开始。增量训练不需要一次性存储所有的

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型

总条数： 1531

上一页
1
...
12
13
14
...
77
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

如何解决训练过程中出现的cudaCheckError错误？ - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

远程连接处于retry状态如何解决？ - AI开发平台ModelArts

报错"ssh: connect to host ModelArts-xxx port xxx: Connection timed out"如何解决？ - AI开发平台ModelArts

在线服务预测报错MR.0105 - AI开发平台ModelArts

上传数据和算法至SFS（首次使用时需要） - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

准备资源 - AI开发平台ModelArts

使用Server-Sent Events协议的方式访问在线服务 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

使用Gallery CLI配置工具上传文件 - AI开发平台ModelArts

TensorFlow-1.8作业连接OBS时反复出现提示错误 - AI开发平台ModelArts

使用Gallery CLI配置工具下载文件 - AI开发平台ModelArts

场景介绍及环境准备 - AI开发平台ModelArts

ModelArts在线服务预测时，如何提高预测速度？ - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

ModelArts训练时使用os.system('cd xxx')无法进入文件夹怎么办？ - AI开发平台ModelArts

使用AWQ量化工具转换权重 - AI开发平台ModelArts

增量模型训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线