搜索_华为云

调试与训练 - AI开发平台ModelArts

调试与训练单机单卡单机多卡多机多卡父主题：专属资源池训练

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练
Lite Cluster资源配置 - AI开发平台ModelArts

Lite Cluster资源配置 Lite Cluster资源配置流程配置Lite Cluster网络配置kubectl工具配置Lite Cluster存储（可选）配置驱动（可选）配置镜像预热

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster）
日志提示"write line error" - AI开发平台ModelArts

日志提示"write line error" 问题现象在程序运行过程中，刷出大量错误日志“[ModelArts Service Log]modelarts-pipe: write line error”。并且问题是必现问题，每次运行到同一地方的时候，出现错误。原因分析出现该问题的可能原因如下：

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示“no socket interface found” - AI开发平台ModelArts

日志提示“no socket interface found” 问题现象在pytorch镜像运行分布式作业时，设置NCCL日志级别，代码如下： import os os.environ["NCCL_DEBUG"] = "INFO" 会出现如下错误： job0879f61e-jo

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
OOM导致训练作业失败 - AI开发平台ModelArts

OOM导致训练作业失败问题现象因为OOM导致的训练作业失败，会有如下几种现象。错误码返回137，如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
日志提示“No module name 'unidecode'” - AI开发平台ModelArts

日志提示“No module name 'unidecode'” 问题现象从mindspore开源gitee中master分支下载的tacotron2模型，修改配置文件后上传ModelArts准备训练，日志报错提示：No module name 'unidecode'。原因分析

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

如果当前资源池的资源确实不够，也可以考虑将资源池扩容后再进行服务部署。公共资源池扩容，请联系系统管理员。专属资源池扩容，可参考扩缩容资源池。如果磁盘空间不够，可以尝试重试，使实例调度到其他节点。如果单实例仍磁盘空间不足，请联系系统管理员，更换合适的规格。如果是大模型导入的模型部署服务，请确保专属资源池磁盘空间大于1T（1000GB）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
确认智能标注作业的数据难例 - AI开发平台ModelArts

动执行的，无需人工介入，仅需针对标注后的数据进行确认和修改即可，提升数据管理和标注效率。其次，您可以基于难例的情况，补充类似数据，提升数据集的丰富性，进一步提升模型训练的精度。在数据集管理中，对难例的管理有如下场景。智能标注后，确认难例将数据集中的数据标注为难例目前只有“

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过智能标注方式标注数据
入驻AI Gallery - AI开发平台ModelArts

入驻AI Gallery 如果需要在AI Gallery中发布HiLens、报名实践活动或发布AI说，则需要先完成入驻AI Gallery。如果没有入驻过AI Gallery，在报名实践活动或发布AI说时，将跳转至“欢迎入驻AI Gallery”页面。在“欢迎入驻AI Gal

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery） > AI Gallery（旧版）
模型训练高可靠性 - AI开发平台ModelArts

模型训练高可靠性训练作业容错检查训练日志失败分析训练作业卡死检测训练作业重调度设置断点续训练设置无条件自动重启父主题：使用ModelArts Standard训练模型

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型
git插件密码失效如何解决？ - AI开发平台ModelArts

git插件密码失效如何解决？问题现象在JupyterLab中使用git插件时，当git clone私有仓库和git push文件时会出现如下报错：原因分析原因为Github已取消密码授权方式，此时在git clone私有仓库和git push文件时需要在授权方式框中输入token。

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > JupyterLab插件故障
CUDA和CUDNN - AI开发平台ModelArts
CUDA和CUDNN - AI开发平台ModelArts

CUDA和CUDNN Vnt1机型软件版本建议：gpu driver version : 440.95.01 gpu driver version : 440.95.01（GPU驱动在宿主机中安装，镜像中无需安装） cuda runtime version : 10.2（PyTorch自带，无需关心）

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
ModelArts在线服务的API接口组成规则是什么？ - AI开发平台ModelArts

ModelArts在线服务的API接口组成规则是什么？模型部署成在线服务后，用户可以获取API接口用于访问推理。 API接口组成规则如下： https://域名/版本/infer/服务ID 示例如下： https://6ac81cdfac4f4a30be95xxxbb682.apig

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
在ModelArts中导入模型对于镜像大小有什么限制？ - AI开发平台ModelArts

在ModelArts中导入模型对于镜像大小有什么限制？ ModelArts部署使用的是容器化部署，容器运行时有空间大小限制，当用户的模型文件或者其他自定义文件，系统文件超过容器引擎空间大小时，会提示镜像内空间不足。当前，公共资源池容器引擎空间的大小最大支持50G，专属资源池容器

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard推理部署
通过团队标注方式标注数据 - AI开发平台ModelArts

通过团队标注方式标注数据团队标注使用说明创建和管理团队创建团队标注任务审核并验收团队标注任务结果管理团队和团队成员父主题：标注ModelArts数据集中的数据

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据
Controlnet训练 - AI开发平台ModelArts

Controlnet训练使用文本提示词可以生成一副精美的画作，然而无论再怎么精细地使用提示词来指导模型，也无法描述清楚人物四肢的角度、背景中物体的位置、光线照射的角度，使用Controlnet可以通过图像特征来为扩散模型的生成过程提供更加精细控制的方式。将Controlnet

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生图模型训练推理 > SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
更新开发环境实例信息 - AI开发平台ModelArts

更新开发环境实例信息功能介绍该接口用于更新开发环境实例的描述信息或自动停止信息。 URI PUT /v1/{project_id}/demanager/instances/{instance_id} 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

dard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。本方案目前仅适用于部分企业客户

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

dard上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程，利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。本方案目前仅适用于部分企业客户

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
推理场景介绍 - AI开发平台ModelArts

DevServer上使用昇腾计算资源开展常见开源大模型Llama、Qwen、ChatGLM、Yi、Baichuan等推理部署的详细过程。本方案利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件，为用户提供推理部署方案，帮助用户使能大模型业务。约束限制本方案目前仅适用于部分企业客户。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于LIte Server适配PyTorch NPU推理指导（6.3.905）

总条数： 2660

上一页
1
...
54
55
56
...
133
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

调试与训练 - AI开发平台ModelArts

Lite Cluster资源配置 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

日志提示“No module name 'unidecode'” - AI开发平台ModelArts

服务部署、启动、升级和修改时，资源不足如何处理？ - AI开发平台ModelArts

确认智能标注作业的数据难例 - AI开发平台ModelArts

入驻AI Gallery - AI开发平台ModelArts

模型训练高可靠性 - AI开发平台ModelArts

git插件密码失效如何解决？ - AI开发平台ModelArts

CUDA和CUDNN - AI开发平台ModelArts

ModelArts在线服务的API接口组成规则是什么？ - AI开发平台ModelArts

在ModelArts中导入模型对于镜像大小有什么限制？ - AI开发平台ModelArts

通过团队标注方式标注数据 - AI开发平台ModelArts

Controlnet训练 - AI开发平台ModelArts

更新开发环境实例信息 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

推理场景介绍 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线