搜索_华为云

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

images = images.permute(0, 3, 1, 2).contigous() 建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

风险。处理方法建议先将Tensorboard文件写到本地，然后再复制回OBS。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

因此删除它。默认该文件在/root/nccl-tests直接删除即可。从内核中卸载nvidia相关的所有进程。在安装nvidia驱动时，必须把内核中加载nvidia相关的进程卸载，否则会失败。具体操作请参考卸载nvidia驱动。若遇到加载到内核的nvidia进程循环依赖，无法从内核中卸载n

帮助中心 > AI开发平台ModelArts > 常见问题 > Lite Server
创建ModelArts数据集 - AI开发平台ModelArts

前提条件数据管理功能需要获取访问OBS权限，在未进行委托授权之前，无法使用此功能。在使用数据管理功能之前，请前往“权限管理”页面，使用委托完成访问授权。已创建用于存储数据的OBS桶及文件夹。并且，数据存储的OBS桶与ModelArts在同一区域。当前不支持OBS并行文件系统，请选择OBS对象存储。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理
计费样例 - AI开发平台ModelArts
计费样例 - AI开发平台ModelArts

两种不同的计费模式的消费情况。此案例中的单价仅为示例，且计算出的费用为估算值。单价的变动和实际场景中计算出来的费用可能会有偏差。请以华为云官网发布的数据为准。在使用ModelArts进行AI开发时，会将数据保存至OBS、EVS或SFS中，此时会产生单独的存储计费，具体费用以OBS、EVS和SFS的计费标准为准。

帮助中心 > AI开发平台ModelArts > 计费说明
其他故障 - AI开发平台ModelArts
其他故障 - AI开发平台ModelArts

其他故障 Notebook中无法打开“checkpoints”文件夹创建新版Notebook无法使用已购买的专属资源池，如何解决？在Notebook中使用tensorboard命令打开日志文件报错Permission denied 父主题：开发环境

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
Notebook提示磁盘空间已满 - AI开发平台ModelArts

Notebook提示磁盘空间已满问题现象在使用Notebook时，提示磁盘空间已满：No Space left on Device。在Notebook执行代码时，出现如下报错，提示：Disk quato exceeded。原因分析在JupyterLab浏览器左侧导航删除文件

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 环境配置故障
Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

本要兼容或高于8.0；用户制作的自定义镜像，在本地执行docker run启动，无法正常运行；用户自行安装了Jupyterlab服务导致冲突的，需要用户本地使用Jupyterlab命令罗列出相关的静态文件路径，删除并且卸载镜像中的Jupyterlab服务；用户自己业务占用了

 帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
Lite Server资源配置流程 - AI开发平台ModelArts

3 配置Lite Server软件环境不同镜像中预安装的软件不同，您通过Lite Server算力资源和镜像版本配套关系章节查看已安装的软件。当Server服务器中预装的软件无法满足业务需求时，您可在Server服务器中配置所需要的软件环境。父主题： Lite Server资源配置

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置
提交训练作业时，出现xxx isn't existed in train_version错误 - AI开发平台ModelArts

由于PyCharm ToolKit本地记录了云端ModelArts的训练作业ID，如果手动在ModelArts管理控制台删除，本地提交作业时候会报找不到该ID的作业。解决措施如果已经在ModelArts管理控制台删除了作业，需要在ToolKit也同步删除掉本地的配置信息，单击“Edit

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook > PyCharm Toolkit使用
使用kv-cache-int8量化 - AI开发平台ModelArts

当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e4m3fn"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.908） > 推理模型量化
训练中的权重转换说明 - AI开发平台ModelArts

--tensor-model-parallel-size：${TP}张量并行数，需要与训练脚本中的TP值配置一样。 --pipeline-model-parallel-size：${PP}流水线并行数，需要与训练脚本中的PP值配置一样。 --load-dir：加载转换模型权重路径。 --save-dir

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU训练指导（6.3.909） > 训练脚本说明
SDXL ComfyUI插件基于DevServer适配PyTorch NPU推理指导（6.3.904） - AI开发平台ModelArts

${work_dir}:${container_work_dir}：代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/

帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
准备代码 - AI开发平台ModelArts
准备代码 - AI开发平台ModelArts

华为方技术支持下载获取。模型软件包结构说明 AscendCloud-6.3.907代码包中AscendCloud-LLM代码包结构介绍如下，训练脚本以分类的方式集中在scripts文件夹中： |──llm_train # 模型训练代码包

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作
Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

device=/dev/davinci0：挂载NPU设备，示例中挂载了1张卡davinci0。 ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统，work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理
使用kv-cache-int8量化 - AI开发平台ModelArts

当前社区vllm只支持float8的kv_cache量化，抽取脚本中dtype类型是"float8_e4m3fn"。dtype类型不影响int8的scale系数的抽取和加载。 Step3 启动kv-cache-int8量化服务在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数：

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Cluster适配PyTorch NPU推理指导（6.3.909） > 推理模型量化
管理同步在线服务 - AI开发平台ModelArts

管理同步在线服务查看在线服务详情查看在线服务的事件管理在线服务生命周期修改在线服务配置在云监控平台查看在线服务性能指标集成在线服务API至生产环境中应用父主题：使用ModelArts Standard部署模型并推理预测

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
开发Workflow命令参考 - AI开发平台ModelArts

配置Workflow的输入输出目录创建Workflow节点构建Workflow多分支运行场景编排Workflow 发布Workflow 在Workflow中更新已部署的服务 Workflow高阶能力父主题：使用Workflow实现低代码AI开发

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Workflow实现低代码AI开发
查看日志和性能 - AI开发平台ModelArts

查看日志和性能查看日志训练过程中，训练日志会在第一个的Rank节点打印。图1 打印训练日志训练完成后，如果需要单独获取训练日志文件，日志存放在第一个的Rank节点中；日志存放路径为：对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件查看性能

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配LlamaFactory PyTorch NPU训练指导（6.3.909）
分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

成。查看数据特征分析结果。 “版本选择”：在右侧下拉框中选择进行对比的版本。也可以只选择一个版本。 “类型”：选择需要分析的类型。支持“all”、“train”、“eval”和“inference”。 “数据特征指标”：在右侧下拉框中勾选需要展示的指标。详细指标说明请参见支持分析指标及其说明。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理

总条数： 1458

上一页
1
...
61
62
63
...
73
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” - AI开发平台ModelArts

日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

GPU A系列裸金属服务器如何更换NVIDIA和CUDA？ - AI开发平台ModelArts

创建ModelArts数据集 - AI开发平台ModelArts

计费样例 - AI开发平台ModelArts

其他故障 - AI开发平台ModelArts

Notebook提示磁盘空间已满 - AI开发平台ModelArts

Notebook自定义镜像故障基础排查 - AI开发平台ModelArts

Lite Server资源配置流程 - AI开发平台ModelArts

提交训练作业时，出现xxx isn't existed in train_version错误 - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

训练中的权重转换说明 - AI开发平台ModelArts

SDXL ComfyUI插件基于DevServer适配PyTorch NPU推理指导（6.3.904） - AI开发平台ModelArts

准备代码 - AI开发平台ModelArts

Qwen-VL基于DevServer适配Pytorch NPU的推理指导（6.3.909） - AI开发平台ModelArts

使用kv-cache-int8量化 - AI开发平台ModelArts

管理同步在线服务 - AI开发平台ModelArts

开发Workflow命令参考 - AI开发平台ModelArts

查看日志和性能 - AI开发平台ModelArts

分析ModelArts数据集中的数据特征 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线