搜索_华为云

准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

用户也可以自行准备训练数据。数据要求如下：使用标准的.json格式的数据，通过设置--json-key来指定需要参与训练的列。请注意huggingface中的数据集具有如下this格式。可以使用–json-key标志更改数据集文本字段的名称，默认为text。在维基百科数据集中，它有四列，分别是i

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.906） > 准备工作
日志提示“no socket interface found” - AI开发平台ModelArts

置错误。当用户的NCCL版本低于2.14时，则需要手动设置NCCL_SOCKET_IFNAME环境变量。处理方法针对原因1，需要在代码中补充如下环境变量。 import os os.environ["NCCL_IB_TC"] = "128" os.environ["NCCL_IB_GID_INDEX"]

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

使用JupyterLab在线开发和调试代码 JupyterLab常用功能介绍在JupyterLab使用Git克隆代码仓在JupyterLab中创建定时任务上传文件至JupyterLab 下载JupyterLab文件到本地在JupyterLab中使用MindInsight可视化作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试
第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

"text_output" } ] } "inputs"中"name"为"text_input"的元素代表输入，"data"为具体输入语句，本示例中为"what is machine learning"。 "inputs"中"name"为"max_tokens"的元素代表输出最大

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

retrying”，则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量，该环境变量由系统自动注入，训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后，单击右侧“重建”

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
训练场景和方案介绍 - AI开发平台ModelArts

软件配套版本表1 获取软件分类名称获取路径插件代码包 AscendCloud-6.3.907软件包中的AscendCloud-AIGC-6.3.907-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E 说明：如果上述软

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.907）
OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

Client连接数过多，进程/线程之间的轮询，导致一个OBS Client与服务端连接30S内无响应，超过超时时间，服务端断开了连接。处理方法如果是限流问题，日志中还会出现如下报错，OBS相关的错误码解释请参见OBS官方文档，这种情况建议提工单。 [ModelArts Service Log]2021-01-21

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
推理性能测试 - AI开发平台ModelArts

静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在Step4 制作推理镜像步骤中已经上传过AscendCloud-LLM-x.x.x.zip并解压，无需重复执行。进入benchmark_tools目录下，切换一个conda环境。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.907）
AI Gallery（新版） - AI开发平台ModelArts

发布和管理AI Gallery数据集发布和管理AI Gallery项目发布和管理AI Gallery镜像发布和管理AI Gallery中的AI应用使用AI Gallery微调大师训练模型使用AI Gallery在线推理服务部署模型 Gallery CLI配置工具指南计算规格说明

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（AI Gallery）
推理性能测试 - AI开发平台ModelArts

静态benchmark验证本章节介绍如何进行静态benchmark验证。已经上传benchmark验证脚本到推理容器中。如果在Step5 进入容器安装推理依赖软件步骤中已经上传过AscendCloud-LLM-x.x.x.zip并解压，无需重复执行。进入benchmark_too

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配PyTorch NPU推理指导（6.3.906）
自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

e+Ascend）。驱动版本与底层驱动不兼容当对自定义镜像的驱动进行升级时，请确定底层驱动是否兼容。当前支持哪种驱动版本，请从基础镜像中获取。文件权限不足该问题可能为自定义镜像的用户与作业容器的用户不同导致的。请修改dockerfile文件： RUN if id -u ma-user

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本案例需要创建一个Notebook，以便能够通过它访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。预训练预训练介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）
部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

runtime没有找到。处理方法建议您按以下步骤排查处理：确认部署在线服务时是否选择了GPU规格。在customize_service.py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本（customize_service.py编写指导请见模型推理代码编写说明）。

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

建议先将Tensorboard文件写到本地，然后再复制回OBS。建议与总结在创建训练作业前，推荐您先使用ModelArts开发环境调试训练代码，避免代码迁移过程中的错误。直接使用线上notebook环境调试请参考使用JupyterLab开发模型。配置本地IDE（Pycharm或者VSCode）联接

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
开发环境管理 - AI开发平台ModelArts

删除Notebook实例通过运行的实例保存成容器镜像查询Notebook支持的有效规格列表查询Notebook支持的可切换规格列表查询运行中的Notebook可用时长 Notebook时长续约启动Notebook实例停止Notebook实例获取动态挂载OBS实例信息列表动态挂载OBS

帮助中心 > AI开发平台ModelArts > API参考
计费相关 - AI开发平台ModelArts
计费相关 - AI开发平台ModelArts

训练作业如何收费？为什么项目删除完了，仍然还在计费？欠费后，ModelArts的资源是否会被删除？部署后的AI应用是如何收费的？ Notebook中的EVS存储可以使用套餐包吗？

帮助中心 > AI开发平台ModelArts > 常见问题
代码运行故障 - AI开发平台ModelArts

代码运行故障 Notebook运行代码报错，在'/tmp'中到不到文件 Notebook无法执行代码，如何处理？运行训练代码，出现dead kernel，并导致实例崩溃如何解决训练过程中出现的cudaCheckError错误？如何处理使用opencv.imshow造成的内核崩溃？

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
训练场景和方案介绍 - AI开发平台ModelArts

软件配套版本表1 获取软件分类名称获取路径插件代码包 AscendCloud-6.3.908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E 说明：如果上述软

 帮助中心 > AI开发平台ModelArts > 最佳实践 > AIGC模型训练推理 > SD1.5&SDXL Koyha框架基于DevServer适配PyTorch NPU训练指导（6.3.908）
创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

创建分布式并行模型，每个进程都会有相同的模型和参数。创建数据分发Sampler，使每个进程加载一个mini batch中不同部分的数据。网络中相邻参数分桶，一般为神经网络模型中需要进行参数更新的每一层网络。每个进程前向传播并各自计算梯度。模型某一层的参数得到梯度后会马上进行通讯并进行梯度平均。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 分布式模型训练
查询开发环境实例列表 - AI开发平台ModelArts

CREATE_QUEUING，免费资源创建排队中 CREATING，创建中 CREATE_FAILED，创建失败 START_QUEUING，免费资源启动排队中 READY_TO_START，免费资源等待启动 STARTING，启动中 RESTARTING，重启中 START_FAILED，启动失败

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 开发环境（旧版）

总条数： 1754

上一页
1
...
77
78
79
...
88
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

准备数据 - AI开发平台ModelArts

日志提示“no socket interface found” - AI开发平台ModelArts

通过JupyterLab在线使用Notebook实例进行AI开发 - AI开发平台ModelArts

第三方推理框架迁移到ModelArts Standard推理自定义引擎 - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

OBS复制过程中提示“BrokenPipeError: Broken pipe” - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

AI Gallery（新版） - AI开发平台ModelArts

推理性能测试 - AI开发平台ModelArts

自定义镜像训练作业失败定位思路 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

部署在线服务出现报错No CUDA runtime is found - AI开发平台ModelArts

日志提示“ValueError: Invalid endpoint: obs.xxxx.com” - AI开发平台ModelArts

开发环境管理 - AI开发平台ModelArts

计费相关 - AI开发平台ModelArts

代码运行故障 - AI开发平台ModelArts

训练场景和方案介绍 - AI开发平台ModelArts

创建多机多卡的分布式训练（DistributedDataParallel） - AI开发平台ModelArts

查询开发环境实例列表 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线