搜索_华为云

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

-aux查到的进程号，使用kill -9强制关闭进程。 sudo kill -9 <进程ID> 方法2：如果方法1执行后无法消除D+进程，请尝试重启服务器。父主题： Lite Server

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
准备数据 - AI开发平台ModelArts
准备数据 - AI开发平台ModelArts

如果用户希望将 MOSS 数据集的 Excel 格式转换为，json 格式。可使用代码中提供的 scripts/tools/ExcelToJson.py 工具，其转换的要求为：本脚本可以处理的格式有：.xls .xlsx .csv .xlsb .xlsm .xlst MOSS 数据集的 Excel

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于DevServer适配ModelLink PyTorch NPU训练指导（6.3.911） > 准备工作
开发用于预置框架训练的代码 - AI开发平台ModelArts

训练数据需上传至OBS桶或者存储至数据集中。在训练代码中，用户需解析输入路径参数。系统后台会自动下载输入参数路径中的训练数据至训练容器的本地目录。请保证您设置的桶路径有读取权限。在训练作业启动后，ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来存储临时文件。“/cache”目录大小请

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 准备模型训练代码
给子账号配置训练作业基本使用权限 - AI开发平台ModelArts

obs:object:DeleteObjectVersion obs:object:ListMultipartUploadParts obs:object:AbortMultipartUpload obs:object:GetObjectAcl obs:object:GetObjectVersionAcl

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard权限管理 > 典型场景配置实践
删除网络资源 - AI开发平台ModelArts

Turbo的连接状态信息。可选值如下： Active：SFS连通状态正常 Abnormal：SFS连通状态异常 ipAddr String SFS Turbo的访问地址。状态码： 404 表13 响应Body参数参数参数类型描述 error_code String ModelArts错误码。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
查看ModelArts模型事件 - AI开发平台ModelArts

The %s-minute limit is over. imagePacker构建镜像有超时时间限制，请精简代码，提高编译效率。FAQ 正常模型描述已更新。 Model description updated. - 正常模型运行时依赖未更新。 Model running dependencies

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理ModelArts模型
ModelArts中提示OBS相关错误 - AI开发平台ModelArts

s所在区域是否一致。务必保证OBS桶与ModelArts所在区域一致。检查您的账号是否有该OBS桶的访问权限如果在使用Notebook时，需要访问其他账号的OBS桶，请查看您的账号是否有该OBS桶的访问权限。如没有权限，请参见在Notebook中，如何访问其他账号的OBS桶？。

帮助中心 > AI开发平台ModelArts > 故障排除 > 通用问题
以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

"image_info": { "cpu_image_url": "aip/pytorch_1_8:train", "gpu_image_url": "aip/pytorch_1_8:train", "image_version":

帮助中心 > AI开发平台ModelArts > API参考 > 应用示例
将模型部署为批量推理服务 - AI开发平台ModelArts

文件内容是多行JSON，每行JSON描述一个输入数据，需精确到文件，不能是文件夹； JSON内容需定义一个source字段，字段值是OBS的文件地址，有2种表达形式：桶路径“<obs path>{{桶名}}/{{对象名}}/文件名”，适用于访问自己名下的OBS数据；您可以访问OBS服务的对象获取路径。<obs

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测
故障恢复 - AI开发平台ModelArts
故障恢复 - AI开发平台ModelArts

用户在训练模型过程中，存在因硬件故障而产生的训练失败场景。针对硬件故障场景，ModelArts提供容错检查功能，帮助用户隔离故障节点，优化用户训练体验。容错检查包括两个检查项：环境预检测与硬件周期性检查。当环境预检查或者硬件周期性检查任一检查项出现故障时，隔离故障硬件并重新下发训练作业。针对于分布式场景，

帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
创建ModelArts人工标注作业 - AI开发平台ModelArts

创建ModelArts人工标注作业由于模型训练过程需要大量有标签的数据，因此在模型训练之前需对没有标签的数据添加标签。您可以通过创建单人标注作业或团队标注作业对数据进行手工标注，或对任务启动智能标注添加标签，快速完成对图片的标注操作，也可以对已标注图片修改或删除标签进行重新标注。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 标注ModelArts数据集中的数据 > 通过人工标注方式标注数据
使用JupyterLab在线开发和调试代码 - AI开发平台ModelArts

Lab的使用具体参见JupyterLab常用功能介绍。如果您的代码文件是.py格式，请新打开一个.ipynb文件，执行%load main.py命令将.py文件内容加载至.ipynb文件后进行编码、调试等。图5 打开代码文件在JupyterLab中直接调用ModelArts提供的SDK，创建训练作业，上云训练。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

本方案支持的模型列表、对应的开源权重获取地址如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化是否支持W8A8量化是否支持 kv-cache-int8量化开源权重获取地址 1 llama-7b √ √ √ √

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.906）
场景介绍 - AI开发平台ModelArts
场景介绍 - AI开发平台ModelArts

0版本。不同vLLM版本支持的模型列表有差异，具体如表1所示。表1 支持的模型列表和权重获取地址序号模型名称是否支持fp16/bf16推理是否支持W4A16量化是否支持W8A8量化是否支持W8A16量化是否支持 kv-cache-int8量化开源权重获取地址 1 llama-7b

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.910）
管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

勾选节点名称，选择节点列表上方的“添加/编辑资源标签”或“删除资源标签”，操作单个节点或批量操作节点资源标签。查找搜索节点在节点管理页面的搜索栏中，支持通过节点名称、IP地址、资源标签等关键字搜索节点。设置节点列表显示信息在节点页面中，单击右上角的设置图标，支持对节点列表中显示的信息进行自定义。删除/退订/释放节点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Cluster） > Lite Cluster资源管理
管理Standard专属资源池的游离节点 - AI开发平台ModelArts

勾选节点名称，选择节点列表上方的“添加/编辑资源标签”或“删除资源标签”，操作单个节点或批量操作节点资源标签。查找搜索节点在节点管理页面的搜索栏中，支持通过节点名称、IP地址、资源标签等关键字搜索节点。设置节点列表显示信息在节点页面中，单击右上角的设置图标，支持对节点列表中显示的信息进行自定义。删除/退订/释放节点

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源管理 > 管理Standard专属资源池
使用基础镜像 - AI开发平台ModelArts

sh时，命令如下： cd /home/ma-user/work/llm_train/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建doc

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配PyTorch NPU训练指导（6.3.907） > 准备工作 > 准备镜像
使用基础镜像 - AI开发平台ModelArts

sh时，命令如下： cd /home/ma-user/work/llm_train/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/llama2/0_pl_pretrain_13b.sh 创建训练作业后，会在节点机器中使用基础镜像创建doc

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.909） > 准备工作 > 准备镜像
查询服务详情 - AI开发平台ModelArts

说明参数参数类型描述 service_id String 服务ID。 service_name String 服务名称。 description String 服务描述。 tenant String 服务归属租户。 project String 服务归属项目。 owner String

帮助中心 > AI开发平台ModelArts > SDK参考 > 服务管理
LoRA微调训练 - AI开发平台ModelArts

训练作业启动命令中输入： cd /home/ma-user/work/llm_train/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/llama2/0_pl_lora_13b.sh 选择用户自己的专属资源池，以及规格与节点数。防止训练过程中出

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard适配PyTorch NPU训练指导（6.3.905）

总条数： 1520

上一页
1
...
45
46
47
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

准备数据 - AI开发平台ModelArts

开发用于预置框架训练的代码 - AI开发平台ModelArts

给子账号配置训练作业基本使用权限 - AI开发平台ModelArts

删除网络资源 - AI开发平台ModelArts

查看ModelArts模型事件 - AI开发平台ModelArts

ModelArts中提示OBS相关错误 - AI开发平台ModelArts

以PyTorch框架创建训练作业（新版训练） - AI开发平台ModelArts

将模型部署为批量推理服务 - AI开发平台ModelArts

故障恢复 - AI开发平台ModelArts

创建ModelArts人工标注作业 - AI开发平台ModelArts

使用JupyterLab在线开发和调试代码 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

场景介绍 - AI开发平台ModelArts

管理Lite Cluster资源池的游离节点 - AI开发平台ModelArts

管理Standard专属资源池的游离节点 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

使用基础镜像 - AI开发平台ModelArts

查询服务详情 - AI开发平台ModelArts

LoRA微调训练 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线