搜索_华为云

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

-v检查是否安装成功：图8 查看docker版本配置IP转发，用于容器内的网络访问。执行下述命令查看net.ipv4.ip_forward配置项值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果不为1，执行下述命令配置IP转发。 sed

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源配置 > 配置Lite Server软件环境
返回结果 - AI开发平台ModelArts
返回结果 - AI开发平台ModelArts

"error_code": "AS.0001" } 其中，error_code表示错误码，error_msg表示错误描述信息，具体请参见错误码。父主题：如何调用API

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
标注数据如何导出 - AI开发平台ModelArts

标注数据如何导出只有“图像分类”、“物体检测”、“图像分割”类型的数据集支持导出功能。 “图像分类”只支持导出txt格式的标注文件。 “物体检测”只支持导出Pascal VOC格式的XML标注文件。 “图像分割”只支持导出Pascal VOC格式的XML标注文件以及Mask图像。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard数据管理
训练的数据集预处理说明 - AI开发平台ModelArts

以llama2-13b举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。如果未进行数据集预处理，则会自动执行scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.908） > 训练脚本说明
使用CES监控Lite Server资源 - AI开发平台ModelArts

使用CES监控Lite Server资源场景描述本文主要介绍如何配置华为云BMS+CES联合提供的裸金属服务器的指标监控方案，可帮助您查看CPU相关监控指标、CPU负载类相关监控指标、内存相关监控指标、磁盘相关监控指标、磁盘I/O类、文件系统类、网卡类、软RAID相关监控指标和进程相关监控指标。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server） > Lite Server资源管理 > 监控Lite Server资源
查看批量服务详情 - AI开发平台ModelArts

查看批量服务详情当AI应用部署为批量服务成功后，您可以进入“批量服务”页面，来查看服务详情。登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署>批量服务”，进入“批量服务”管理页面。单击目标服务名称，进入服务详情页面。您可以查看服务的“名称”、“状态”等信息，详情说明请参见表1。

帮助中心 > AI开发平台ModelArts > 推理部署（历史文档待下线） > 部署AI应用（部署上线） > 部署AI应用（批量服务）
查看批量服务详情 - AI开发平台ModelArts

查看批量服务详情当AI应用部署为批量服务成功后，您可以进入“批量服务”页面，来查看服务详情。登录ModelArts管理控制台，在左侧菜单栏中选择“模型部署>批量服务”，进入“批量服务”管理页面。单击目标服务名称，进入服务详情页面。您可以查看服务的“名称”、“状态”等信息，详情说明请参见表1。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 管理批量推理作业
更多功能咨询 - AI开发平台ModelArts

更多功能咨询在Notebook中，如何使用昇腾多卡进行调试？使用Notebook不同的资源规格，为什么训练速度差不多？使用MoXing时，如何进行增量训练？在Notebook中如何查看GPU使用情况如何在代码中打印GPU使用信息 Ascend上如何查看实时性能指标？不启用自动停

 帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
日志提示"Permission denied" - AI开发平台ModelArts

'/xxx/xxxx' bash: /bin/ln: Permission denied 自定义镜像中，bash:/home/ma-user/.pip/pip.conf：Permission Denied 自定义镜像中，tee: /xxx/xxxx: Permission denied cp:

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 权限问题
认证鉴权 - AI开发平台ModelArts
认证鉴权 - AI开发平台ModelArts

body中“auth.scope”的取值需要选择“project”，请求示例如下所示。在构造请求中以调用获取用户Token接口为例说明了如何调用API。 { "auth": { "identity": { "methods": [ "password"

帮助中心 > AI开发平台ModelArts > API参考 > 如何调用API
训练数据集预处理说明 - AI开发平台ModelArts

llama2-13b 举例，使用训练作业运行：obs_pipeline.sh 训练脚本后，脚本自动执行数据集预处理，并检查是否已经完成数据集预处理。如果已完成数据集预处理，则直接执行训练任务。若未进行数据集预处理，则会自动执行 scripts/llama2/1_preprocess_data

帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907） > 训练脚本说明
使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

on", "obs:object:ListMultipartUploadParts", "obs:object:AbortMultipartUpload", "obs:object:GetObjectAcl"

帮助中心 > AI开发平台ModelArts > 常见问题 > 一般性问题
实例故障 - AI开发平台ModelArts
实例故障 - AI开发平台ModelArts

实例故障创建Notebook失败，查看事件显示JupyterProcessKilled 创建Notebook实例后无法打开页面，如何处理？使用pip install时出现“没有空间”的错误出现“save error”错误，可以运行代码，但是无法保存单击Notebook的打开按钮时报“请求超时”错误？

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境
如何关闭Mox的warmup - AI开发平台ModelArts

如何关闭Mox的warmup 问题现象训练作业mox的Tensorflow版本在运行的时候，会先执行“50steps” 4次，然后才会开始正式运行。 warmup即先用一个小的学习率训练几个epoch（warmup），由于网络的参数是随机初始化的，如果一开始就采用较大的学习率会出现数值不稳定的问题，这是使用warm

帮助中心 > AI开发平台ModelArts > 故障排除 > MoXing
查看训练作业事件 - AI开发平台ModelArts

训练运行到结束的过程中，关键事件支持手动/自动刷新。查看操作在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。在训练作业列表中，单击作业名称进入训练作业详情页面。在训练作业详情页面，单击“事件”页签查看事件信息。图1 查看事件信息父主题：管理模型训练作业

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard训练模型 > 管理模型训练作业
自动学习项目中，如何进行增量训练？ - AI开发平台ModelArts

自动学习项目中，如何进行增量训练？在自动学习项目中，每训练一次，将自动产生一个训练版本。当前一次的训练结果不满意时（如对训练精度不满意），您可以适当增加高质量的数据，或者增减标签，然后再次进行训练。增量训练目前仅支持“图像分类”、“物体检测”、“声音分类”类型的自动学习项目。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard自动学习 > 模型训练
GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

但是达不到预期，可能是nv_peer_mem异常。处理方法查看nv_peer_mem是否已安装。 dpkg -i | grep peer 若未安装则需要安装，安装方法参考装机指导。若已安装则进入下一检测项。查看该软件是否已经加载至内核。 lsmod | grep peer

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？问题现象在高性能8卡GPU的裸金属上的训练任务突然变慢，以前1个epoch约2小时执行完成，最近1个epoch需要2天才能执行完成，并且执行“nvidia-smi”也明显变很卡顿。原因分析根据现象描述可能出现了nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？原因分析容器提供的健康检查接口调用失败。容器健康检查接口调用失败，原因可能有两种：镜像健康检查配置问题 AI应用健康检查配置问题解决方法根据容器日志进行排查，查看健康检查接口失败的具体原因。镜像健康检查配置问题，

帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务部署
训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

训练作业的启动文件如何获取训练作业中的参数？训练作业参数有两种来源，包括后台自动生成的参数和用户手动输入的参数。具体获取方式如下：创建训练作业时，“输入”支持配置训练的输入参数名称（一般设置为“data_url”），以及输入数据的存储位置，“输出”支持配置训练的输出参数名称（

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard训练作业 > 编写训练代码

总条数： 1494

上一页
1
...
8
9
10
...
75
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

NPU服务器上配置Lite Server资源软件环境 - AI开发平台ModelArts

返回结果 - AI开发平台ModelArts

标注数据如何导出 - AI开发平台ModelArts

训练的数据集预处理说明 - AI开发平台ModelArts

使用CES监控Lite Server资源 - AI开发平台ModelArts

查看批量服务详情 - AI开发平台ModelArts

查看批量服务详情 - AI开发平台ModelArts

更多功能咨询 - AI开发平台ModelArts

日志提示"Permission denied" - AI开发平台ModelArts

认证鉴权 - AI开发平台ModelArts

训练数据集预处理说明 - AI开发平台ModelArts

使用ModelArts时提示“权限不足”，如何解决？ - AI开发平台ModelArts

实例故障 - AI开发平台ModelArts

如何关闭Mox的warmup - AI开发平台ModelArts

查看训练作业事件 - AI开发平台ModelArts

自动学习项目中，如何进行增量训练？ - AI开发平台ModelArts

GPU A系列裸金属服务器RoCE带宽不足如何解决？ - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

服务部署、启动、升级和修改时，容器健康检查失败如何处理？ - AI开发平台ModelArts

训练作业的启动文件如何获取训练作业中的参数？ - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线