搜索_华为云

Lite Server - AI开发平台ModelArts
Lite Server - AI开发平台ModelArts

Lite Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决？ GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed

帮助中心 > AI开发平台ModelArts > 故障排除
训练作业失败，返回错误码139 - AI开发平台ModelArts

误。用户代码问题，出现了内存越界、非法访问内存空间的情况。未知系统问题导致，建议先尝试重建作业，重建后仍然失败，建议提工单定位。处理方法如果存在之前能跑通，什么都没修改，过了一阵跑不通的情况，先去排查跑通和跑不通的日志是否存在pip源更新了依赖包，如下图，安装之前跑通的老版本即可。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 业务代码问题
查询数据集监控数据 - AI开发平台ModelArts

是否必选参数类型描述 dataset_id 是 String 数据集ID。 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。表2 Query参数参数是否必选参数类型描述 end_time 是 Long 监控信息的截止时间。 start_time

帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
身份认证与访问控制 - AI开发平台ModelArts

远程接入管理使用本地IDE远程SSH连接ModelArts的Notebook开发环境时，需要用到密钥对进行鉴权认证。同时支持白名单访问控制，即设置允许远程接入访问这个Notebook的IP地址。父主题：安全

 帮助中心 > AI开发平台ModelArts > 产品介绍 > 安全
在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

Hub中Personal Access Token信息。查看Personal Access Token步骤如下：登录Github，打开设置页面。单击“Developer settings”。单击“Personal access tokens > Generate new token”。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过JupyterLab在线使用Notebook实例进行AI开发
配置IAM权限 - AI开发平台ModelArts

"Effect": "Allow" } ] } 创建自定义策略时，建议将项目级云服务和全局级云服务拆分为两条策略，便于授权时设置最小授权范围。此处的“Policy1”为项目级云服务、“Policy2”为全局级云服务。了解更多。将自定义策略授权给开发者用户组user_group。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > 基本配置 > 权限配置
run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

文件或者环境变量中密文存放，使用时解密，确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例，运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ##安装obsutil，完成AKSK配置。建议在基础镜像里做好。

帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
日志提示"write line error" - AI开发平台ModelArts

“/cache”目录满了，一般是3.5T存储空间满了，具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。 import os os.system("ulimit

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
OOM导致训练作业失败 - AI开发平台ModelArts

按照之前支撑的经验，出现该问题的可能原因如下：绝大部分都是确实是显存不够用。还有较少数原因是节点故障，跑到特定节点必现OOM，其他节点正常。处理方法如果是正常的OOM，就需要修改一些超参，释放一些不需要的tensor。修改网络参数，比如batch_size、hide_layer、cell_nums等。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
获取动态挂载OBS实例详情 - AI开发平台ModelArts

String Notebook实例ID，可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID，获取方法请参见获取项目ID和名称。 storage_id 是 String OBS存储ID。请求参数无响应参数状态码：200 表2 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 开发环境管理
查询消息订阅Subscription详情 - AI开发平台ModelArts

ubscription_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 subscription_id 是 String 工作流的消息订阅ID。

帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理
更新训练作业描述 - AI开发平台ModelArts

fourth") 参数说明表1 Estimator请求参数说明参数是否必选参数类型描述 session 是 Object 会话对象，初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id，可通过创建训练作业生成的训练作业对象查询，如"job_instance

帮助中心 > AI开发平台ModelArts > SDK参考 > 训练管理 > 训练作业
启动停止边缘节点服务实例 - AI开发平台ModelArts

node_id}/status 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务ID。 node_id 是 String 边缘节点ID。在IEF上创建边缘节点后可得到。

帮助中心 > AI开发平台ModelArts > API参考 > 服务管理
查询标注团队详情 - AI开发平台ModelArts

/{workforce_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workforce_id 是 String 标注团队ID。请求参数无响应参数状态码： 200 表2 响应Body参数

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 数据管理（旧版）
分离部署推理服务 - AI开发平台ModelArts

scheduler实例中NODE_PORTS=8088,8089；端口设置顺序必须与global rank table文件中各全量和增量节点顺序一致，否则会报错。步骤九推理请求使用命令测试推理服务是否正常启动。服务启动命令中的参数设置请参见表1。通过OpenAI服务API接口启动服务使用

 帮助中心 > AI开发平台ModelArts > 最佳实践 > LLM大语言模型训练推理 > 主流开源大模型基于Lite Server适配PyTorch NPU推理指导（6.3.910） > 部署推理服务
批量重启节点 - AI开发平台ModelArts

es/batch-reboot 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。请求参数表2 请求Body参数参数是否必选参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
停止训练作业版本 - AI开发平台ModelArts

stop 参数说明如表1所示。表1 参数说明参数是否必选参数类型说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 version_id 是 Long 训练作业的版本ID。请求消息

 帮助中心 > AI开发平台ModelArts > API参考 > 历史API > 训练管理（旧版） > 训练作业
CUDA和CUDNN - AI开发平台ModelArts
CUDA和CUDNN - AI开发平台ModelArts

LD_LIBRARY_PATH=/usr/local/cuda/compat 训练时默认不需要加此环境变量，仅当发现驱动版本不够时才使用此方法。专属池驱动版本如何升级？当专属资源池中的节点含有GPU/Ascend资源时，用户基于自己的业务，可能会有自定义GPU/Ascend驱

 帮助中心 > AI开发平台ModelArts > 最佳实践 > 历史待下线案例 > 专属资源池训练 > FAQ
Lite Server资源管理 - AI开发平台ModelArts

Lite Server资源管理查看Lite Server服务器详情启动或停止Lite Server服务器同步Lite Server服务器状态切换Lite Server服务器操作系统监控Lite Server资源 NPU日志收集上传释放Lite Server资源

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Lite Server）
修改Workflow工作流 - AI开发平台ModelArts

s/{workflow_id} 表1 路径参数参数是否必选参数类型描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。请求参数表2 请求Body参数参数是否必选参数类型

 帮助中心 > AI开发平台ModelArts > API参考 > Workflow工作流管理

总条数： 1511

上一页
1
...
59
60
61
...
76
下一页
跳转

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

Lite Server - AI开发平台ModelArts

训练作业失败，返回错误码139 - AI开发平台ModelArts

查询数据集监控数据 - AI开发平台ModelArts

身份认证与访问控制 - AI开发平台ModelArts

在JupyterLab使用Git克隆代码仓 - AI开发平台ModelArts

配置IAM权限 - AI开发平台ModelArts

run.sh脚本测试ModelArts训练整体流程 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

OOM导致训练作业失败 - AI开发平台ModelArts

获取动态挂载OBS实例详情 - AI开发平台ModelArts

查询消息订阅Subscription详情 - AI开发平台ModelArts

更新训练作业描述 - AI开发平台ModelArts

启动停止边缘节点服务实例 - AI开发平台ModelArts

查询标注团队详情 - AI开发平台ModelArts

分离部署推理服务 - AI开发平台ModelArts

批量重启节点 - AI开发平台ModelArts

停止训练作业版本 - AI开发平台ModelArts

CUDA和CUDNN - AI开发平台ModelArts

Lite Server资源管理 - AI开发平台ModelArts

修改Workflow工作流 - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线