搜索_华为云

在Linux上安装配置Grafana - AI开发平台ModelArts

在Linux上安装配置Grafana 适用场景本章节适用于在Linux操作系统的PC中安装配置Grafana。前提条件一台可访问外网的Ubuntu服务器。如果没有请具备以下条件：准备一台ECS服务器（建议规格选8U或者以上，镜像选择Ubuntu，建议选择22.04版本，本

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > ModelArts Standard资源监控 > 使用Grafana查看AOM中的监控指标 > 安装配置Grafana
从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

和类型)需与数据集一致，支持自动获取所选择表的schema。DLI的详细功能说明，请参考DLI用户指南。图1 DLI导入数据队列名称：系统自动将当前账号下的DLI队列展现在列表中，用户可以在下拉框中选择需要的队列。数据库名称：根据选择的队列展现所有的数据库，请在下拉框中选择您所需的数据库。

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 数据准备与处理 > 导入数据到ModelArts数据集
训练预测分析模型 - AI开发平台ModelArts

同一个自动学习项目可以训练多次，每次训练会注册一个新的模型一个版本。如第一次训练版本号为“0.0.1”，下一个版本为“0.0.2”。基于训练版本可以对训练模型进行管理。当训练的模型达到目标后，再执行模型部署的操作。评估结果说明根据训练数据类的不同评估结果会包含不同的指标。离散值评估结果包含评估指

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用自动学习实现零代码AI开发 > 使用自动学习实现预测分析
日志提示"write line error" - AI开发平台ModelArts

处理方法如果在训练作业的工作目录下有core文件生成，可以在启动脚本最前面加上如下代码，来关闭core文件产生。 import os os.system("ulimit -c 0") 排查数据集大小，checkpoint保存文件大小，是否占满了磁盘空间。必现的问题，使用本

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 硬盘限制故障
使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

左上角选择Raw，不要选择Socket.IO（一种WebSocket实现，要求客户端跟服务端都要基于Socket.IO），地址栏中填入从服务详情页“调用指南”页签中获取“API接口调用公网地址”后面的地址。如果自定义镜像中有更细粒度的地址，则在地址后面追加该URL。如果有queryString，那么在params栏中

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的传输协议
Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

download_datasets.py的内容。 import os import pandas as pd for idx, row in pd.read_csv('results_2M_val.csv').iterrows(): os.system(f"wget -O './dat

帮助中心 > AI开发平台ModelArts > 最佳实践 > 文生视频模型训练推理
VS Code ToolKit连接Notebook - AI开发平台ModelArts

Code开发环境中显示Notebook实例详情页，单击“连接”，系统自动启动该Notebook实例并进行远程连接。图9 查看Notebook实例详情页第一次连接Notebook时，系统右下角会提示需要先配置密钥文件。选择本地密钥pem文件，根据系统提示单击“OK”。图10 配置密钥文件单击

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用Notebook进行AI开发调试 > 通过VS Code远程使用Notebook实例
训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

retrying”，则表示NCCL无法找到通信网卡或者是无法正常访问IP地址。需要排查训练代码中是否有设置NCCL_SOCKET_IFNAME环境变量，该环境变量由系统自动注入，训练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后，单击右侧“重建”，重新创建训练作业，提交训练作业后等待作业完成。

帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > 训练作业运行失败
读取文件报错，如何正确读取文件 - AI开发平台ModelArts

read(img_path), np.uint8), 1) 在MXNet环境下使用torch包，请您尝试如下方法先进行导包： import os os.sysytem('pip install torch') import torch 父主题： OBS操作相关故障

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > OBS操作相关故障
准备MaaS资源 - AI开发平台ModelArts

使用时段，将自动转为按需收费。关于套餐包的约束限制、资源包抵扣顺序和套餐包余量预警请参见套餐包。购买操作如下：登录ModelArts管理控制台。在左侧导航栏中，选择“ModelArts Studio”进入ModelArts Studio大模型即服务平台。在ModelArts

帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Studio）
训练作业权限 - AI开发平台ModelArts

训练作业权限表1 训练作业（新版）细化权限说明权限对应API接口授权项依赖的授权项 IAM项目企业项目创建训练作业 POST /v2/{project_id}/training-jobs modelarts:trainJob:create swr:repository:listTags

帮助中心 > AI开发平台ModelArts > API参考 > 权限策略和授权项
用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

tensor([1.0, 2.0]).cuda()) 报错如下 Traceback (most recent call last): File "test.py", line 8, in <module> print('E', torch.cuda.get_device_properties(device))

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > 自定义镜像故障
Standard专属资源池 - AI开发平台ModelArts

ModelArts中的作业为什么一直处于等待中？ ModelArts控制台为什么能看到创建失败被删除的专属资源池？ ModelArts训练专属资源池如何与SFS弹性文件系统配置对等链接？

帮助中心 > AI开发平台ModelArts > 常见问题
训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

该进程一直处于"D+"状态，可能表明出现了I/O操作阻塞或其他问题，这可能导致系统死锁或其他问题。如果想构造nvidia-smi D+进程，可以死循环一直执行nvidia-smi体验D+进程带来的系统不稳定性，如： #!/bin/bash while true; do nvidia-smi

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Server
VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

<instance connection port> user ma-user IdentityFile ~/.ssh/test.pem StrictHostKeyChecking no UserKnownHostsFile /dev/null

帮助中心 > AI开发平台ModelArts > 故障排除 > 开发环境 > VS Code连接开发环境失败故障处理
通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

服务IP和端口号。 API接口： GET /v1/{project_id}/services/{service_id}/predict/endpoints?type=host_endpoints 方式一：图形界面的软件获取服务的IP和端口号图6 接口返回示例方式二：Python语言获取IP和端口号

 帮助中心 > AI开发平台ModelArts > ModelArts用户指南（Standard） > 使用ModelArts Standard部署模型并推理预测 > 将模型部署为实时推理作业 > 访问在线服务支持的访问通道
请求超时返回Timeout - AI开发平台ModelArts

代理和网络配置。检查模型是否启动成功或者模型处理单个消息的时长。因APIG（API网关）的限制，模型单次预测的时间不能超过40S，超过后系统会默认返回Timeout错误。父主题：服务预测

 帮助中心 > AI开发平台ModelArts > 故障排除 > 推理部署 > 服务预测
ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

服务IP和端口号。 API接口： GET /v1/{project_id}/services/{service_id}/predict/endpoints?type=host_endpoints 方式一：图形界面的软件获取服务的IP和端口号图6 接口返回示例方式二：Python语言获取IP和端口号

 帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard推理部署
在ModelArts的Notebook中JupyterLab默认工作路径是什么？ - AI开发平台ModelArts

upyterLab上传下载功能。带EVS存储的Notebook实例 JupyterLab文件默认存储路径，为创建Notebook实例时，系统自动分配的EVS空间。在文件列表的所有文件读写操作都是基于所选择的EVS下的内容操作的。使用EVS类型的挂载，可将大数据挂载至“~/work”目录下。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard Notebook
训练作业找不到GPU - AI开发平台ModelArts

根据错误信息判断，报错原因为训练作业运行程序读取不到GPU。处理方法根据报错提示，请您排查代码，是否已添加以下配置，设置该程序可见的GPU： os.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7' 其中，0为服务器的GPU编号，可

 帮助中心 > AI开发平台ModelArts > 故障排除 > 训练作业 > GPU相关问题

总条数： 2152

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消

在Linux上安装配置Grafana - AI开发平台ModelArts

从DLI导入数据到ModelArts数据集 - AI开发平台ModelArts

训练预测分析模型 - AI开发平台ModelArts

日志提示"write line error" - AI开发平台ModelArts

使用WebSocket协议的方式访问在线服务 - AI开发平台ModelArts

Open-Sora1.2基于Lite Server适配PyTorch NPU训练推理指导（6.3.910） - AI开发平台ModelArts

VS Code ToolKit连接Notebook - AI开发平台ModelArts

训练作业运行失败，出现NCCL报错 - AI开发平台ModelArts

读取文件报错，如何正确读取文件 - AI开发平台ModelArts

准备MaaS资源 - AI开发平台ModelArts

训练作业权限 - AI开发平台ModelArts

用户使用torch报错Unexpected error from cudaGetDeviceCount - AI开发平台ModelArts

Standard专属资源池 - AI开发平台ModelArts

训练速度突然下降以及执行nvidia-smi卡顿如何解决？ - AI开发平台ModelArts

VS Code连接开发环境失败时的排查方法 - AI开发平台ModelArts

通过VPC高速访问通道的方式访问在线服务 - AI开发平台ModelArts

请求超时返回Timeout - AI开发平台ModelArts

ModelArts Standard推理服务支持VPC直连的高速访问通道配置 - AI开发平台ModelArts

在ModelArts的Notebook中JupyterLab默认工作路径是什么？ - AI开发平台ModelArts

训练作业找不到GPU - AI开发平台ModelArts

意见反馈

7*24

备案

专业服务

退订

建议反馈

售前咨询热线