-
系统容器异常退出 - AI开发平台ModelArts
系统容器异常退出 问题现象 在训练创建后出现“系统容器异常退出”的故障。 图1 错误日志 原因分析 出现该问题的可能原因如下: OBS相关错误。 OBS文件不存在。The specified key does not exist。 用户OBS权限不足。 OBS限流。 OBS其他问题。
-
算子操作 - AI开发平台ModelArts
算子操作 查看算子 上传/下载自定义算子 编写自定义算子 自定义算子代码模板和规范 父主题: ML Studio
-
Step3 制作自定义镜像 - AI开发平台ModelArts
arm64v8/ubuntu:18.04 AS builder # 基础容器镜像的默认用户已经是 root # USER root # 安装 OS 依赖(使用华为开源镜像站) COPY Ubuntu-Ports-bionic.list /tmp RUN cp -a /etc/apt/sources
-
NPU Snt9B如何快速使用Container-NPU模式 - AI开发平台ModelArts
myhuaweicloud.com/euler/2.10/os/aarch64/ enabled=1 gpgcheck=1 gpgkey=http://mirrors.myhuaweicloud.com/euler/2.10/os/RPM-GPG-KEY-EulerOS\ 安装doc
-
ModelArts - AI开发平台ModelArts
Toolkit功能介绍 操作指导 自动学习之图像分类 操作指导 04:08 自动学习之图像分类 自动学习之预测分析 操作指导 03:30 自动学习之预测分析 自动学习之物体检测 操作指导 04:35 自动学习之物体检测 VS Code连接Notebook 操作指导 02:16 VS
-
算链操作 - AI开发平台ModelArts
算链操作 查看算链 算链编排界面说明 算链编排操作 上传/下载算链 运行算链 父主题: ML Studio
-
OBS操作相关故障 - AI开发平台ModelArts
OBS操作相关故障 读取文件报错,如何正确读取文件? TensorFlow-1.8作业连接OBS时反复出现提示错误 TensorFlow在OBS写入TensorBoard到达5GB时停止 保存模型时出现Unable to connect to endpoint错误 训练作业日志中提示“No
-
身份认证与访问控制 - AI开发平台ModelArts
ate" 的权限才可以完成操作(无论界面操作还是API调用)。 管理员新创建的用户在没有配置细粒度授权策略时,默认具有ModelArts所有权限。如果需要控制用户的详细权限,管理员可以通过IAM为用户组配置细粒度授权策略,使用户获得策略定义的权限,操作对应云服务的资源。基于策略授
-
修改工作空间 - AI开发平台ModelArts
name 否 String 工作空间名称。长度限制为4-64字符,支持中文、大小写字母、数字、中划线和下划线。同时'default'为系统预留的默认工作空间名称,用户无法自己创建名为'default'的工作空间。 description 否 String 工作空间描述,默认为空。长度限制为0-256字符。
-
风险操作 - AI开发平台ModelArts
风险操作 当您在CCE、ECS或BMS服务控制台直接操作ModelArts Lite k8s Cluster资源时,可能会导致资源池部分功能异常,下表可帮助您定位异常出现的原因,风险操作包括但不限于以下内容: 表1 操作及其对应风险 类型 操作 风险 集群 升级、修改、休眠集群、删除集群等。
-
GPU A系列裸金属服务器RoCE性能带宽测试 - AI开发平台ModelArts
A系列裸金属服务器已经安装了IB驱动。(网卡设备名称可以使用ibstatus或者ibstat获取。华为云Ant8裸金属服务器使用Ubuntu20.04操作系统默认已经安装IB驱动。) 操作步骤 方法1:使用mlx硬件计数器,估算ROCE网卡收发流量 统计300s内流量,统计脚本如下:
-
训练作业 - AI开发平台ModelArts
训练作业 创建训练作业 查询训练作业列表 查询训练作业版本详情 删除训练作业版本 查询训练作业版本列表 创建训练作业版本 停止训练作业版本 更新训练作业描述 删除训练作业 获取训练作业日志的文件名 查询预置算法 查询训练作业日志 父主题: 训练管理(旧版)
-
工作空间管理权限 - AI开发平台ModelArts
工作空间管理权限 表1 工作空间管理细化权限说明 权限 对应API接口 授权项 依赖的授权项 IAM项目 企业项目 创建工作空间 POST /v1/{project_id}/workspaces modelarts:workspace:create - √ √ 查询工作空间列表 GET
-
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 - AI开发平台ModelArts
裸金属服务器Euler OS升级NetworkManager-config-server导致SSH链接故障解决方案 问题现象 裸金属服务器EulerOS 2.8系统下,使用yum update -y命令,导致软件NetworkManagre-config-server升级到高版本,出现SSH链接故障无法访问。
-
创建训练作业 - AI开发平台ModelArts
委托授权完成操作。 (可选)如果使用已有算法创建训练作业,需要确认“算法管理”中已准备好算法,具体操作请参见准备算法简介。 (可选)如果使用自定义镜像创建训练作业,需要上传镜像到SWR服务中,具体操作请参见如何登录并上传镜像到SWR。 操作流程介绍 创建训练作业的操作步骤如下所示。
-
Notebook自定义镜像约束 - AI开发平台ModelArts
可以基于开发环境提供的预置镜像为Base镜像制作自定义镜像。 基于昇腾、Dockerhub官网等官方开源的镜像制作,开源镜像需要满足如下操作系统约束: x86:Ubuntu18.04、Ubuntu20.04 ARM:Euler2.8.3、Euler2.10.7 不满足以上镜像规范
-
操作步骤 - AI开发平台ModelArts
WEICLOUD_SDK_SK。 __AK = os.environ["HUAWEICLOUD_SDK_AK"] __SK = os.environ["HUAWEICLOUD_SDK_SK"] # 如果进行了加密还需要进行解密操作 session = Session(access_key=__AK
-
导入AI应用提示该账号受限或者没有操作权限 - AI开发平台ModelArts
导入AI应用提示该账号受限或者没有操作权限 问题现象 在导入AI应用时,提示用户账号受限。 原因分析 提示用户账号受限,常见原因有如下几种: 导入AI应用账号欠费导致被冻结; 导入AI应用账号没有对应工作空间的权限; 导入AI应用账号为子账号,主账号没有给子账号赋予AI应用相关权限。
-
相关配置操作 - AI开发平台ModelArts
相关配置操作 同步推理服务部署相关信息配置 在开发态中(一般指Notebook),节点启动运行后,用户根据日志打印的输入格式进行配置,如下所示: 在ModelArts管理控制台,左侧菜单栏选择“Workflow”进入Workflow页面。 在服务部署节点启动之后会等待用户设置相关
-
示例:从0到1制作自定义镜像并用于训练(Horovod-PyTorch+GPU) - AI开发平台ModelArts
文示例中选择“Archive Versions”,“Version”选择“5.4-3.5.8.0-LTS”,“OS Distribution”选择“Ubuntu”,“OS Distribution Version”选择“Ubuntu 18.04”,“Architecture”选择