检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
昇腾云服务6.3.906版本说明 本文档主要介绍昇腾云服务6.3.906版本配套的镜像地址、软件包获取方式和支持的特性能力。 配套的基础镜像 镜像地址 获取方式 配套关系镜像软件说明 配套关系 PyTorch: 西南-贵阳一 swr.cn-southwest-2.myhuaweicloud
昇腾云服务6.3.910版本说明(推荐) 本文档主要介绍昇腾云服务6.3.910版本配套的镜像地址、软件包获取方式和支持的特性能力。 当前版本仅适用于华为公有云。 配套的基础镜像 芯片 镜像地址 获取方式 镜像软件说明 配套关系 Snt9B 西南-贵阳一 PyTorch: swr
创建Workflow数据集版本发布节点 功能介绍 通过对ModelArts数据集能力进行封装,实现数据集的版本自动发布的功能。数据集版本发布节点主要用于将已存在的数据集或者标注任务进行版本发布,每个版本相当于数据的一个快照,可用于后续的数据溯源。主要应用场景如下: 对于数据标注这
通过OBS创建模型构建失败,查看构建日志,提示pip下载包失败。如下载numpy 1.16版本失败。 原因分析 一般下载包失败时,可能有如下几个原因: pip源中不存在该包,当前默认pip源为pypi.org中的包,请在pypi.org中查看是否有对应版本的包并查看包安装限制。 下载的包
Standard 集群版本:v1.23|v1.25|v1.28(推荐) 集群规模:50|200|1000|2000 集群网络模式:容器隧道网络|VPC 集群转发模式:iptables|ipvs 驱动和插件版本与CCE集群版本适配关系 表3 插件版本与CCE集群版本适配关系 类别 插件名称
has no attribute 'dtype'。 原因分析 训练镜像的numpy版本与Notebook中不一致。 处理方法 在代码中打印出numpy的版本,查看是否为1.18.5版本,若非该版本号则在代码开始处执行: import os os.system('pip install
当裸金属服务器预置的NVIDIA版本和业务需求不匹配时,需要更换NVIDIA驱动和CUDA版本。本文介绍华为云A系列GPU裸金属服务器(Ubuntu20.04系统)如何从“NVIDIA 525+CUDA 12.0”更换为“NVIDIA 515+CUDA 11.7”。 操作步骤 卸载原有版本的NVIDIA和CUDA。
如何使用API接口获取订阅算法的订阅id和版本id? 调用API接口使用“我的订阅”方式创建训练作业时,请求参数需要填写算法的订阅id(algorithm.subscription_id)和版本id(algorithm.item_version_id)。可调用如下接口获取相关信息,如下以北京四为例:
220-CANN7.0.1.5 表2 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.10 内核版本 Linux 4.19.90-vhulk2211.3.0.h1543.eulerosv2r10.aarch64 架构类型 aarch64 固件版本 7.1.0.9.220 npu-driver
对于标注任务类型为“物体检测”的数据集版本,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。否则,显示已标注的图片的数据特征。 对于标注任务类型为“图像分类”的数据集版本,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。否则,显示全部的图片的数据特征。
使用华为云A系列裸金属服务器时有如下注意事项: nvidia-fabricmanager版本号必须和nvidia-driver版本号保持一致,可参考安装nvidia-fabricmanag方法。 NCCL必须和CUDA版本相匹配,可单击此处可查看配套关系和安装方法。 使用该裸金属服务器制作自定义镜像时, 必须清除残留文件,请参考清理文件。
调整模型后,部署新版本AI应用能否保持原API接口不变? ModelArts提供多版本支持和灵活的流量策略,您可以通过使用灰度发布,实现模型版本的平滑过渡升级。修改服务部署新版本模型或者切换模型版本时,原服务预测API不会变化。 调整模型版本的操作可以参考如下的步骤。 前提条件 已存在部署完成的服务。
原因分析 MMCV的依赖与PyTorch版本不匹配。 处理方法 可参考链接的内容,根据PyTorch和CUDA版本安装对应版本的MMCV。 父主题: 预置算法运行故障
不同实例的资源池安装的cuda和驱动版本号分别是什么? 专属资源池的cuda和驱动版本是可以根据用户的要求安装。如果需要调整,需提工单。 父主题: Standard资源池
训练作业是否支持定时或周期调用? ModelArts训练作业不支持定时周期化调用。当您的作业处于“运行中”状态时,可以按照业务需求进行调用。 父主题: 管理训练作业版本
专属资源池磁盘空间大小必须超过1T。您可以通过专属资源池详情页面,规格页签,查看专属资源池磁盘信息。当服务部署失败,提示磁盘空间不足时,请参考服务部署、启动、升级和修改时,资源不足如何处理? 图2 查看专属资源池磁盘信息 创建模型 使用大模型创建模型,选择从对象存储服务(OBS)中导入,需满足以下参数配置:
combination</module> 解决方式 先排查cuda和torch版本是否兼容。 # cuda版本 nvcc --version # nvidia-smi版本 nvidia-smi # torch版本(要确定用户用的哪个conda下的python) python -c "import
单击“名称/ID”,进入资源池详情页面,查看网络配置信息。返回专属资源池列表,选择“网络”页签,找到专属资源池关联的网络,打通VPC。打通VPC网络后,网络列表和资源池详情页面将显示VPC名称,单击后可以跳转至VPC详情页面。 图2 查看网络配置 图3 打通VPC VPC下创建弹性云服务器
当前服务使用的资源池规格。如果使用公共资源池部署,则不显示该参数。 个性化配置 您可以为在线服务的不同版本设定不同配置条件,并支持携带自定义运行参数,丰富版本分流策略或同一版本内的不同运行配置。您可以打开个性化配置按钮,单击“查看配置”修改服务个性化配置。 服务流量限制 服务流量限制是指每秒内一个服务能够被访问的次数上限。
initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本 (2)执行nvidia-smi失败,提示Failed to initialize NVML: Driver/library