检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
导致驱动升级、故障检测、指标采集、节点运维功能异常。 高 联系华为云技术支持重装os-node-agent。 升级、回退、卸载rdma-sriov-dev-plugin。 可能影响容器内使用RDMA网卡。 高 联系华为云技术支持重装rdma-sriov-dev-plugin。 父主题:
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
配额与限制 本节介绍ModelArts涉及的相关云服务的配额限制,帮助用户查看和管理自己的配额。 什么是配额 配额是在某一区域下最多可同时拥有的某种资源的数量。 华为云为防止资源滥用,对云服务每个区域的用户资源数量和容量做了配额限制。 如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。
了一个免费在线服务,需要先将其删除才能部署新的免费在线服务)。 图7 部署模型 完成服务部署后,返回在线服务页面列表页,等待服务部署完成,当服务状态显示为“运行中”,表示服务已部署成功。 步骤六 预测结果 在“在线服务”页面,单击在线服务名称,进入服务详情页面。 单击“预测”页签
6-gpu"。修改完成后,重新执行导入模型和部署为在线服务的操作。 参数设置完成后,单击“下一步”,确认规格参数,单击“提交”,完成在线服务的部署。 您可以进入“模型部署 > 在线服务”页面,等待服务部署完成,当服务状态变为“运行中”时,表示服务部署成功。预计时长2分钟左右。 在线服务部署完成后,您可以单击操
GPU A系列裸金属服务器RoCE带宽不足如何解决? 问题现象 GP Ant8支持RoCE网卡, Ubuntu20.04场景,在进行nccl-tests时,总线带宽理论峰值可达90GB/s,但实际测试下来的结果只有35GB/s。 原因分析 “nv_peer_mem”是一个Linu
结果的准确性。 步骤5:清理资源 体验结束后,建议暂停或删除服务,避免占用资源,造成资源浪费。 停止在线服务:在“在线服务”列表,单击对应服务操作列的“更多 > 停止”。 删除在线服务:在“在线服务”列表,单击对应服务操作列的“更多 > 删除”。 父主题: 历史待下线案例
进行精细的权限管理,您可以使用统一身份认证服务(Identity and Access Management,简称IAM),如果华为云帐号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章节,不影响您使用ModelArts服务的其它功能。 默认情况下,新建的IAM用户
在使用MaaS服务时,需要先完成OBS桶、资源池等准备工作。 准备OBS桶 在ModelArts Studio大模型即服务平台创建自定义模型、调优或压缩模型时,需要在对象存储服务OBS中创建OBS桶,用于存放模型权重文件、训练数据集或者是存放永久保存的日志。 创建OBS桶和上传文件的操作指导请参见OBS控制台快速入门。
data.OBSPath(obs_path="/spark-sql/mrs_input/")) #输入数据的OBS路径 outputs = wf.steps.MrsJobOutput(name="mrs_output", obs_config=wf.data.OBSOutput
如何查看账号ID和IAM用户ID 使用IAM账号登录华为云。 在页面右上方单击“控制台”,进入华为云管理控制台。 图1 控制台入口 在控制台右上角的账户名下方,单击“我的凭证”,进入“我的凭证”页面。 图2 我的凭证 在API凭证页面获取IAM用户名、用户ID、账号名和账号ID。
调用API接口创建训练作业和部署服务时,如何填写资源池的参数? 调用API接口创建训练作业时,“pool_id”为“资源池ID”。 调用API接口部署在线服务时,“pool_name”为“资源池ID” 。 图1 资源池ID 父主题: API/SDK
deleteConvert 服务管理支持审计的关键操作列表 表5 服务管理支持审计的关键操作列表 操作名称 资源类型 事件名称 部署服务 service addService 删除服务 service deleteService 更新服务 service updateService 启停服务 service
时序预测-time_series_v2算法部署在线服务预测报错 问题现象 在线服务预测报错:ERROR: data is shorter than windows。 原因分析 该报错说明预测使用的数据行数小于window超参值。 在使用订阅算法时序预测-time_series_v
GPU A系列裸金属服务器没有任务但GPU被占用如何解决 问题现象 服务器没有任务,但GPU显示被占用。 图1 显卡运行状态 处理方法 nvidia-smi -pm 1 父主题: Lite Server
Arts在任务执行过程中需要访问用户的其他服务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问任何云服务之前,均需要先获得用户的授权,而这个动作就是
上传自定义算法前,请完成算法开发并上传至OBS桶。创建算法请参考使用预置框架创建算法。创建训练作业请参考创建训练作业指导。 解析输入路径参数、输出路径参数 运行在ModelArts的模型读取存储在OBS服务的数据,或者输出至OBS服务指定路径,输入和输出数据需要配置3个地方:
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象 在Vnt1 GPU裸金属服务器(Ubuntu18.04系统),安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc
如果一个自定义策略中包含多个服务的授权语句,这些服务必须是同一属性,即都是全局级服务或者项目级服务。 由于OBS为全局服务,ModelArts为项目级服务,所以需要创建两条“作用范围”别为“全局级服务”以及“项目级服务”的自定义策略,然后将两条策略同时授予用户。 创建ModelArts相关OBS的最小化权限的自定义策略。
在ModelArts运行态的Notebook容器中,采用动态挂载特性,将OBS对象存储模拟成本地文件系统。其本质是通过挂载工具,将对象协议转为POSIX文件协议。挂载后应用层可以在容器中正常操作OBS对象。 动态挂载适用于哪些使用场景 场景1:数据集预览和操作,将承载数据集的OBS挂载至Notebook中,可以像本地文件系统一样操作数据集。