检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用SSH工具连接Notebook,服务器的进程被清理了,GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理,GPU显存没有释放;或者代码运行过程中内存溢出导致程序被清理,需要释放下显存,清理GPU,然后重新启动。为了避免进程结束引起的代码未保存,建议您每隔一段时间保存下代码输出至OBS桶或者容器
两个训练作业的模型都保存在容器相同的目录下是否有冲突? ModelArts训练作业之间的存储目录相互不影响,每个环境之间彼此隔离,看不到其他作业的数据。 父主题: 查看作业详情
查询客户端配额可绑定的客户端应用列表 功能介绍 查询客户端配额可绑定的客户端应用列表。支持按客户端应用名称模糊搜索 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET
查询自定义后端服务数据源列表 功能介绍 查询自定义后端服务数据源列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/ap
报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决? 问题现象 原因分析 实例处于非运行状态。 解决方法 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
日志提示“pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields” 问题现象 使用pandas读取csv数据表时,日志报出如下错误导致训练作业失败: pandas.errors.ParserError:
在边缘节点安装Docker后,如何设置Docker Cgroup Driver? 在边缘节点安装Docker后,Docker Cgroup Driver必须设置为cgroupfs,一般Docker默认的就是cgroupfs,如需重新设置参考如下操作步骤: 可以使用docker info查看Cgroup
查询系统配置列表 功能介绍 获取系统配置列表 URI GET /v1/{project_id}/system/configs 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 华为云项目ID,您可以从获取项目ID中获取。 最小长度:1 最大长度:128
配置应用网关路由 为应用网关配置路由规则,当应用网关收到访问流量时,会根据已配置的路由规则判断是否匹配并做相应的处理。 操作步骤 登录微服务引擎控制台。 为准备资源时创建的应用网关配置路由,请参考创建路由。 参考下表填写相关参数,其余参数保持默认。 参数名称 参数说明 路由名称
管理应用中的决策表 决策表是分析和表达多逻辑条件下,执行不同操作情况的工具。在AstroZero环境配置中,可管理当前账号下所有的决策表,包括查看、启用、禁用决策表。 约束与限制 在AstroZero沙箱环境和生产环境,才会显示此菜单。在沙箱环境和生产环境中,操作完全相同,本章节以在生产环境中操作为例。
管理应用中的配置态流程 配置态流程是对BPM(工作流)流程进行一定的封装,其中定义了流程的基本要素,使用户能够在配置态对流程进行定制修改。在AstroZero环境配置中,可管理当前账号下所有的配置态流程,包括查看、启用、禁用配置态流程等。 约束与限制 在AstroZero沙箱环境
创建项目时,如何快速创建OBS桶及文件夹? 在创建项目时需要选择训练数据路径,本章节将指导您如何在选择训练数据路径时,快速创建OBS桶和OBS文件夹。 在创建自动学习项目页面,单击数据集输入位置右侧的“”按钮,进入“数据集输入位置”对话框。 单击“新建对象存储服务(OBS)桶”,
创建Workflow模型注册节点 功能介绍 通过对ModelArts模型管理的能力进行封装,实现将训练后的结果注册到模型管理中,便于后续服务部署、更新等步骤的执行。主要应用场景如下: 注册ModelArts训练作业中训练完成的模型。 注册自定义镜像中的模型。 属性总览 您可以使用
添加自定义版本活动 开发中心已预置了固定的版本活动,同时支持添加其他版本活动,并为版本活动关联已发布的版本活动类型的工具链。 前提条件 已获取组织管理员角色权限,权限申请方法请参见申请权限。 添加版本活动 在开发中心首页右上角选择“工具链 > 版本活动管理”。 在“版本活动管理”页面,单击右上角“添加活动”。
使用DCGM监控Lite Server资源 场景描述 本文主要介绍如何在Lite Server上配置DCGM监控,用于监控Lite Server上的GPU资源。 DCGM是用于管理和监控基于Linux系统的NVIDIA GPU大规模集群的一体化工具,提供多种能力,包括主动健康监控
通用功能卡片 在角色桌面模板中,系统管理员和合作伙伴管理员可以在通用功能卡片中添加应用、管理应用。 在自定义桌面中,仅当前用户可添加、管理卡片中的应用。 添加通用功能卡片 进入IPDCenter基础服务登录页面,输入账号和密码,单击“登录”。 在角色桌面首页,单击自定义桌面页签上的,进入编辑状态。
运行时引擎负载均衡功能介绍 负载均衡(Software/Server Load Balancer,SLB)基于Nginx/OpenResty构建,作为业务前置的流量接入网关,提供反向代理、负载均衡、路由分发、灰度分流、限流降级、访问控制、监控告警等能力。 SLB组件介绍 SLB组件间的关系如图1所示。
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令