检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Notebook上安装配置Grafana 适用场景 本章节适用于在ModelArts Standard的Notebook中安装配置Grafana。 前提条件 已创建CPU或GPU类型的Notebook实例,并处于运行中。 打开Terminal。 操作步骤 在Terminal中依
在Linux上安装配置Grafana 适用场景 本章节适用于在Linux操作系统的PC中安装配置Grafana。 前提条件 一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本
监控Lite Server资源 使用CES监控Lite Server资源 使用DCGM监控Lite Server资源 父主题: Lite Server资源管理
在左侧导航栏,选择“云服务监控 > ModelArts”。 查看监控图表。 查看在线服务监控图表:单击目标在线服务“操作”列的“查看监控指标”。 查看模型负载监控图标:单击目标在线服务左侧的,在下拉列表中选择模型负载“操作”列的“查看监控指标”。 在监控区域,您可以通过选择时长,查看对应时间的监控数据。
ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 监控Lite Cluster资源:ModelArts支持使用AOM和Prometheus对资源进行监控,方便您了解当前的资源使用情况。 释放Lite Cluster资源:针对不再使用的Lite
在资源池详情页面,单击“配置管理”,在配置管理页面,可以修改设置监控的命名空间、修改集群配置,配置镜像预热信息。 单击监控的图标,可以开启或关闭监控信息,并设置监控的命名空间。监控使用请参考使用Prometheus查看Lite Cluster监控指标。 单击集群配置的图标,可以设置绑核、Drop
_vllm.sh及SSL证书。此处以chatglm3-6b为例。 ascend_vllm代码包在Step9 构建推理代码已生成。 模型权重文件获取地址请参见表1。 推理启动脚本run_vllm.sh制作请参见•创建推理脚本文件run_vllm.sh。 SSL证书制作包含cert.pem和key
推理启动脚本run_vllm.sh制作请参见•创建推理脚本文件run_vllm.sh。 SSL证书制作包含cert.pem和key.pem,需自行生成。生成方式请参见•通过openssl创建SSLpem证书。 图1 准备模型文件和权重文件 创建推理脚本文件run_vllm.sh run_vllm
推理启动脚本run_vllm.sh制作请参见下文创建推理脚本文件run_vllm.sh的介绍。 SSL证书制作包含cert.pem和key.pem,需自行生成。生成方式请参见•通过openssl创建SSLpem证书。 图1 准备模型文件和权重文件 创建推理脚本文件run_vllm.sh run_vllm
推理启动脚本run_vllm.sh制作请参见下文创建推理脚本文件run_vllm.sh的介绍。 SSL证书制作包含cert.pem和key.pem,需自行生成。生成方式请参见•通过openssl创建SSLpem证书。 图1 准备模型文件和权重文件 创建推理脚本文件run_vllm.sh run_vllm
中部署推理服务。 Step1 准备模型文件和权重文件 在OBS桶中,创建文件夹,准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。 模型权重文件获取地址请参见支持的模型列表和权重文件。 如果需要部署量化模型,请参考推理模型量化在N
中部署推理服务。 Step1 准备模型文件和权重文件 在OBS桶中,创建文件夹,准备模型权重文件、推理启动脚本run_vllm.sh及SSL证书。此处以chatglm3-6b为例。 模型权重文件获取地址请参见支持的模型列表和权重文件。 如果需要部署量化模型,请参考推理模型量化在N
描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 查询资源池监控信息。 GET https://{endpoint}/v2/{project_id}/pools { } 响应示例 状态码: 200 OK。
00尝试一次,直至专属资源池到期或者续费成功。 开通自动续费后,还可以手动续费该专属资源池。手动续费后,自动续费仍然有效,在新的到期时间前的第7天开始扣款。 自动续费的到期前7日自动扣款属于系统默认配置,您也可以根据需要修改此扣款日,如到期前6日、到期前5日等。 更多关于自动续费的规则介绍请参见自动续费规则说明。
> 更多 > 调整到期策略”。 在弹出的“调整到期策略”页面,确认无误后单击“确定”。 图1 调整到期策略 进入“费用中心 > 续费管理”页面。 自定义查询条件。 可在“到期转按需项”页签查询已经设置到期转按需的资源。 可对“手动续费项”、“自动续费项”、“到期不续费项”页签的资源设置到期转按需的操作。
s提供了一个训练作业场景下的IDE插件ModelArts-HuaweiCloud,用户通过简易的操作,实现在本地IDE中进行训练配置、资源监控、作业管理、代码管理等动作。 本章节介绍如何使用VS Code插件创建训练作业并调试。 使用VS Code插件创建训练作业并调试功能目前是白名单,需要提交工单申请开通。
到期后,资源状态变为“已过期”。 到期未续费时,专属资源池首先会进入宽限期,宽限期到期后仍未续费,资源状态变为“已冻结”。 超过宽限期仍未续费将进入保留期,如果保留期内仍未续费,资源将被自动删除。 华为云根据客户等级定义了不同客户的宽限期和保留期时长。 在专属资源池到期前均可开通自动续费,到期前7日凌晨
是否卡死,并在日志详情界面上展示,同时能配置通知及时提醒用户作业卡死。 检测规则 卡死检测主要是通过监控作业进程的状态和资源利用率来判定作业是否卡死。会启动一个进程来周期性地监控上述两个指标的变化情况。 进程状态:只要训练作业中存在进程IO有变化,进入下一个检测周期。如果在多个检
单击服务名称,进入部署模型服务详情页面,可以查看服务信息。 “详情”:可以查看服务的基本信息,包括服务、模型、资源等设置信息。 “监控”:可以查看服务监控和资源监控信息。 “算力利用率”表示每分钟NPU的平均使用率,当请求率较低时,使用率会显示为0。 “事件”:可以查看服务的事件信息。事
报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决? 问题现象 或 VS Code连接Notebook一直提示选择证书