检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
查看操作 在ModelArts管理控制台的左侧导航栏中选择“模型部署 > 在线服务”,在服务列表中,您可以单击名称/ID,进入服务详情页面。 在服务详情页面,切换到“事件”页签,查看事件信息。 父主题: 管理同步在线服务
设置在线服务故障自动重启 场景描述 当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。 约束限制 仅支持使用Snt9b资源的同步在线服务。 只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。
以通过如下方式重启在线服务: 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署>在线服务”,进入在线服务列表页面。您可以单击“操作”列的“更多>重启”,重启服务。 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署>在线服务”,进入在线服务列表页面。单击
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器,单台服务
GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML 问题现象 华为云裸金属服务器,NVIDIA驱动卸载后重新安装。 (1)已卸载原有版本NVIDIA驱动和CUDA版本,且已安装新版本的NVIDIA驱动和CUDA版本
在线服务预测报错ModelArts.4503 问题现象 在线服务部署完成且服务已经处于“运行中”的状态后,向运行的服务发起推理请求,报错ModelArts.4503。 原因分析及处理方法 服务预测报错ModelArts.4503有多种场景,常见场景如下: 通信出错 请求报错:{"
集成在线服务API至生产环境中应用 针对已完成调测的API,可以将在线服务API集成至生产环境中应用。 前提条件 确保在线服务一直处于“运行中”状态,否则会导致生产环境应用不可用。 集成方式 ModelArts在线服务提供的API是一个标准的Restful API,可使用HTTP
创建在线服务包 功能介绍 计费工作流购买资源。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/workfl
service会优先读取网卡配置文件中的IP设置为主机IP, 此时无论DH Cient是否关闭,服务器都可以获取分配IP。 当服务器没有网卡配置文件时,DH Client开启,此时服务器会分配私有IP。如果关闭DH Client,则服务器无法获取私有IP。 图2 查看NetworkManager配置 图3 查看网络配置
根据提示完成身份验证,下载密钥,并妥善保管。 获取在线服务信息 在调用接口时,需获取在线服务的调用地址,以及在线服务的输入参数信息。步骤如下: 登录ModelArts管理控制台,在左侧导航栏中选择“模型部署 > 在线服务”,默认进入“在线服务”列表。 单击目标服务名称,进入服务详情页面。 在“在线服务”的详情页面
GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败 问题现象 在A系列GPU裸金属服务器上,系统环境是ubuntu20.04+nvidia515+cuda11.7,使用Pytorch2.0时出现如下错误: CUDA
XXX,表示模型中没有导入对应依赖模块。 处理方法 依赖模块没有导入,需要您在模型推理代码中导入缺失依赖模块。 例如您的模型是Pytorch框架,部署为在线服务时出现告警:ModuleNotFoundError: No module named ‘model_service.tfserving
GPU裸金属服务器使用EulerOS内核误升级如何解决 问题现象 GP Vnt1裸金属服务器,操作系统为EulerOS 2.9(基于CentOS制作的Linux发行版),经常遇到服务器重启后,操作系统内核无故升级,导致系统上原安装的nvidia-driver等软件无法使用,只能卸载重新安装。
训练管理 创建算法 查询算法列表 查询算法详情 更新算法 删除算法 获取支持的超参搜索算法 创建训练实验 创建训练作业 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标
已在云监控页面设置告警规则,具体操作请参见设置告警规则。 在线服务已正常运行一段时间(约10分钟)。 对于新创建的在线服务,需要等待一段时间,才能查看上报的监控数据和监控视图。 故障、删除状态的在线服务,无法在云监控中查看其监控指标。当在线服务再次启动或恢复后,即可正常查看。 对接云监控之前,
开启支持APP认证功能 在部署为在线服务时,您可以开启支持APP认证功能。或者针对已部署完成的在线服务,您可以修改服务,开启支持APP认证功能。 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署 > 在线服务”,进入在线服务管理页面。 开启支持APP认证功能。 在部署为在线服务时,即“
部署的在线服务状态为告警 问题现象 在部署在线服务时,状态显示为“告警”。 解决方法 使用状态为告警的服务进行预测,可能存在预测失败的风险,请从以下4个角度进行排查,并重新部署。 后台预测请求过多。 如果您使用API接口进行预测,请检查是否预测请求过多。大量的预测请求会导致部署的在线服务进入告警状态。
单击“确定”,完成DNS内网域名的创建。 VPC访问在线服务 通过VPC访问通道访问在线服务,API如下: https://{DNS内网域名}/{URL} DNS内网域名:设置的内网域名。您还可以通过在线服务列表页,单击“VPC访问通道”,打开弹出框,查看“访问域名”。 URL:在线服务的URL为服务详情页