检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务状态一直处于“部署中” 问题现象 服务状态一直处于“部署中”,查看模型日志未发现服务有明显错误。 原因分析 一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。 处理方法 模型的端口没有配置,如您在自定义镜像配置文件中修改了端口号,需要在部署模型时,配置对应的端口号,使新的模型重新部署服务。
erOS。 图1 购买ECS Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install
部署在线服务出现报错No CUDA runtime is found 问题现象 部署在线服务出现报错No CUDA runtime is found,using CUDA_HOME='/usr/local/cuda'。 原因分析 从日志报错信息No CUDA runtime is
文本或文件进行服务测试。 如果您的元模型是自定义的,即推理代码和配置文件是自行编写的(配置文件编写说明),“调用指南”只是将您编写的配置文件进行了可视化展示。调用指南的输入参数与配置文件对应关系如下所示。 图2 配置文件与调用指南的对应关系 不同输入请求的预测方式如下: JSON文本预测
配置了合理的服务部署超时时间,服务还是部署失败,无法启动 服务部署成功的标志是模型启动完成,如果没有配置健康检查,就无法检测到模型是否真实的启动。 在自定义镜像健康检查接口中,用户可以实现实际业务是否成功的检测。在创建AI应用时配置健康检查延迟时间,保证容器服务的初始化。 因此,
配置Lite Cluster网络 本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“
04的镜像。 图1 创建ECS服务器-选择X86架构的公共镜像 登录主机后,安装Docker,可参考Docker官方文档。也可执行以下命令安装docker。 curl -fsSL get.docker.com -o get-docker.sh sh get-docker.sh 获取基础镜像。本示例以Ubuntu18
模型使用CV2包部署在线服务报错 问题现象 使用CV2包部署在线服务报错。 原因分析 使用OBS导入元模型,会用到服务侧的标准镜像,标准镜像里面没有CV2依赖的so的内容。所以ModelArts不支持从对象存储服务(OBS)导入CV2模型包。 处理方法 需要您把CV2包制作为自定
储和镜像知识。 配置流程 图1 Lite Cluster资源配置流程图 表1 Cluster资源配置流程 配置顺序 配置任务 场景说明 1 配置Lite Cluster网络 购买资源池后,需要弹性公网IP并进行网络配置,配置网络后可通过公网访问集群资源。 2 配置kubectl工具
准备工作: 购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置OBS命令行工具 (可选)工作空间配置 模型训练: 线下容器镜像构建及调试 上传镜像 上传数据至OBS(首次使用时需要)
出现此问题现象,通常是因为您部署的模型过大导致的。解决方法如下: 精简模型,重新导入模型和部署上线。 购买专属资源池,在部署上线为在线服务时,使用专属资源池进行部署。 父主题: 服务部署
部署预测分析服务 模型部署 模型部署操作即将模型部署为在线服务,并且提供在线的测试UI与监控能力。完成模型训练后,可选择准确率理想且训练状态为“运行成功”的版本部署上线。具体操作步骤如下。 在“运行节点”页面中,待训练状态变为“等待输入”,双击“服务部署”节点,完成相关参数配置。
为什么使用客户端上传镜像失败? 上传数据和算法至SFS ECS服务器已挂载SFS,请参考在ECS服务器挂载SFS Turbo存储。 已经在ECS中设置权限,请参考在ECS中设置ModelArts用户可读权限。 已经安装和配置obsutil,请参见安装和配置OBS命令行工具。 准备数据 登录coc
服务部署、启动、升级和修改时,镜像不断重启如何处理? 问题现象 服务部署、启动、升级和修改时,镜像不断重启。 原因分析 容器镜像代码错误 解决方法 根据容器日志进行排查,修复代码,重新创建模型,部署服务。 父主题: 服务部署
单击“部署模型服务”进入部署页面,完成创建配置。 表1 部署模型服务 参数 说明 服务设置 服务名称 自定义部署模型服务的名称。 支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、中划线、下划线的名称。 描述 部署模型服务的简介。支持256字符。 模型设置 部署模型 单击“选择模型”
服务部署失败,报错ModelArts.3520,服务总数超限 部署服务时,ModelArts报错“ModelArts.3520: 在线服务总数超限,限制为20”,接口返回“A maximum of xxx real-time services are allowed.”,表示服务数量超限。
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64
务可以正常部署成功。 如果三次重试后依然没有足够的资源,则本次服务部署失败。参考以下方式解决: 如果是在公共资源池部署服务,可等待其他用户释放资源后,再进行服务部署。 如果是在专属资源池部署服务,在满足模型需求的前提下,尝试选用更小的容器规格或自定义规格,进行服务部署; 如果当前
在线服务部署是否支持包周期? 在线服务不支持包周期的计费模式。 父主题: 功能咨询
服务部署、启动、升级和修改时,拉取镜像失败如何处理? 问题现象 服务部署、启动、升级和修改时,拉取镜像失败。 原因分析 节点磁盘不足,镜像大小过大。 解决方法 首先考虑优化镜像,减小节点磁盘的占用。 优化镜像无法解决问题,请联系系统管理员处理。 父主题: 服务部署