检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Lite Server资源管理 查看Lite Server服务器详情 启动或停止Lite Server服务器 同步Lite Server服务器状态 切换Lite Server服务器操作系统 监控Lite Server资源 NPU日志收集上传 释放Lite Server资源
Standard自动学习 功能咨询 准备数据 创建项目 数据标注 模型训练 部署上线
解决,请获取如下信息,并联系华为云技术支持协助解决故障。 获取服务ID。 进入“部署上线>在线服务”页面,在服务列表中找到自动学习任务中部署的在线服务,自动学习部署的服务都是以“exeML-”开头的。单击服务名称进入服务详情页面,在“基本信息”区域,获取“服务ID”的值。 获取在线服务事件信息。
自动模型优化(AutoSearch) 自动模型优化介绍 创建自动模型优化的训练作业 父主题: 使用ModelArts Standard训练模型
E中会自动同步至云上开发环境。 初始化同步: 在本地IDE的Project目录下,单击右键,选择“Deployment”,单击“Upload to xxx”(Notebook名称),将本地工程文件上传至指定的Notebook。 图7 同步本地文件至Notebook 后续同步: 只
部署上线任务提交失败 当出现此错误时,一般情况是由于账号的配额受限导致的。 在自动学习项目中,启动部署后,会自动将模型部署为一个在线服务,如果由于配额限制(即在线服务的个数超出配额限制),导致无法将模型部署为服务。此时会在自动学习项目中提示“部署上线任务提交失败”的错误。 修改建议 方法1:
自动学习声音分类预测报错ERROR:input key sound is not in model 根据在线服务预测报错日志ERROR:input key sound is not in model inputs可知,预测的音频文件是空。预测的音频文件太小,换大的音频文件预测。 父主题:
suppressed"。 原因分析 根据SFS客户端日志分析出现问题的时间点发现,SFS盘连接的客户端个数较多,在问题的时间点并发读取数据,I/O超高;当前SFS服务端的机制是:当SFS盘的性能到上限时,就会IO排队。IO排队造成处理时间超过 1 分钟时,客户端内核会打印"rpc_check_timeout:939
配置了合理的服务部署超时时间,服务还是部署失败,无法启动 服务部署成功的标志是模型启动完成,如果没有配置健康检查,就无法检测到模型是否真实的启动。 在自定义镜像健康检查接口中,用户可以实现实际业务是否成功的检测。在创建AI应用时配置健康检查延迟时间,保证容器服务的初始化。 因此,
nal中work目录下的文件相同。即用户在Notebook中新建的,或者是从OBS目录中同步的文件。 挂载OBS存储的Notebook,JupyterLab目录的文件可以与OBS的文件进行同步,使用JupyterLab文件上传下载功能。Terminal的文件与JupyterLab目录的文件相同。
自动学习使用子账号单击开始训练出现错误Modelarts.0010 用主账号给子账号配置ModelArts所使用的OBS桶的ACL权限即可。 父主题: 模型训练
r,能否删除将他的标注结果从整体标注结果中分离出来? 目前不支持从标注任务中删除labeler。 labeler的标注必须通过审核后,才能同步到最终结果,不支持单独分离操作。 父主题: Standard数据管理
当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。 开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。 控制台设置 在创建训练作业页面,开启“自动重启”开关,并勾选“无条件自动重启”,开启无条
“样本属性”设置为自动分组任务中的“属性名称”,并通过设置样本属性值,筛选出分组结果。 图2 查看自动分组结果 查看自动分组的历史任务 在数据集详情页面的“全部”页签中,单击“自动分组 > 任务历史”。在弹出的“任务历史”对话框中,展示当前数据集之前执行的自动分组任务的基本信息。
存储费用:自动学习作业的数据通过对象存储服务(OBS)上传或导出,存储计费按照OBS的计费规则。 综上,运行自动学习作业的费用 = 计算资源费用(2.43 元) + 存储费用 示例:使用专属资源池运行自动学习作业。计费项:标准存储费用 假设用户于2023年4月1日创建了自动学习的图
本章节介绍如何申请弹性公网IP并绑定到弹性云服务器。通过本文档,您可以实现弹性云服务器访问公网的目的。 使用华为云账号登录CCE管理控制台。 找到购买Cluster资源时选择的CCE集群,单击名称进入CCE集群详情页面,单击“节点管理”页签,在“节点”页签中单击需要登录的节点名称,跳转至弹性云服务器页面。 图1
上传数据和算法至SFS(首次使用时需要) 前提条件 ECS服务器已挂载SFS,请参考ECS服务器挂载SFS Turbo存储。 在ECS中已经创建ma-user和ma-group用户,请参考在ECS中创建ma-user和ma-group。 已经安装obsutil,请参考下载和安装obsutil。
部署上线 自动学习中部署上线是将模型部署为什么类型的服务? 父主题: Standard自动学习
GPT-2基于Server适配PyTorch GPU的训练推理指导 场景描述 本文将介绍在GP Ant8裸金属服务器中,使用Megatron-Deepspeed框架训练GPT-2(分别进行单机单卡和单机多卡训练)。 训练完成后给出自动式生成内容,和交互式对话框模式。 背景信息 Megatron-Deepspeed
模型训练 自动学习训练作业创建失败 自动学习训练作业失败 父主题: 自动学习