检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
"max_connections" : 0, "disk_space" : 0, "sold_out" : true } ] } 状态码 状态码 描述 200 OK 错误码 请参见错误码。 父主题: 数据库资源管理
使用CES监控Lite Server资源 场景描述 Lite Server的监控能力依赖于CES云监控服务。本文主要介绍如何对接CES云监控服务,对Lite Server上的资源和事件进行监控。 监控方案介绍 监控概述请参考BMS官方文档。除文档所列支持的镜像之外,目前还支持Ubuntu20
创建运维事件通知组 通知组通常包括运维代表、开发代表、相关领域专家等。 通知组在运维事件发送通知、WarRoom基于通知组方式发送通知时使用。 前提条件 已获取服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。 创建通知组 进入AppStage运维中心。 在顶部导航栏选择服务。
选择开启或关闭健康检查,默认关闭。 正常状态码 检查到后端服务器状态正常时,返回的状态码。 默认为200、302,可以自定义。 响应超时时间 检查的超时时间,即超过该时间后结束检查。 健康检查周期 每次健康检查的间隔时间。 不健康阈值 选择2~10,当未收到正常状态码的次数大于不健康阈值时,即认
"create_time": 1722934506431, "update_time": 1722934506431 } 状态码 状态码 描述 200 操作成功 400 错误的请求 404 请求对象不存在 409 请求与当前对象状态冲突 500 内部错误 错误码 错误码格式为:SVCSTG
访问在线服务支持的传输协议 使用WebSocket协议的方式访问在线服务 使用Server-Sent Events协议的方式访问在线服务 父主题: 将模型部署为实时推理作业
mox.file与本地接口的对应关系和切换 API对应关系 Python:指本地使用Python对本地文件的操作接口。支持一键切换为对应的MoXing文件操作接口(mox.file)。 mox.file:指MoXing框架中用于文件操作的接口,其与python接口一一对应关系。 tf
发布Workflow到AI Gallery Workflow支持发布到AI Gallery,分享给其他用户使用,执行如下代码即可完成发布。 workflow.release_to_gallery() 发布完成后可前往gallery查看相应的资产信息,资产权限默认为private,可在资产的console页面自行修改。
人工标注文本数据 由于模型训练过程需要大量有标签的数据,因此在模型训练之前需对没有标签的文本添加标签。您也可以对已标注文本进行修改、删除和重新标注。 针对文本分类场景,是对文本的内容按照标签进行分类处理,开始标注前,您需要了解: 文本标注支持多标签,即一个标注对象可添加多个标签。
人工标注音频数据 由于模型训练过程需要大量有标签的音频数据,因此在模型训练之前需对没有标签的音频添加标签。通过ModelArts您可对音频进行一键式批量添加标签,快速完成对音频的标注操作,也可以对已标注音频修改或删除标签进行重新标注。音频标注涉及到的标注标签和声音内容只支持中文和英文,不支持小语种。
审核并验收团队标注任务结果 审核团队标注任务结果 团队标注成员完成后,团队审核者可以对标注结果进行审核。 登录ModelArts管理控制台,左侧菜单栏选择“数据准备>数据标注”,在数据标注页面选择“我参与的”,在任务列表“操作”列单击“审核”,发起审核。 图1 发起审核 在审核页
告警模板参数说明 参数 说明 告警名称 设置告警模板的名称。 取值范围:1~255个字符。 告警码 请输入9为数字的告警码。同一账号内,告警码与告警名称一一对应,即告警码唯一,告警名称唯一,一个告警码唯一对应一个告警名称。 告警类型 设置新增告警的类型,如操作告警、业务质量告警、通信告警等。
对象的记录命名为{object_name}_{UTC时间}_{批次}.txt。导出的格式与数据导出一致,且如果涉及到加密字段,导出时会做打码处理。 查看任务历史。 单击“历史任务”,可以查看清除或归档任务的执行记录。 父主题: 清理数据并归档
availableZone String 可用区 状态码: 400 表8 响应Body参数 参数 参数类型 描述 errorCode String 错误代码。 errorMessage String 错误信息。 detail String 详细定位信息。 状态码: 500 表9 响应Body参数 参数
"engine_ids": [ "d68a5ca7-b5b6-4917-a464-0adef94b8067" ] } 状态码 状态码 描述 200 操作成功 400 错误的请求 404 请求对象不存在 500 内部错误 错误码 错误码格式为:SVCSTG.00100.
judge日志大小1KB,且不刷新日志内容 问题现象 judge日志大小1KB,且不刷新日志内容。 可能原因 告警原始表中存在字段值和字段类型不一致,导致解析失败。 解决方法 检查告警原始表中的数据是否有异常数据。 例如:数值类型的字段,值为NAN,可能是没有做除数为0的保护,修复异常,清理元数据,补数据后重新训练。
LoRA微调训练 前提条件 已上传训练代码、训练权重文件和数据集到SFS Turbo中。 Step1 在Notebook中修改训练超参配置 以llama2-13b LORA微调为例,执行脚本0_pl_lora_13b.sh 。 修改模型训练脚本中的超参配置,必须修改的参数如表1所
附录:大模型推理常见问题 问题1:在推理预测过程中遇到NPU out of memory 解决方法:调整推理服务启动时的显存利用率,将--gpu-memory-utilization的值调小。 问题2:在推理预测过程中遇到ValueError:User-specified max_model_len
预训练任务 步骤1 上传训练权重文件和数据集 如果在准备代码和数据阶段已经上传权重文件和数据集到容器中,可以忽略此步骤。 如果未上传训练权重文件和数据集到容器中,具体参考上传代码和权重文件到工作环境和上传数据到指定目录章节完成。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的预训练和全量微调方案。训练框架使用的是ModelLink。 本方案目前仅适用于部分企业客户,完成