检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Studio大模型即服务平台创建自定义模型、调优或压缩模型时,需要在对象存储服务OBS中创建OBS桶,用于存放模型权重文件、训练数据集或者是存放永久保存的日志。 创建OBS桶和上传文件的操作指导请参见OBS控制台快速入门。 OBS桶必须和MaaS服务在同一个Region下,否则无法选择到该OBS路径。
选择用户自己的专属资源池,以及规格与节点数。防止训练过程中出现内存溢出的情况,用户可参考表1进行配置。 图4 选择资源池规格 作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。 最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。
团队标注成员邮箱。 email_status Integer 团队标注成员任务邮件通知状态。可选值如下: 0:表示未发送过 1:表示邮箱格式错误 2:表示邮箱地址不可达, 3:表示发送成功 last_notify_time Long 团队标注成员任务邮件最近一次通知时间戳。 pass_rate
ce格式的权重,默认true。 true表示转换格式,false表示不转换格式。 num_train_epochs 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 train-iters 10 非必填。表示训练step迭代次数,有默认值 seed
节点与节点之间的依赖关系由单箭头的线段来表示,依赖关系决定了节点的执行顺序,示例中的工作流在启动后将从左往右顺序执行。DAG也支持多分支结构,用户可根据实际场景进行灵活设计,在多分支场景下,并行分支的节点支持并行运行,具体请参考配置多分支节点数据章节。 表1 Workflow 属性 描述
请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型 描述 total_number Integer 标注团队成员总数。 workers Array of Worker objects 分页查询到的标注团队成员列表。 表4 Worker 参数 参数类型 描述
/home/ma-user/work/下,会覆盖镜像中的代码目录,导致训练失败。 作业日志选择OBS中的路径,ModelArts的训练作业的日志信息则保存该路径下。 最后,请参考查看日志和性能章节查看LoRA微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 Step2
查询服务列表 获取当前用户服务列表。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 场景1:查询当前用户所有服务 1 2 3 4 5 6 from modelarts.session
告警及时响应。 ModelArts承载关键业务的对外开放EIP部署了高防服务,以防大流量攻击。 ModelArts对存放关键数据的数据库部署了数据库安全服务。 云服务防抖动和遭受攻击后的应急响应/恢复策略 ModelArts服务具备租户资源隔离能力,避免单租户资源被攻击导致爆炸半径大,影响其他租户。
使用pytorch中的dataloader读数据时,作业卡在读数据过程中,日志停在训练的过程中并不再更新日志。 解决方案4 用dataloader读数据时,适当减小num_worker。 常见案例:训练最后一个epoch卡死 问题现象 通过日志查看数据切分是否对齐,如果未对齐,容易导致部分进程完成训
本次批量服务所使用的模型名称及版本。 运行日志输出 默认关闭,批量服务的运行日志仅存放在ModelArts日志系统。 启用运行日志输出后,批量服务的运行日志会输出存放到云日志服务LTS。LTS自动创建日志组和日志流,默认缓存7天内的运行日志。如需了解LTS专业日志管理功能,请参见云日志服务。 说明: “运行日志输出”开启后,不支持关闭。
说明和并发机制。 - 是否有Linux内核驱动 是否有业务相关的Linux内核驱动代码。 - 依赖第三方组件列表 当前业务依赖的第三方软件列表(自行编译的第三方软件列表)。 例如:Faiss等。 - 推理框架 TensorRT/Triton/MSLite等。 例如: 2个推理模型
搜索算法配置。 表14 reward_attrs 参数 参数类型 描述 name String 指标名称。 mode String 搜索方向。 max:指定时,表示指标值越大越好; min:指定时,表示指标值越小越好。 regex String 指标正则表达式。 表15 search_params
选择最理想的作业,模型训练支持统一管理多个训练作业,方便用户选择最优的模型 提供训练作业的事件信息(训练作业生命周期中的关键事件点)、训练日志(训练作业运行过程和异常信息)、资源监控(资源使用率数据)、Cloud Shell(登录训练容器的工具)等能力,方便用户更清楚得了解训练作
当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现以下图中的问题。
当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。
SSS”(其中hh表示小时,mm表示分钟,ss表示秒,SSS表示毫秒)。 @modelarts:feature Object 物体检测标签专用内置属性:形状特征,类型为List。以图片的左上角为坐标原点[0, 0],每个坐标点的表示方法为[x, y],x表示横坐标,y表示纵坐标(x和y均>=0)。每种形状的格式如下:
查询Notebook实例列表 功能介绍 查询Notebook实例列表,用户可按需查询满足条件的Notebook实例列表。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
当Pod状态长时间为“Pending”,事件中出现“实例调度失败”的信息时,可根据具体事件信息确定具体问题原因。 图1 pod状态pending 通过以下命令打印Pod日志信息。 kubectl describe pod ${pod_name} volcano资源调度失败 当volcano的资源出现争抢时,会出现下图中的问题。
查询事件列表 功能介绍 查询事件列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/events 表1 路径参数 参数 是否必选