检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。 最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6
样本管理 查询样本列表 查询单个样本详情 批量删除样本 父主题: 数据管理
用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 flavor_type 否 String 查询训练作业规格的类型,不填为查询所有。枚举值: CPU GPU Ascend 请求参数 无 响应参数 状态码: 200 表3 响应Body参数 参数 参数类型
单击作业名称,进入调优作业详情页面,可以查看作业详情和日志。 “详情”:可以查看作业的基本信息,包括作业、模型、数据等设置信息。 “日志”:可以搜索、查看和下载作业日志。 查看loss:当作业进入训练流程之后,会按照Step进行loss打印,因此在日志中搜索关键字段“lm loss”即可查看loss。 获
资源和引擎规格接口 查询资源规格列表 查询引擎规格列表 父主题: 训练管理
支持1~90个字符,请勿在描述中输入涉政、迷信、违禁等相关敏感词,否则发布审核无法通过。 可见范围 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 可用范围 选择是否启用“申请用户可用”。 勾选
标注任务管理 创建标注任务 查询数据集的标注任务列表 查询标注任务详情 父主题: 数据管理
time_range 否 String 查询时间范围,默认值“-1.-1.60”。格式为startTimeInMillis.endTimeInMillis.durationInMinutes,参数解释: startTimeInMillis: 查询的开始时间,格式为UTC毫秒,如果指定
参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 查询资源池监控信息。 GET https://{endpoint}/v2/{project_id}/pools { } 响应示例 状态码: 200
资源和引擎规格接口 查询作业资源规格 查询作业引擎规格 父主题: 训练管理(旧版)
导入任务管理 查询导入任务列表 创建导入任务 查询导入任务状态 父主题: 数据管理
数据集版本管理 查询数据集版本列表 创建数据集版本 查询数据集版本详情 删除数据集版本 父主题: 数据管理
kubectl。 图2 kubectl 访问集群配置 在节点机器中,输入命令,查看Kubernetes集群信息。若显示如图图3的内容,则配置成功。 kubectl cluster-info 图3 查看 Kubernetes 集群信息正确弹出内容 创建SFS Turbo SFS Turbo
kubectl。 图2 kubectl 访问集群配置 在节点机器中,输入命令,查看Kubernetes集群信息。若显示如图图3的内容,则配置成功。 kubectl cluster-info 图3 查看 Kubernetes 集群信息正确弹出内容 创建SFS Turbo SFS Turbo
作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。 最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6
作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。 最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6
作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。 最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6
基于performance advisor进行性能劣化分析 完成分析后单击下图图5中view查看报告。html(图6)中显示计算维度存在高优先级的AICORE降频问题,分别为pp stage0的8号卡和pp stage3的60号卡。查看对8号卡的降频分析(图7)可以发现节点降频主要影响了FlashAtt
数据集管理 查询数据集列表 创建数据集 查询数据集详情 更新数据集 删除数据集 父主题: 数据管理
可视化作业 创建可视化作业 查询可视化作业列表 查询可视化作业详情 更新可视化作业描述 删除可视化作业 停止可视化作业 重启可视化作业 父主题: 训练管理(旧版)