正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
事件 展示当前服务使用过程中的关键操作,比如服务部署进度、部署异常的详细原因、服务被启动、停止、更新的时间点等。 事件保存周期为1个月,1个月后自动清理数据。 查看服务的事件类型和事件信息,请参见查看在线服务的事件 日志 展示当前服务下每个AI应用的日志信息。包含最近5分钟、最近30分钟、最近1小时和自定义时间段。
终止训练作业,只可终止创建中、等待中、运行中的作业。 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(预览)。 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的日志(OBS链接),可全量查看或直接下载。 查询训练作业指定任务的运行指标 查询训练作业指定任务的运行指标。 查询训练作业列表
服务ID 批量服务的ID。 状态 批量服务当前状态。 任务ID 批量服务的任务ID。 计算节点规格 批量服务的节点规格。 计算节点个数 批量服务的节点个数。 任务开始时间 本次批量服务的任务开始时间。 环境变量 批量服务创建时填写的环境变量。 任务结束时间 本次批量服务的任务结束时间。
服务ID 批量服务的ID。 状态 批量服务当前状态。 任务ID 批量服务的任务ID。 计算节点规格 批量服务的节点规格。 计算节点个数 批量服务的节点个数。 任务开始时间 本次批量服务的任务开始时间。 环境变量 批量服务创建时填写的环境变量。 任务结束时间 本次批量服务的任务结束时间。
查看训练作业标签 通过给训练作业添加标签,可以标识云资源,便于快速搜索训练作业。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“标签”页签查看标签信息。 支持添加、修改
在ModelArts控制台查看监控指标 在总览页查看ModelArts监控指标 在ModelArts控制台总览页,支持查看生产概况、资源占用情况、训练作业资源利用情况。您可以单击生产概况的链接、资源池名称、训练作业,跳转到对应界面查看更多详情。 图1 总览页查看监控信息 在总览页查看全部事件时,
创建新版本:创建新的AI应用版本。参数配置除版本外,将默认选择上一个版本的配置信息,您可以对参数配置进行修改。 删除:删除对应的AI应用。 说明: 如果AI应用的版本已经部署服务,需先删除关联的服务后再执行删除操作。AI应用删除后不可恢复,请谨慎操作。 单击AI应用的“版本数量”,可查看版本列表信息。
用户自定义镜像或者通过基础镜像导入的AI应用时,用户自己编写了很多自定义的业务逻辑,这些逻辑有问题将会导致服务部署或者预测失败,需要能够排查出哪里有问题。 处理方法 服务部署失败后,进入服务详情界面,查看服务部署日志,明确服务部署失败原因(用户代码输出需要使用标准输入输出函数,否则输出的内容不会呈现到
图4 查看不同计算节日志 当日志文件过大时,系统日志窗口仅加载最新的部分日志,并在日志窗口上方提供全量日志访问链接。打开该链接可在新页面查看全部日志。 图5 查看全量日志 如果全部日志超过500M,可能会引起浏览页面卡顿,建议您直接下载日志查看。 预览链接在生成后的一小时内,
查看批量服务预测结果 当您在部署批量服务时,会选择输出数据目录位置,您可以查看“运行完成”状态的批量服务运行结果。 操作步骤 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署>批量服务”,进入“批量服务”管理页面。 单击状态为“运行完成”的目标服务名称,进入服务详情页面。
由于最终JSON体中需要填写的是图片文件的真实路径,也就是OBS对应的路径,所以在复制到本地做完分析和评估操作后,需要将原来的本地数据集路径映射到OBS路径,然后将新的list送入analysis接口。 如果使用的是OBS路径作为输入的data_url,则只需要替换本地路径的字符串即可。 1
lArts是怎么判定训练任务结束?如何知道是哪个节点是worker呢? TensorFlow框架分布式训练的情况下,会启动ps与worker任务组,worker任务组为关键任务组,会以worker任务组的进程退出码,判断训练作业是否结束。 通过task name判断的哪个节点是w
迁移后应用出图效果相比GPU无法对齐怎么办 模型精度有问题怎么办? 模型转换失败时如何查看日志和定位原因? Stable Diffusion WebUI如何适配? LoRA适配流是怎么样的? 数据类型不匹配问题如何处理? 父主题: 基于AIGC模型的GPU推理业务迁移至昇腾指导
查看训练作业事件 训练作业的(从用户可看见训练任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应训练作业的详情页面进行查看。 方便用户更清楚的了解训练作业运行过程,遇到任务异常时,更加准确的排查定位问题。当前支持的作业事件如下所示: 训练作业创建成功 训练作业创建失败报错:
“预置镜像” 本次训练作业使用的预置镜像框架。仅使用预置框架创建的训练作业才有该参数。 “自定义镜像” 本次训练作业使用的自定义镜像。仅使用自定义镜像创建的训练作业才有该参数。 “代码目录” 训练作业代码目录所在的OBS路径。 您可以单击代码目录后的“编辑代码”,在“OBS在线编
查看授权列表 功能介绍 查看授权列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/authorizations 表1 路径参数
查看作业详情 如何查看训练作业资源占用情况? 如何访问训练作业的后台? 两个训练作业的模型都保存在容器相同的目录下是否有冲突? 训练输出的日志只保留3位有效数字,是否支持更改loss值? 训练好的模型是否可以下载或迁移到其他账号?如何获取下载路径? 父主题: Standard训练作业
在需要查看的事件左侧,单击展开该事件的详细信息。 单击需要查看的事件“操作”列的“查看事件”,可以在弹窗中查看该操作事件结构的详细信息。 更多关于云审计服务事件结构的信息,请参见《云审计服务用户指南》。 父主题: 使用CTS审计ModelArts服务
volumes=[nfs-x]”。 原因分析 用户账号下的SFS Turbo所在的VPC网络需要与专属资源池所在的网络打通,运行于该专属资源池的训练作业才能正常挂载SFS。因此,当训练作业挂载SFS失败时,可能是网络不通导致的。 处理步骤 进入训练作业详情页,在左侧获取SFS Turbo的名称。 图1 获取SFS
Controlnet训练 使用文本提示词可以生成一副精美的画作,然而无论再怎么精细地使用提示词来指导模型,也无法描述清楚人物四肢的角度、背景中物体的位置、光线照射的角度,使用Controlnet可以通过图像特征来为扩散模型的生成过程提供更加精细控制的方式。 将Controlnet适配到昇腾卡进行训练,