检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在ModelArts管理控制台,选择“模型训练>训练作业”,进入训练作业列表页面。在训练作业列表中,单击目标作业名称,查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU:CPU使用率(cpuUsage)百分比(Percent)。 MEM:物理内存使用率(memUsage)百分比(Percent)。
dli:jobs:get(查询作业详情) dli:jobs:listAll(查询作业列表) dli:jobs:create(创建新作业) 在工作流中集成DLI 集成MRS MRS mrs:job:get(查询作业详情) mrs:job:submit(创建并执行作业) mrs:job:list(查询作业列表)
reward_attrs 参数 参数类型 描述 name String 指标名称。 mode String 搜索方向。 max指定时表示指标值越大越好; min指定时表示指标值越小越好。 regex String 指标正则表达式。 表19 search_params 参数 参数类型 描述
查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的日志(OBS链接),可全量查看或直接下载。 查询训练作业指定任务的运行指标 查询训练作业指定任务的运行指标。 查询训练作业列表 根据指定查询条件查询用户创建的训练作业列表。 查询超参搜索所有trial的结果 查询超参搜索所有trial的结果。
估,并且给出调优诊断和建议。 针对使用预置算法创建训练作业,无需任何配置,即可查看此评估结果(由于每个模型情况不同,系统将自动根据您的模型指标情况,给出一些调优建议,请仔细阅读界面中的建议和指导,对您的模型进行进一步的调优)。 针对用户自己编写训练脚本或自定义镜像方式创建的训练作
描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 查询资源池监控信息。 GET https://{endpoint}/v2/{project_id}/pools { } 响应示例 状态码: 200 OK。
如何访问训练作业的后台? ModelArts不支持访问训练作业后台。 父主题: 查看作业详情
例如:使用了C83版本。 - 性能指标与预期 例1: 模型:YOLOv5 运行环境:Vnt1 单卡 性能指标:QPS 100/s (两进程) 性能约束:单次请求最大可以接受时延需小于100ms 性能预期:QPS 130/s 例2: 模型:OCR 运行环境:6348(单核48U超线程) 性能指标:QPS 10/s(四进程)
练代码中无需设置。训练代码去除NCCL_SOCKET_IFNAME环境变量设置逻辑后,单击右侧“重建”,重新创建训练作业,提交训练作业后等待作业完成。 等待训练作业是否变成“已完成”状态。 是,故障处理完成。 否,则联系技术支持排查节点状态。 建议与总结 环境变量NCCL_SOC
训练作业是否支持定时或周期调用? ModelArts训练作业不支持定时周期化调用。当您的作业处于“运行中”状态时,可以按照业务需求进行调用。 父主题: 管理训练作业版本
训练作业性能问题 训练作业性能降低 父主题: 训练作业
拷贝文件夹时可采用: mox.file.copy_parallel(threads=0,is_processing=False) 父主题: 训练作业卡死
通过对ModelArts模型管理的能力进行封装,实现将训练后的结果注册到模型管理中,便于后续服务部署、更新等步骤的执行。主要应用场景如下: 注册ModelArts训练作业中训练完成的模型。 注册自定义镜像中的模型。 属性总览 您可以使用ModelStep来构建模型注册节点,ModelStep结构如下:
属资源池的训练作业才能正常挂载SFS。因此,当训练作业挂载SFS失败时,可能是网络不通导致的。 处理步骤 进入训练作业详情页,在左侧获取SFS Turbo的名称。 图1 获取SFS Turbo的名称 登录弹性文件服务SFS控制台,在SFS Turbo列表找到训练作业挂载的SFS
故障检测:通过os-node-agent插件在系统内周期性巡检故障特征,及时发现节点故障。 指标采集:通过os-node-agent插件采集GPU/NPU利用率指标等重要的观测数据,上报到租户侧AOM。 节点运维:授权后,通过os-node-agent插件执行诊断脚本,进行故障定位定界。 父主题:
哪里可以了解Atlas800训练服务器硬件相关内容 场景描述 本文提供Atlas800训练服务器硬件相关指南,包括三维视图、备件信息、HCCL常用方法以及网卡配置信息。 Atlas 800训练服务器三维视图 Atlas 800 训练服务器(型号9000)是基于华为鲲鹏920+Snt9处理器的AI训练
在JupyterLab中使用MindInsight可视化作业 ModelArts支持在开发环境中开启MindInsight可视化工具。在开发环境中通过小数据集训练调试算法,主要目的是验证算法收敛性、检查是否有训练过程中的问题,方便用户调测。 MindInsight能可视化展现出训
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
查询资源池列表,可通过标签、资源池状态筛选查询资源池列表 查询资源池 删除资源池 更新资源池 资源池监控 资源池统计 查询资源规格列表 查询专属资源池作业列表 查询专属资源池作业统计信息
基于HTTP的推送技术,服务器可以向客户端推送事件。这种技术通常用于实现服务器向客户端推送实时数据,例如聊天应用、实时新闻更新等。 SSE主要解决了客户端与服务器之间的单向实时通信需求(例如ChatGPT回答的流式输出),相较于WebSocket(双向实时),它更加轻量级且易于实现。