检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。 查看性能
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看Notebook实例事件 在Notebook的整个生命周期,包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录,用户可以在Notebook实例详情页中查看具体的事件,通过实例的事件,从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件,也
查看ModelArts模型事件 创建模型的(从用户可看见创建模型任务开始)过程中,每一个关键事件点在系统后台均有记录,用户可随时在对应模型的详情页面进行查看。 方便用户更清楚的了解创建模型过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 事件类型 事件信息(“XXX”表示占位符,以实际返回信息为准)
ModelArts支持云审计的关键操作 公有云平台提供了云审计服务。通过云审计服务,您可以记录与ModelArts相关的操作事件,便于日后的查询、审计和回溯。 前提条件 已开通云审计服务。 数据管理支持审计的关键操作列表 表1 数据管理支持审计的关键操作列表 操作名称 资源类型 事件名称
配额限制,帮助用户查看和管理自己的配额。 什么是配额 配额是在某一区域下最多可同时拥有的某种资源的数量。 华为云为防止资源滥用,对云服务每个区域的用户资源数量和容量做了配额限制。 如果当前资源配额限制无法满足使用需要,您可以申请扩大配额。 怎样查看配额 如需查看每个配额项目支持的
节点是容器集群组成的基本元素,在资源池详情页,单击“节点管理”页签,进行删除、重置、续费等操作。当把鼠标放在节点名称上方时,会显示资源ID,资源ID可用于查询账单或者在费用中心查询包周期资源的计费信息。 删除/退订/释放节点 若是“按需计费”的资源池,您可单击操作列的“删除”,即可实现对单个节点的资源释放。
监控资源 用户可以通过资源占用情况窗口查看计算节点的资源使用情况,最多可显示最近三天的数据。在资源占用情况窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。 操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。 操作二:单击图例“cpuUsage”、“g
源池中的数字,查看关联的资源池。可以查看该网络中可用的IP数量。 在扩展信息中可以查看监控、作业、节点、规格、事件、标签,详细介绍见下文。 查看资源池中的作业 在资源池详情页,切换到“作业”页签。您可以查看该资源池中运行的所有作业,如果当前有作业正在排队,可以查看作业在资源池排队的位置。
查看训练作业标签 通过给训练作业添加标签,可以标识云资源,便于快速搜索训练作业。 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“标签”页签查看标签信息。 支持添加、修改
Gallery的“数据”中,可以查找并下载满足业务需要的数据集。也可以将自己本地的数据集发布至AI Gallery中,共享给其他用户使用。 “资产集市 > 算法”:共享了算法。 AI Gallery的算法模块支持算法的共享和订阅。在AI Gallery的“算法”中,可以查找您想要的算法,订阅满
并在日志窗口上方提供全量日志访问链接。打开该链接可在新页面查看全部日志。 图5 查看全量日志 如果全部日志超过500M,可能会引起浏览页面卡顿,建议您直接下载日志查看。 预览链接在生成后的一小时内,支持任何人打开并查看。您可以分享链接至他人。 请注意日志中不能包含隐私内容,否则会造成信息泄露。
如何查看数据集大小 数据管理目前只统计数据集的样本数量,无法查看数据集大小。 父主题: Standard数据管理
如何查看ModelArts中正在收费的作业? 在ModelArts管理控制台,单击左侧菜单栏的“总览”,您可以在“总览”区域查看正在收费的作业。根据实际情况进入管理页面,停止实例。例如,Notebook正在计费,请前往“开发空间 > Notebook”页面,将状态为“运行中”的Notebook实例停止。
和/work是同一层级,所以在JupyterLab中看不到。 打开Terminal后,默认为~work目录,执行如下命令进入~data目录查看本地挂载路径: (PyTorch-1.8) [ma-user work]$cd (PyTorch-1.8) [ma-user ~]$cd /data
如何查看ModelArts中正在收费的作业? 在ModelArts管理控制台,单击左侧菜单栏的“总览”,您可以在“总览>生产概况”区域查看正在收费的作业。根据实际情况进入管理页面,停止并删除实例。例如,Notebook正在计费,请前往“开发空间 > Notebook”页面,将状态
Gallery中,可以报名参加正在进行中的实践活动。 查找实践活动 进入AI Gallery首页,单击“实践”,在下拉框中单击“实践 >”,进入实践首页。 在实践页面,有“进行中”、“即将开始”和“已结束”三种状态的实践活动筛选方式。 图1 查找实践活动 单击右上方的“我的实践”可以跳转到个人中心(“我的Gallery
上一步不能解决问题时,可以尝试分析日志中提示的错误信息,定位并解决问题。 也可以前往ModelArts论坛中查看是否有同类问题。Ascend训练场景可以前往昇腾论坛查看或提问。 最后,如果以上均不能解决问题,可以提工单进行人工咨询。 父主题: 模型训练高可靠性
查看Workflow工作流运行记录 运行记录是展示某条工作流所有运行状态数据的地方。 在Workflow列表页,单击某条工作流的名称,进入该工作流的详情页面。 在工作流的详情页,左侧区域即为该条工作流的所有运行记录。 图1 查看运行记录 您可以对当前工作流的所有运行记录,进行删除、编辑以及重新运行的操作。