正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查询服务更新日志 功能介绍 查询实时服务更新日志。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/services/{service_id}/logs
一台可访问外网的Ubuntu服务器。如果没有请具备以下条件: 准备一台ECS服务器(建议规格选8U或者以上,镜像选择Ubuntu,建议选择22.04版本,本地存储100G),具体操作请参考《弹性云服务器快速入门》。 购买弹性公网IP,并绑定到购买的弹性云服务器ECS上,具体操作请参见《弹性公网IP快速入门》。
资源池监控 功能介绍 获取资源池的监控信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/pools/{pool_name}/monitor
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为{work_dir}/saved_dir_for_ma_output/Lla
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。 本示例日志路径为/home/ma-user/ws/saved_dir_for_ma_output/Qwen-14B/logs
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为{work_dir}/saved_dir_for_ma_output/GLM3-6B/logs
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为{work_dir}/saved_dir_for_ma_output/BaiChuan2-13B/logs
如何查看PyCharm ToolKit的错误日志 PyCharm ToolKit的错误日志记录在PyCharm的“idea.log”中,以Windows为例,该文件的路径在“C:\Users\xxx\.IdeaIC2019.2\system\log\idea.log”。 在日志中搜索“modelarts”,可以查看所有和PyCharm
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
日志提示“label_map.pbtxt cannot be found” 问题现象 使用目标检测算法训练时,训练作业日志运行出现如下报错:ERROR:root:label_map.pbtxt cannot be found. It will take a long time to
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
不一致,请刷新重试。 在各模块资源监控页签查看ModelArts监控指标 训练作业:用户在运行训练作业时,可以查看多个计算节点的CPU、GPU、NPU资源使用情况。具体请参见训练资源监控章节。 在线服务:用户将模型部署为在线服务后,可以通过监控功能查看CPU、内存、GPU等资源使
自定义镜像创建训练作业时,检查启动文件路径排查解决。 可能为多个进程或者worker读写同一个文件。如果使用了SFS,则考虑是否多个节点同时写同一个文件。分析代码中是否存在多进程写同一文件的情况。建议避免作业中存在多进程,多节点并发读写同一文件的情况。 检查报错的路径是否为OBS路径
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看ModelArts相关审计日志 在您开启了云审计服务后,系统会记录ModelArts的相关操作,且控制台保存最近7天的操作记录。本节介绍如何在云审计服务管理控制台查看最近7天的操作记录。 操作步骤 登录云审计服务管理控制台。 在管理控制台左上角单击图标,选择区域。 在左侧导航
在AOM控制台查看ModelArts所有监控指标 ModelArts会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况以及开发环境、训练作业、推理服务的关键资源的使用情况,并上报到AOM,用户可直接在AOM上查看,详细步骤如下: 登录控制台,搜索AOM,进入“应用运维管理”控制台。
出现该问题的可能原因如下: 程序运行过程中,产生了core文件,core文件占满了"/"根目录空间。 本地数据、文件保存将"/cache"目录3.5T空间用完了。 云上训练磁盘空间一般指如下两个目录的磁盘空间: “/”根目录,是docker中配置项“base size”,默认是10G,云上统一改为50G。