检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
服务状态一直处于“部署中”,查看模型日志未发现服务有明显错误。 原因分析 一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。 处理方法 模型的端口没有配置,如您在自定义镜像配置文件中修改了端口号,需要在部署模型时,配置对应的端口号,使新的模型重新部署服务。
使用自定义镜像创建在线服务,如何修改默认端口 当模型配置文件中定义了具体的端口号,例如:8443,创建AI应用没有配置端口(默认端口号为8080),或者配置了其他端口号,均会导致服务部署失败。您需要把AI应用中的端口号配置为8443,才能保证服务部署成功。 修改默认端口号,具体操作如下: 登录ModelArts控制台,左侧菜单选择“AI应用管理
如何查看训练作业资源占用情况? 在ModelArts管理控制台,选择“模型训练>训练作业”,进入训练作业列表页面。在训练作业列表中,单击目标作业名称,查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。 CPU:CPU使用率(cpuUsage)百分比(Percent)。
删除:针对模型的某一版本进行删除。 查看模型详情 当模型创建成功后,您可以进入模型详情页查看模型的信息。 登录ModelArts管理控制台,在左侧菜单栏中选择“模型管理”,进入“自定义模型”列表页面。 单击目标模型名称,进入模型详情页面。 您可以查看模型的基本信息、模型精度,以及切换页签查看更多信息。 表3
选择修改,修改后,单击保存即可生效。 修改DashBoard查询数据时间范围 图7 修改查询数据时间范围 单击右上角图标,即可修改DashBoard整体的数据查询时间。除固定查询时间外的其他panel,都会应用该数据查询时间范围。 增加新panel 图8 新增一个panel 单击
的第三方组件可通过API http://<节点IP>:<端口号>/metrics获取ModelArts采集到的指标数据。 开通前需要确认使用的端口号,端口号可选取10120~10139范围内的任一端口号,请确认选取的端口号在各个节点上都没有被其他应用占用。 Kubernetes下
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs