检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
读取文件报错,如何正确读取文件 问题现象 创建训练作业如何读取“json”和“npy”文件。 训练作业如何使用cv2库读取文件。 如何在MXNet环境下使用torch包。 训练作业读取文件,出现如下报错: NotFoundError (see above for traceback):
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
部署后的AI应用是如何收费的? ModelArts支持将AI应用按照业务需求部署为服务。训练类型不同,部署后的计费方式不同。 将AI应用部署为服务时,根据数据集大小评估模型的计算节点个数,根据实际编码情况选择计算模式。 具体计费方式请参见ModelArts产品价格详情。部署AI应
使用ModelArts时提示“权限不足”,如何解决? 当您使用ModelArts时如果提示权限不足,请您按照如下指导对相关服务和用户进行授权,并对用户权限进行检查操作。 本案例中以OBS权限不足为例,介绍如何为用户授予OBS服务权限。其它权限不足的场景也可以参考本案例操作,只是授
在Windows上安装配置Grafana 适用场景 本章节适用于在Windows操作系统的PC中安装配置Grafana。 操作步骤 下载Grafana安装包。 进入下载链接,单击Download the installer,等待下载成功即可。 安装Grafana。 双击安装包,按照指示流程安装完成即可。
训练作业如何收费? 如果您使用的是公共资源池,则根据您选择的规格、节点数、运行时长进行计费。计费规则为“规格单价×节点数×运行时长”(运行时长精确到秒)。 如果您使用的是专属资源池,则训练作业就不再进行单独计费。由专属资源池进行收费。 父主题: 计费相关
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
在ModelArts控制台查看监控指标 在总览页查看ModelArts监控指标 在ModelArts控制台总览页,支持查看生产概况、资源占用情况、训练作业资源利用情况。您可以单击生产概况的链接、资源池名称、训练作业,跳转到对应界面查看更多详情。 图1 总览页查看监控信息 在总览页查看全部事件时,
this platform”报错,具体解决方法请参见2。 处理方法 安装第三方包 pip中存在的包,使用如下代码: import os os.system('pip install xxx') pip源中不存在的包,此处以“apex”为例,请您用如下方式将安装包上传到OBS桶中。
如何使用API接口获取订阅算法的订阅id和版本id? 调用API接口使用“我的订阅”方式创建训练作业时,请求参数需要填写算法的订阅id(algorithm.subscription_id)和版本id(algorithm.item_version_id)。可调用如下接口获取相关信息,如下以北京四为例:
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
使用ModelArts时提示“权限不足”,如何解决? 当您使用ModelArts时如果提示权限不足,请您按照如下指导对相关服务和用户进行授权,并对用户权限进行检查操作。 以下案例以缺失OBS权限不足为例,介绍如何进行授权操作。 由于ModelArts的使用权限依赖OBS服务的授权,您需要为用户授予OBS的系统权限。
数据集图片无法显示,如何解决? 问题现象 创建的数据集,在进行标注时无法显示图片,单击单张图片也无法查看。或者数据集中提示图片加载异常。 原因分析 可能由于用户本地网络原因,无法正常访问OBS导致图片无法正常加载。 可能由于没有OBS桶的访问权限导致,请检查数据集输入位置所在的OBS桶,是否具有访问权限。
查看日志和性能 查看日志 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,可以在${SAVE_PATH}/logs路径下获取。日志存放路径为:/home/ma-user/ws/saved_dir_for_ma_output/llama2-70b/logs
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
VS Code中查看远端日志 在VS Code环境中执行Ctrl+Shift+P 搜show logs 选择Remote Server。 也可在如下截图的红框处切换至其他的Log 父主题: VS Code使用技巧
e Cluster集群内直接采集监控指标数据,具体参见使用Prometheus查看Lite Cluster监控指标章节。 本章节主要介绍如何在AOM上查看Lite Cluster监控指标。 AOM上查看已有监控指标 登录控制台,搜索AOM,进入“应用运维管理 AOM”控制台。 单击“监控
型界面上配置的端口。确认两处端口保持一致。模型创建界面如果不填端口信息,则ModelArts会默认监听8080端口,即镜像代码中启用的端口必须是8080。 图2 自定义镜像中的代码开放的端口 图3 创建模型界面上配置的端口 健康检查配置有问题 镜像如果配置了健康检查,服务启动失败,从以下两个方面进行排查: