检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
资源规格,可通过查询支持的服务部署规格可获取规格列表。
在模型列表,单击模型名称可以进入详情页查看模型详细信息和任务。 当模型“状态”变成“创建成功”时,表示模型创建完成。 图3 查看我的模型状态 调优模型,使用6种不同的调优参数去训练模型。 模型创建成功后,在我的模型列表,单击操作列的“更多 > 调优”,进入创建调优作业页面。
查看训练作业的“日志”,出现报错“ERROR:root:label_map.pbtxt cannot be found.
获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 action_type 是 String 对训练作业的操作请求。参数值设置为terminate时,表示终止训练作业操作。
可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。
执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。
执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1,执行以下命令配置IP转发。
获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。
训练最后一个epoch卡死 问题现象 通过日志查看数据切分是否对齐,若未对齐,容易导致部分进程完成训练退出,而部分训练进程因未收到其他进程反馈卡死,如下图同一时间有的进程在epoch48,而有的进程在epoch49。 解决方案 对齐数据。 父主题: 训练作业卡死
处理方法 在代码中打印出numpy的版本,查看是否为1.18.5版本,若非该版本号则在代码开始处执行: import os os.system('pip install numpy==1.18.5') 如果依旧有报错情况,将以上代码修改为: import os os.system(
解决方案 拷贝文件和文件夹均可采用: import moxing as mox mox.file.set_auth(is_secure=False) 拷贝单个大文件5G以上时可采用: from moxing.framework.file import file_io 查看当前moxing
查看详细日志。 查看详细耗时日志可以辅助定位性能瓶颈,但会影响推理性能。
解决方法 请前往ModelArts控制台查看实例是否处于运行状态,如果实例已停止,请执行启动操作,如果实例处于其他状态比如“错误”,请尝试先执行停止然后执行启动操作。待实例变为“运行中”后,再次执行远程连接。 父主题: VS Code连接开发环境失败故障处理
解决方案 查看“/home/ma-user/log/”下以“kernelgateway”开头的最新日志文件,搜索“Starting kernel”附近的日志。
准备Notebook ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看Notebook使用场景介绍。
准备Notebook ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看Notebook使用场景介绍。
准备Notebook ModelArts Notebook云上云下,无缝协同,更多关于ModelArts Notebook的详细资料请查看Notebook使用场景介绍。
管理模型训练作业 查看训练作业详情 查看训练作业资源占用情况 查看模型评估结果 查看训练作业事件 查看训练作业日志 修改训练作业优先级 使用Cloud Shell调试生产训练作业 重建、停止或删除训练作业 管理训练容器环境变量 查看训练作业标签 父主题: 使用ModelArts Standard
图1 预测报错 原因分析 请在“在线服务”详情页面的日志页签中查看对应的报错日志,分析报错原因。 图2 报错日志 从上图报错日志判断,预测失败是模型推理代码编写有问题。
图2 查看NetworkManager配置 图3 查看网络配置 命令“yum update -y”或“yum update NetworkManagre-config-server”,都会将NetworkManagre-config-server软件升级,高版本的NetworkManagre-config-server