-
在线服务预测报错MR.0105 - AI开发平台ModelArts
在线服务预测报错MR.0105 问题现象 部署为在线服务,服务处于运行中状态,预测时报错:{ "erno": "MR.0105", "msg": "Recognition failed","words_result": {}}。 图1 预测报错 原因分析 请在“在线服务”详情页面
-
自动学习声音分类预测报错ERROR:input key sound is not in model - AI开发平台ModelArts
key sound is not in model 根据在线服务预测报错日志ERROR:input key sound is not in model inputs可知,预测的音频文件是空。预测的音频文件太小,换大的音频文件预测。 父主题: 模型训练
-
日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” - AI开发平台ModelArts
日志提示“Runtimeerror: Dataloader worker (pid 46212 ) is killed by signal: Killed BP” 问题现象 训练作业日志运行出现如下报错:Runtimeerror: Dataloader worker (pid 46212
-
训练输出的日志只保留3位有效数字,是否支持更改loss值? - AI开发平台ModelArts
训练输出的日志只保留3位有效数字,是否支持更改loss值? 在训练作业中,训练输出的日志只保留3位有效数字,当loss过小的时候,显示为0.000。具体日志如下: INFO:tensorflow:global_step/sec: 0.382191 INFO:tensorflow:step:
-
ModelArts支持的监控指标 - AI开发平台ModelArts
ModelArts支持的监控指标 功能说明 为使用户更好地掌握自己的ModelArts在线服务和对应模型负载的运行状态,云服务平台提供了云监控。您可以使用该服务监控您的ModelArts在线服务和对应模型负载,执行自动实时监控、告警和通知操作,帮助您更好地了解服务和模型的各项性能指标。
-
日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” - AI开发平台ModelArts
日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” 问题现象 训练过程中出现如下报错: TypeError: '(slice(0, 13184, None), slice(None
-
VS Code连接后长时间未操作,连接自动断开 - AI开发平台ModelArts
通信消息,避免防火墙认为链路空闲而关闭。 客户端配置(用户可根据需要自行配置,不配置默认是不给服务端发心跳包),如图1,图2所示。 图1 打开VS Code ssh config配置文件 图2 增加配置信息 配置信息示例如下: Host ModelArts-xx ……
-
DCGM监控方案 - AI开发平台ModelArts
grafana/grafana-oss 在BMS页面打开Grafana所在节点的安全组配置,添加入方向规则,允许外部访问3000、9090端口: 在浏览器地址栏输入xx.xx.xx.xx:3000,登录Grafana,默认账号密码为:admin/admin。在配置管理页面,添加数据源,类型选择Prometheus。
-
用户创建AI应用时构建镜像或导入文件失败 - AI开发平台ModelArts
S权限自定义策略样例。 在统一身份认证服务为用户增加自定义策略权限。详细操作请参见创建自定义策略。 登录“统一身份认证服务”控制台,左侧菜单选择“权限管理 > 权限”,单击右上角“创建自定义策略”,创建自定义策略权限。 图3 统一身份认证服务添加权限 图4 创建自定义策略 权限内容如下:
-
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” - AI开发平台ModelArts
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象 在使用pytorch启动多进程的时候,出现如下报错: RuntimeError: Cannot re-initialize CUDA in
-
监控 - AI开发平台ModelArts
监控 CES服务监控方案 DCGM监控方案 父主题: DevServer资源配置
-
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” - AI开发平台ModelArts
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” 问题现象 使用mindspore进行训练时,出现如下报错: [ERROR] RUNTIME(3002)model execute error, retCode=0x91
-
查询服务监控信息 - AI开发平台ModelArts
Monitor objects 监控信息详情。 service_running_instance_count Integer 服务运行中实例数量。 service_instance_count Integer 服务实例数量。 req_count_per_min Long 服务分钟调用量,这里指当前时间上一分钟的服务调用总量。
-
查询服务监控信息 - AI开发平台ModelArts
查询服务监控信息 查询当前服务对象监控信息。 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 方式1:根据部署在线服务生成的服务对象进行查询服务监控 1 2 3 4 5 6 7 from
-
设置告警规则 - AI开发平台ModelArts
Arts服务和模型告警规则的具体方法。 只有“运行中”的在线服务,支持对接CES监控。 前提条件 已创建ModelArts在线服务。 已在云监控服务创建ModelArts监控服务。登录“云监控服务”控制台,在“自定义监控”页面,根据界面提示创建ModelArts监控服务。 操作步骤
-
使用ma-cli ma-job get-log命令查询ModelArts训练作业日志 - AI开发平台ModelArts
-i / --job-id String 是 查询指定训练任务ID的任务日志。 -t / --task-id String 否 查询指定task的日志,默认是work-0。 示例 查询指定训练任务ID的作业日志。 ma-cli ma-job get-log --job-id b63e90baxxx
-
使用ma-cli dli-job get-log命令查询DLI Spark运行日志 - AI开发平台ModelArts
使用ma-cli dli-job get-log命令查询DLI Spark运行日志 执行ma-cli dli-job get-log命令查询DLI Spark作业后台的日志。 $ ma-cli dli-job get-log -h Usage: ma-cli dli-job get-log
-
在Linux上安装配置Grafana - AI开发平台ModelArts
在本地PC访问Grafana配置。 确保ECS绑定了弹性公网IP,且对应配置正确(入方向放开TCP协议的3000端口,出方向全部放通)。设置如下: 单击ECS服务器名称进入详情页,单击“安全组”页签,单击“配置规则”。 单击“入方向规则”,入方向放开TCP协议的3000端口,出方向默认全部放通。 在浏览器中输入“
-
云监控平台ModelArts监控 - AI开发平台ModelArts
云监控平台ModelArts监控 ModelArts支持的监控指标 设置告警规则 查看监控指标
-
OOM导致训练作业失败 - AI开发平台ModelArts
错误码返回137,如下图所示: 图1 错误日志 日志中有报错,含有“killed”相关字段,例如如下截图: 图2 错误日志信息 日志中有报错“RuntimeError: CUDA out of memory. ”,如下图所示: 图3 错误日志信息 Tensorflow引擎日志中出现“Dst tensor