检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
卡驱动后才会有相关指标。 图2 监控界面 至此,监控插件已经安装完成,相关指标的采集可以在UI界面直接查看或者根据指标值配置相关告警。 父主题: 监控Lite Server资源
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决? 父主题: 制作自定义镜像用于创建Notebook
要在主流搜索引擎中搜索“IP地址查询”获取,而不是使用ipconfig或ifconfig/ip命令在本地查询。 图5 查询外网IP地址 父主题: 管理Notebook实例
图1 等待模型载入 更多查看训练日志和性能操作,请参考查看日志和性能章节。 如果需要使用断点续训练能力,请参考断点续训练章节修改训练脚本。 父主题: 预训练
0105,请查看在线服务详情页面的日志页签查看对应的错误日志。 从AI Gallery中获取:请咨询该模型在AI Gallery中的发布者。 父主题: 在线服务
等,这些负载会占用一部分网络带宽,从而影响NVLINK带宽的表现。重新安装软件后,这些负载可能被清除,从而使NVLINK带宽恢复正常。 父主题: Lite Server
可执行下述命令关闭进程,查询进程后显示已无运行中python进程。 pkill -9 python ps -ef 图19 关闭训练进程 父主题: Lite Cluster资源配置
String 操作类型,取值deploy/delete。 result Boolean 操作结果,true代表成功,false表示操作失败。 父主题: 服务管理
中,将脚本后台运行,例如: nohup train.sh > output.log 2>&1 & tail -f output.log 父主题: VS Code连接开发环境失败故障处理
Bad Request 401 Unauthorized 403 Forbidden 404 Not Found 错误码 请参见错误码。 父主题: 授权管理
"create_time" : 1686718209968 } 状态码 状态码 描述 200 查询训练作业镜像保存任务成功 错误码 请参见错误码。 父主题: 训练管理
simulated annealing algorithm." } ] } 状态码 状态码 描述 200 ok 错误码 请参见错误码。 父主题: 训练管理
训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“事件”页签查看事件信息。 图1 查看事件信息 父主题: 管理模型训练作业
ana登录页面即代表在Notebook中安装和配置Grafana成功。首次登录用户名和密码为admin,登录成功后请根据提示修改密码。 父主题: 安装配置Grafana
中,将脚本后台运行,例如: nohup train.sh > output.log 2>&1 & tail -f output.log 父主题: VS Code连接开发环境失败常见问题
明 参数 是否必选 参数类型 描述 predictor 是 Predictor对象 Predictor对象,其属性只包括推理服务测试。 父主题: 服务管理
invalid nodepool name" } 状态码 状态码 描述 200 OK。 400 Bad request 错误码 请参见错误码。 父主题: 节点池管理
"error_msg" : "pool not found" } 状态码 状态码 描述 200 OK。 404 Not Found。 错误码 请参见错误码。 父主题: 资源管理
推理完成后,生成的图片保存在 ${container_work_dir}/flux/result 目录下,如下图所示: 图17 推理结果 父主题: AIGC模型训练推理
"sku_count" : 1 }, "consume_limit" : 1000 } 状态码 状态码 描述 201 OK 错误码 请参见错误码。 父主题: Workflow工作流管理