检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。 查看性能
查看Notebook实例事件 在Notebook的整个生命周期,包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录,用户可以在Notebook实例详情页中查看具体的事件,通过实例的事件,从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件,也
查看训练作业资源占用情况 约束限制 训练作业的资源占用情况系统会自动保存30天,过期会被清除。 如何查看训练作业资源使用详情 在ModelArts管理控制台的左侧导航栏中选择“模型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能
在线服务处于运行中状态时,如何填写推理请求的request header和request body 问题现象 部署在线服务完成且在线服务处于“运行中”状态时,通过ModelArts console的调用指南tab页签可以获取到推理请求的地址,但是不知道如何填写推理请求的header及body。
在ModelArts控制台查看监控指标 在总览页查看ModelArts监控指标 在ModelArts控制台的总览页,支持查看生产概况(即总体作业运行数量)、资源占用情况、训练作业资源利用情况。您可以单击生产概况的链接、资源池名称、训练作业,跳转到对应界面查看更多详情。 图1 总览页查看监控信息
开发环境如何实现IAM用户隔离? 开发环境如果需要实现IAM用户隔离,即多个IAM用户之间无法查看、修改和删除他人创建的Notebook。 目前有两种方案: 方案一:删除modelarts:notebook:listAllNotebooks细粒度权限。 方案二:使用工作空间功能:
git插件密码失效如何解决? 问题现象 在JupyterLab中使用git插件时,当git clone私有仓库和git push文件时会出现如下报错: 原因分析 原因为Github已取消密码授权方式,此时在git clone私有仓库和git push文件时需要在授权方式框中输入token。
如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练? ModelArts会帮用户生成RANK_TABLE_FILE文件,可通过环境变量查看文件位置。 在Notebook中打开terminal,可以运行如下命令查看RANK_TABLE_FILE: 1 env
给子账号配置查看所有Notebook实例的权限 查找实例 Notebook页面展示了所有创建的实例。如果需要查找特定的实例,可根据筛选条件快速查找。 参考给子账号配置查看所有Notebook实例的权限后,进入“开发空间>Notebook”页面,打开“查看所有”开关,可以看到IAM
见什么是区域、可用区? 资源类型:ModelArts支持查询的资源类型如表1所示。 资源标签:不填写标签时,表示查询所有资源,无论此资源是否有配置标签。选择相应标签查询资源,用户可以通过多个标签组合查询资源使用情况。 表1 ModelArts的资源类型 资源类型 说明 ModelArts-Notebook
调用API接口创建训练作业和部署服务时,如何填写资源池的参数? 调用API接口创建训练作业时,“pool_id”为“资源池ID”。 调用API接口部署在线服务时,“pool_name”为“资源池ID” 。 图1 资源池ID 父主题: API/SDK
使用ModelArts时提示“权限不足”,如何解决? 当您使用ModelArts时如果提示权限不足,请您按照如下指导对相关服务和用户进行授权,并对用户权限进行检查操作。 本案例中以OBS权限不足为例,介绍如何为用户授予OBS服务权限。其它权限不足的场景也可以参考本案例操作,只是授
"error_code": "AS.0001" } 其中,error_code表示错误码,error_msg表示错误描述信息,具体请参见错误码。 父主题: 如何调用API
如何在代码中打印GPU使用信息 用户可通过shell命令或python命令查询GPU使用信息。 使用shell命令 执行nvidia-smi命令。 依赖CUDA nvcc watch -n 1 nvidia-smi 执行gpustat命令。 pip install gpustat
如何在训练中加载部分训练好的参数? 在训练作业时,需要从预训练的模型中加载部分参数,初始化当前模型。请您通过如下方式加载: 通过如下代码,您可以查看所有的参数。 from moxing.tensorflow.utils.hyper_param_flags import mox_flags
Lite Server GPU A系列裸金属服务器如何进行RoCE性能带宽测试? GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 如何将Ubuntu20.04内核版本从低版本升级至5.4.0-144-generic? 如何禁止Ubuntu 20.04内核自动升级?
Lite Server GPU裸金属服务器使用EulerOS内核误升级如何解决 GPU A系列裸金属服务器无法获取显卡如何解决 GPU裸金属服务器无法Ping通如何解决 GPU A系列裸金属服务器RoCE带宽不足如何解决? GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed
准备一台具有Docker功能的机器,如果没有,建议申请一台弹性云服务器并购买弹性公网IP,并在准备好的机器上安装必要的软件。 ModelArts提供了ubuntu系统的脚本,方便安装docker。 本地Linux机器的操作等同ECS服务器上的操作,请参考本案例。 登录ECS控制台,购买弹性云服务器,镜像选择“公共镜像”,推荐使用ubuntu18