检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Dashboards界面,单击“Add a new panel”。 在New dashboard /Edit Panel界面,填写如下参数。 Data source:已配置Grafana数据源; Metric:指标名称,可参考表1、表2、表3获取想要查询的指标; Labels:填写过滤该指标的标签,请参考表4。
无法配置RoCE网卡的IP、网关 重要 npu-smi不可用 请检查NPU驱动是否正常 无法正常使用NPU卡 重要 ascend-dmi不可用 请检查工具包ToolBox是否正常安装 无法使用ascend-dmi进行性能分析 安装CES Agent监控插件 当前账户需要给CES授权委托,请参考创建用户并授权使用云监控服务。
Notebook:Notebook作业 state String 业务状态。可选值如下: Enabling:启动中 Enabled:已启动 Disabling:关闭中 Disabled:已关闭 表18 driver 参数 参数类型 描述 gpu PoolDriverStatus object GPU驱动信息。
CREATING:镜像保存中,此时Notebook不可用。 CREATE_FAILED:镜像保存失败。 ERROR:错误。 DELETED:已删除。 ACTIVE:镜像保存成功,保存的镜像可以在SWR控制台查看,同时可以基于保存的镜像创建Notebook实例。 status_message
训练各步骤性能参考 步骤 说明 预计时长 镜像下载 首次下载镜像的时间(25G)。 8分钟 资源调度 点创建训练作业开始到变成运行中的时间(资源充足、镜像已缓存)。 20秒 训练列表页打开 已有50条训练作业,单击训练模块后的时间。 6秒 日志加载 作业运行中,已经输出1兆的日志文本,单击训练详情页面需要多久加载出日志。
pull、apt-get update/upgrade和pip install命令判断是否可正常访问外部可用的开源软件仓库,若可以正常访问表示环境已连接外部网络。 上述的虚拟机或物理机需要为arm64架构。 建议构建节点安装的Linux系统版本为Ubuntu 18.04。 本指导使用/o
送通知等参数。本节介绍了设置ModelArts服务和模型告警规则的具体方法。 只有“运行中”的在线服务,支持对接CES监控。 前提条件: 已创建ModelArts在线服务。 已在云监控服务创建ModelArts监控服务。登录“云监控服务”控制台,在“自定义监控”页面,根据界面提示创建ModelArts监控服务。
├──cpu_npu # 检测资源消耗 ├── config │ ├── config.json # 服务的配置模板,已配置了ma-standard,tgi示例 │ ├── mmlu_subject_mapping.json # mmlu数据集学科信息 │
式三选一。 engine_name String 训练作业选择的引擎名称。如果已填写engine_id,则此参数无需填写。 engine_version String 训练作业选择的引擎版本名称。如果已填写engine_id,则此参数无需填写。 image_url String
下载模型后,再手动上传到物理机/home/onnx_models目录下。 下载好模型后,需要编写推理脚本。为了便于操作,本指导中所需的代码已发布在ModelArts代码仓,可以使用如下命令下载推理脚本样例代码: cd /home_host/work git clone https://gitee
和ID和获取用户名和ID。 已准备好用于智能标注的图像分类的数据集,并获取数据集ID,例如“6mHUGe7ETlhayb4qDMN”,数据集的创建和ID获取请参见创建图像分类数据集并进行标注任务。 用于智能标注的数据集必须存在至少2种标签,且每种标签已标注的图片不少于5张。 用于智能标注的数据集必须存在未标注图片。
在弹出的“添加DNAT规则页面”,配置DNAT规则: 使用场景:选择“虚拟私有云”。 端口类型:选择“具体端口”。 支持协议:选择“TCP”。 公网IP类型:选择已创建的弹性公网IP。 公网端口:建议选择区间为20000-30000,保证该端口号不冲突。 实例类型:单击“服务器”,选择Server服务器。
式三选一。 engine_name String 训练作业选择的引擎名称。如果已填写engine_id,则此参数无需填写。 engine_version String 训练作业选择的引擎版本名称。如果已填写engine_id,则此参数无需填写。 image_url String
Notebook:Notebook作业 state String 业务状态。可选值如下: Enabling:启动中 Enabled:已启动 Disabling:关闭中 Disabled:已关闭 表24 driver 参数 参数类型 描述 gpu PoolDriverStatus object GPU驱动信息。
6.3.909版本相对于6.3.908版本新增如下内容: 文档中新增对Llama3.1的适配。 ModelLink框架和MindSpeed已升级到最新版本。 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址
获取动态挂载OBS实例详情。 动态卸载OBS 动态卸载OBS。 标签管理 添加资源标签 给指定Notebook资源添加标签,支持批量添加,当添加的标签key已存在,则覆盖该标签的value。 删除资源标签 删除指定Notebook资源的标签,支持批量删除。 镜像管理 查询支持的镜像列表 根据指定条件分页查询满足条件的所有镜像。
6.3.909版本相对于6.3.908版本新增如下内容: 文档中新增对Llama3.1的适配。 ModelLink框架和MindSpeed已升级到最新版本。 支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址
CREATING:镜像保存中,此时Notebook不可用。 CREATE_FAILED:镜像保存失败。 ERROR:错误。 DELETED:已删除。 ACTIVE:镜像保存成功,保存的镜像可以在SWR控制台查看,同时可以基于保存的镜像创建Notebook实例。 status_message
model_status 否 String 模型状态,可根据模型状态执行查询。模型状态: publishing:发布中 published:已发布 failed:发布失败 building: 构建镜像中 building_failed: 构建失败 description 否 String
6.3.909版本相对于6.3.908版本新增如下内容: 文档中新增对Llama3.1的适配。 ModelLink框架和MindSpeed已升级到最新版本。 支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表 序号 支持模型 支持模型参数量 权重文件获取地址