检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
收费。 专属资源池的费用请参考专属资源池计费项。 - - 存储资源 云硬盘EVS 用于存储运行Notebook实例时产生的数据。 磁盘规格默认为5GB,从Notebook实例创建成功起,直至删除成功,每GB按照规定费用收费。 具体费用可参见云硬盘价格详情。 注意: 存储到EVS中
示例 参数说明 RUN_TYPE pretrain、sft、lora 数据预处理区分: 预训练场景下数据预处理,默认参数:pretrain 微调场景下数据预处理,默认:sft / lora ORIGINAL_TRAIN_DATA_PATH /home/ma-user/ws/llm
示例 参数说明 RUN_TYPE pretrain、sft、lora 数据预处理区分: 预训练场景下数据预处理,默认参数:pretrain 微调场景下数据预处理,默认:sft / lora ORIGINAL_TRAIN_DATA_PATH /home/ma-user/ws/tra
重复打印日志“INFO:root:Listing OBS”。 原因分析 复制数据慢的可能原因如下: 直接从OBS上读数据会造成读数据变成训练的瓶颈,导致迭代缓慢。 由于环境或网络问题,读OBS时遇到读取数据失败情况,从而导致整个作业失败。 重复打印日志,该日志表示正在读取远端存在的文件,当文件列表读取完成以后,开始
于以下原因导致nvidia-fabricmanager.service不工作: 可能系统资源不足、如内存不足、内存泄露。 硬件故障、如IB网络或者GPU互联设备故障等。 没安装nvidia-fabricmanager组件或被误卸载。 处理方法 如果未安装fabricmanager,则需安装改组件。
查询OS的配额 功能介绍 获取ModelArts OS服务中部分资源的配额,如资源池配额、网络配额等。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1
参数 是否必选 参数类型 描述 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token
入其中。 # 容器镜像构建主机需要连通公网 FROM arm64v8/ubuntu:18.04 AS builder # 基础容器镜像的默认用户已经是 root # USER root # 安装 OS 依赖(使用华为开源镜像站) COPY Ubuntu-Ports-bionic
方法一:使用JupyterLab打开Notebook实例准备环境 登录ModelArts控制台,进入“开发空间>Notebook”。 单击“创建”,进入创建页面,选择默认参数后,单击“立即创建”,确认信息无误后单击“提交”。任务提交成功后单击“立即返回”跳转至Notebook列表页。Notebook实例更多
ed_model”格式模型的加载推理。 当前推理基础镜像使用的python的logging模块,采用的是默认的日志级别Warning,即当前只有warning级别的日志可以默认查询出来。如果想要指定INFO等级的日志能够查询出来,需要在代码中指定logging的输出日志等级为INFO级别。
找到指定镜像,请在SWR控制台检查镜像及访问权限配置,或使用其他镜像并重试”。 原因分析 报错主要有如下原因: 该镜像是主账号注册的private镜像,子账号在使用,而主账号没有给子账号赋SWR权限,子账号从SWR Console界面看不到该镜像,需要主账号给子账号在SWR侧赋予
计算规格选择 是 按需选择计算规格。单击“选择”,在弹窗中选择资源规格并设置运行时长控制,单击“确定”。 在“所在区”选择计算规格所在的区域。默认显示全部区域的计算规格。 选择计算规格不可用的资源会置灰。右侧“配置信息”区域会显示计算规格的详细数据,AI Gallery会基于资产和资
1, len 32478, vendor err 129等通信信息时,说明当前网络不是很稳定。 解决方案3 可加入3个环境变量。 NCCL_IB_GID_INDEX=3: 使用RoCE v2协议,默认使用RoCE v1,但是v1在交换机上没有拥塞控制,可能丢包,而且后面的交换机不会支持v1,就无法启动。
修改Standard专属资源池支持的作业类型 迁移Standard专属资源池和网络至其他工作空间 配置Standard专属资源池可访问公网 使用TMS标签实现资源分组管理 管理Standard专属资源池的游离节点 释放Standard专属资源池和删除网络 父主题: ModelArts Standard资源管理
sh”。其中,启动脚本的完整代码请参见代码示例。 (可选)启用ranktable动态路由 如果训练作业需要使用ranktable动态路由算法进行网络加速,则可以联系技术支持开启集群的cabinet调度权限。同时,训练作业要满足如下要求才能正常实现ranktable动态路由加速。 训练使用的Python版本是3
启动MindInsight 在开发环境的JupyterLab中打开MindInsight。 单击,直接进入MindInsight可视化界面。 默认读取路径/home/ma-user/work/ 当存在两个以及以上工程的log时,界面如下。通过Runs下选择查看相对应的log。 图1 MindInsight界面(2)
scripts_modellink/llama2/0_pl_sft_70b.sh 以上命令多台机器执行时,只有${NODE_RANK}的节点ID值不同,其他参数都保持一致。其中MASTER_ADDR、 NNODES、 NODE_RANK为必填。 单机启动 对于Llama2-7b和Llam
问题现象 在线服务部署完成且服务已经处于“运行中”的状态,向服务发起推理请求,预测失败。 原因分析及处理方法 服务预测需要经过客户端、外部网络、APIG、Dispatch、模型服务多个环节。每个环节出现都会导致服务预测失败。 图1 推理服务流程图 出现APIG.XXXX类型的报错
的包年/包月资源执行任何操作。 保留期到期后,如果包年/包月资源池仍未续费,那么计算资源将被释放,数据无法恢复。 华为云根据客户等级定义了不同客户的宽限期和保留期时长。 关于续费的详细介绍请参见续费概述。 父主题: 计费模式
”,其他类型任务均设为“false”或不设。可选值如下: true:创建任务时同步创建一个任务版本 false:创建任务时不创建任务版本(默认值) data_source 否 ProcessorDataSource object 数据来源,与inputs二选一。数据源路径不支持设置为KMS加密桶中的OBS路径。