检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训
输入位置的子目录。 图1 下载详情 完成参数填写,单击“确定”,自动跳转至AI Gallery个人中心“我的下载”页签,单击按钮,查看下载进度,等待5分钟左右下载完成,单击展开下载详情,可以查看该数据集的“目标位置”。 步骤四:创建新版自动学习图像分类项目 确保数据集创建完成且可
输入位置的子目录。 图1 下载详情 完成参数填写,单击“确定”,自动跳转至AI Gallery个人中心“我的下载”页签,单击按钮,查看下载进度,等待5分钟左右下载完成,单击展开下载详情,可以查看该数据集的“目标位置”。 步骤四:创建新版自动学习图像分类项目 确保数据集创建完成且可
创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训
创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训
称具有可识别性。 描述:描述数据集详细信息。 图1 下载详情 确认无误后单击右下角“确定”。 系统会跳转到我的下载页面,单击按钮,查看下载进度,等待数据集下载完成(下载完成大约需要5分钟,请耐心等待)。单击展开下载详情,可以查看该数据集的“目标位置”。 查看数据集是否已导入ModelArts。
ckend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。 高阶参数说明: --enable-prefix-caching:如果prompt的公
推理方式,取值为real-time/batch/edge。 real-time代表在线服务,将模型部署为一个Web Service,并且提供在线的测试UI与监控能力,服务一直保持运行。 batch为批量服务,批量服务可对批量数据进行推理,完成数据处理后自动停止。 edge表示边缘服务,通过华为云智
评估推理资源。运行如下命令,返回NPU设备信息可用的卡数。 npu-smi info # 启动推理服务之前检查卡是否被占用、端口是否被占用,是否有对应运行的进程 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23
必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下 logging_steps 2 用于指定模型训练过程中,多少步输出一次日志。日志包括了训练进度、学习率、损失值等信息。建议设置 save_steps 5000 指定模型训练过程中,每多少步保存一次模型。保存的模型可以用于后续的训练或推理任务
响应Body参数 参数 参数类型 描述 action_progress Array of JobProgress objects 实例初始化进度。 description String 实例描述。 endpoints Array of EndpointsRes objects 本地IDE(如PyCharm、VS
响应Body参数 参数 参数类型 描述 action_progress Array of JobProgress objects 实例初始化进度。 description String 实例描述。 endpoints Array of EndpointsRes objects 本地IDE(如PyCharm、VS
响应Body参数 参数 参数类型 描述 action_progress Array of JobProgress objects 实例初始化进度。 description String 实例描述。 endpoints Array of EndpointsRes objects 本地IDE(如PyCharm、VS
响应Body参数 参数 参数类型 描述 action_progress Array of JobProgress objects 实例初始化进度。 description String 实例描述。 endpoints Array of EndpointsRes objects 本地IDE(如PyCharm、VS
ckend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。 --enforce-eager:未设置INFER_MODE环境变量时,部分模型会默认
ckend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。 推理启动脚本必须名为run_vllm.sh,不可修改其他名称。 hostname和port也必须分别是0
评估推理资源。运行如下命令,返回NPU设备信息可用的卡数。 npu-smi info # 启动推理服务之前检查卡是否被占用、端口是否被占用,是否有对应运行的进程 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23
评估推理资源。运行如下命令,返回NPU设备信息可用的卡数。 npu-smi info # 启动推理服务之前检查卡是否被占用、端口是否被占用,是否有对应运行的进程 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23
响应Body参数 参数 参数类型 描述 action_progress Array of JobProgress objects 实例初始化进度。 description String 实例描述。 endpoints Array of EndpointsRes objects 本地IDE(如PyCharm、VS
ckend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示使用ray进行启动多卡推理,"mp"表示使用python多进程进行启动多卡推理。默认使用"mp"后端启动多卡推理。 高阶参数说明: --enable-prefix-caching:如果prompt的公