检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
日志提示“ '(slice(0, 13184, None), slice(None, None, None))' is an invalid key” 问题现象 训练过程中出现如下报错: TypeError: '(slice(0, 13184, None), slice(None
Finetune训练 本章节介绍SDXL&SD 1.5模型的Finetune训练过程。Finetune是指在已经训练好的模型基础上,使用新的数据集进行微调(fine-tuning)以优化模型性能。 启动SD1.5 Finetune训练服务 使用ma-user用户执行如下命令运行训练脚本。
PyTorch1.0引擎提示“RuntimeError: std:exception” 问题现象 在使用PyTorch1.0镜像时,必现如下报错: “RuntimeError: std:exception” 原因分析 PyTorch1.0镜像中的libmkldnn软连接与原生torch的冲突,具体可参看文档。
使用MaaS部署模型服务 在ModelArts Studio大模型即服务平台可以将模型部署为服务,便于在“模型体验”或其他业务环境中可以调用。 约束限制 部署模型服务时,ModelArts Studio大模型即服务平台预置了推理的最大输入输出长度。模型Qwen-14B默认是204
删除节点池 功能介绍 删除节点池。包周期资源池不支持。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v2/{project_id}/pools/{
(23|25).* GPU 支持在容器中使用GPU显卡的设备管理插件。 1.2.15 v1.23.* huawei-npu 2.1.5(推荐) v1.(23|25).* NPU 支持容器里使用huawei NPU设备的管理插件。 volcano 1.11.9(推荐) v1.(23|25)
以PyTorch框架创建训练作业(新版训练) 本节通过调用一系列API,以训练模型为例介绍ModelArts API的使用流程。 概述 使用PyTorch框架创建训练作业的流程如下: 调用认证鉴权接口获取用户Token,在后续的请求中需要将Token放到请求消息头中作为认证。 调
GPU A系列裸金属服务器节点内如何进行NVLINK带宽性能测试方法? 场景描述 本文指导如何进行节点内NVLINK带宽性能测试,适用的环境为:Ant8或者Ant1 GPU裸金属服务器, 且服务器中已经安装相关GPU驱动软件,以及Pytorch2.0。 GPU A系列裸金属服务器
推理精度测试 本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证
推理精度测试 本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “Runtim
查看批量服务详情 当模型部署为批量服务成功后,您可以进入“批量服务”页面,来查看服务详情。 登录ModelArts管理控制台,在左侧菜单栏中选择“模型部署>批量服务”,进入“批量服务”管理页面。 单击目标服务名称,进入服务详情页面。 您可以查看服务的“名称”、“状态”等信息,详情说明请参见表1。
新建Workflow工作流 功能介绍 创建Workflow工作流。可参考如何开发Workflow,创建工作流。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI
更新模型服务的单个属性 功能介绍 更新模型服务的单个属性,目前只支持instance_count(更新模型服务实例数量),仅运行中、告警、异常状态下的在线服务可以执行该操作。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生
日志提示“errorMessage:The specified key does not exist” 问题现象 在用moxing访问OBS路径时,出现如下错误: ERROR:root: stat:404 errorCode:NoSuchKey errorMessage:The specified
日志提示“Out of bounds nanosecond timestamp” 问题现象 在使用pandas.to_datetime转换时间时,出现如下报错: pandas._libs.tslibs.np_datetime.OutOfBoundsDatetime: Out of
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” 问题现象 使用mindspore进行训练时,出现如下报错: [ERROR] RUNTIME(3002)model execute error, retCode=0x91
批量删除标签 功能介绍 批量删除标签。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/datasets/{dataset
获取Workflow工作流列表 功能介绍 展示Workflow工作流列表。 接口约束 无 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/workflows
日志提示“CUDNN_STATUS_NOT_SUPPORTED. ” 问题现象 在pytorch训练时,出现如下报错: RuntimeError: cuDNN error: CUDNN_STATUS_NOT_SUPPORTED. This error may appear if you